Машины также изучают баскский, каталонский, галисийский языки...
Испания 2023-11-01 01:19:00 Телеграм-канал "Новости Испании"
В настоящее время в Википедии насчитывается 422 167 статей, написанных или переведенных на баскский язык. По словам директора Института баскского языка Euskarabidea-Navarre Жаби Аракама (Puente la Reina, 1981), этот язык входит в число сорока наиболее используемых в этой совместной энциклопедии, даже превосходя количество статей на таких языках, как финский или норвежский. Веха, если учесть, что число говорящих на баскском языке едва превышает один миллион человек. Теперь они поставили перед собой новую задачу: научить искусственный интеллект говорить на баскском языке. С этой целью правительства Басков и Наварры, а также Государственное бюро баскского языка Ипарральде (Страна Басков) запустили платформу Gaitu, которая призвана создать бесплатную публичную базу данных с голосами и акцентами граждан, чтобы компании, организации и частные лица могли использовать ее. Эта платформа является частью более широкой инициативы Common Voice, в рамках которой был создан международный публичный банк голосов на более чем ста языках. Эти три администрации, объединенные соглашением о сотрудничестве Hiruko Ituna, распространяют этот инструмент всего несколько недель, но уже имеют более 200 часов записей. Добровольцы читают вслух некоторые из 100 000 имеющихся фраз и записывают их в программу. Кроме того, они могут проверять голоса других людей. Другими словами, они проверяют правильность звучания и соответствие фразам, предлагаемым программой. Задача состоит не в том, чтобы записи были идеальными, а в том, чтобы они были понятны. Любая фраза, произнесенная понятным образом, скорее всего, будет считаться валидной, поскольку именно ее должна понять машина". Аракама поясняет, что из каждых трех записанных часов два уже подтверждены. Это очень хорошие показатели, которые объясняются, в частности, тем, что за баскским языком стоит очень активное и, главное, очень молодое лингвистическое сообщество. По его словам, язык "восстанавливается благодаря молодежи". Например, в Стране Басков подавляющее большинство молодых людей в возрасте до 25 лет говорят на баскском языке. В Наварре каждый четвертый понимает баскский язык или говорит на нем хорошо, и большинство из них - молодые люди. Существуют различия между районами: в баскоязычном районе, по оценкам, восемь из каждых десяти молодых людей говорят на баскском языке, в то время как в смешанных и небаскоязычных районах этот показатель значительно ниже. Именно молодежь баскоязычного сообщества является движущей силой адаптации новых технологий к этому языку. "Цифры очень хорошие с точки зрения использования баскского языка в социальных сетях. Это хорошая новость, потому что правительство может хотеть сделать язык более динамичным в любой сфере, но если у вас нет за спиной лингвистического сообщества, которое в этом заинтересовано, то вы ничего не сделаете. У нас есть сообщество, которое очень и очень активно использует новые технологии, что свидетельствует о его стремлении к всестороннему развитию своего языка, о том, что оно стремится жить на баскском языке", - говорит Мирен Добаран, заместитель министра по языковой политике правительства Басков. В этой связи Добаран поясняет, что в переводе с баскского Gaitu означает "тренировать", обучать машины, хотя в нем есть и "символический смысл расширения возможностей, расширения прав и возможностей нас как носителей языка, как языкового сообщества, как участников этого обучения". Он имеет в виду не только тех, кто живет в Эускади, Наварре или Ипарральде, но и диаспору. "Важно, чтобы все диалекты имели свое место", - подчеркивает Аракама. В баскском языке эти диалекты называются эускальками и имеют фонетические или грамматические различия. На самом деле существует "общий" баскский язык - батуа. Задача состоит в том, чтобы обучить машину так, чтобы все эти диалекты были представлены, чтобы именно машина адаптировалась к естественной речи человека, а не наоборот. "Чем больше часов записи у нас будет, тем лучше, потому что искусственный интеллект будет совершенствоваться все больше и больше". По оценкам, примерно через 1 000 часов мы сможем получить достойный уровень", - добавляет Аракама. Малые языковые сообщества дают наибольший импульс развитию своих языков. Например, каталанский язык уже превосходит английский, испанский и китайский по количеству записанных и подтвержденных часов. Аракама считает, что это может быть связано с силой того, что на баскском языке называется auzolan - "совместная работа". Ни одно учреждение не может позволить себе нанять достаточное количество людей для записи и проверки тысяч часов, поэтому гражданам было предложено "записать свои собственные голоса". Учитывая, что голос все чаще используется в новых технологиях, отмечает Добаран, "те из нас, кто хочет жить на баскском языке или на языках меньшинств, знают, что нам придется приложить усилия, чтобы обучить эти машины". Я думаю, что людей воодушевляет то, что "мы научим машины говорить по-баскски, и в будущем колл-центры смогут понимать нас, наши машины, наши GPS". В этом и заключается цель: предложить данные голосового банка крупным технологическим компаниям, чтобы они могли получить к ним бесплатный доступ. Как компаниям, так и частным лицам или государственным органам. Любой человек может получить доступ к банку. Однако, как отмечает Аракама, с юридическими гарантиями и гарантиями конечного назначения голосов. Они считают, что больше, чем компании, от проекта выиграют именно баскоязычные граждане. "Очень немногие компании самостоятельно возьмутся за создание такой базы данных для миллионного языкового сообщества. Нужна определенная критическая масса", - заключает он. Gaitu.eus - одна из инициатив, направленных на популяризацию баскского языка, но есть и другие, которые дают хорошие результаты, например Euskaraldia. Масштабная социальная акция, направленная на изменение языковых привычек граждан и поощрение возможности говорить на баскском языке. Есть люди, которые, стесняясь или не зная, понимает ли их собеседник, начинают разговор сразу на испанском, - объясняет Аракама. В рамках этой инициативы, которая реализуется уже несколько лет и приурочена ко Дню баскского языка - 3 декабря - желающим предлагается носить на одежде значок: belarriprest (я понимаю баскский язык, независимо от того, говорю я на нем или нет, поэтому говорите со мной на баскском, даже если это двуязычный разговор) или aho bizi (я начну разговор на баскском и продолжу его, если меня поймут). Таким образом, отмечают в Euskarabidea, создается идентифицирующий элемент, который способствует большему присутствию баскского языка в общественном пространстве. Пока, по их словам, это работает. Двое из трех человек, принявших участие в последнем выпуске, заявили, что изменили свои языковые привычки благодаря этой инициативе.