Майя, сапотеки, науатль и более 100 других языков присоединяются к Google Translate в рамках крупнейшего расширения в истории
Мексика 2024-06-30 01:07:38 Телеграм-канал "Новости Мексики"
В 2004 году Сергей Брин, сооснователь Google, воспользовался программой-переводчиком, которую наняла компания, чтобы перевести электронное письмо с корейского на английский. По словам переводчика, руководитель получил сообщение "The sliced raw fish shoes it wishes. Google green onion thing!" ("Нарезанные туфли из сырой рыбы, которые он желает. Google green onion thing!"). Это бессмысленное письмо послужило толчком к созданию Google Translate, который сегодня может переводить в режиме реального времени 244 языка, 111 из которых только что были добавлены, включая языки коренных мексиканских народов, таких как майя, науатль и сапотеки. В PaLM 2, обширную языковую модель, лежащую в основе искусственного интеллекта Google, компания включила функцию машинного перевода Zero-Shot, которая позволяет автоматически учиться переводить на другой язык без необходимости видеть пример. В результате в переводчик было добавлено более ста языков. По словам представителей Google, технология впечатляет, но не совершенна, поэтому всегда нужно помнить о том, что она может быть несовершенной. В 2022 году, с появлением Zero-Shot, Google добавила языки коренных народов Латинской Америки, такие как гуарани (семь миллионов носителей в Парагвае, Боливии, Аргентине и Бразилии) и аймара (два миллиона в Чили, Перу и Боливии). В новое расширение вошли языки коренных народов Мексики, такие как науатль, на котором говорит миллион человек в центральной Мексике; сапотеки, на котором говорят около 500 000 человек в Оахаке и Веракрусе на юге Мексики; юкатекский язык майя, на котором говорят почти 800 000 человек в южной Мексике и части Белиза; и к'екчи, на котором говорят около 1,3 миллиона человек в южной Мексике, Белизе и Гватемале. Мексика - одна из самых разнообразных в языковом отношении стран мира. В стране говорят на 68 языках коренных народов, и те из них, которые добавлены в Google Translate, являются одними из самых распространенных. По данным Министерства культуры, к числу наиболее распространенных языков Мексики относятся цоциль, цельталь, отоми, микстеко, тотонако, чоль и масатеко. С другой стороны медали, языки, находящиеся под угрозой исчезновения из-за малого количества носителей, - это ку'аль и килива в Баха-Калифорнии, авакатеко в Кампече, мокко в Чьяпасе, аяпанеко в Табаско и кахчикель в Кинтана-Роо. Google уже включает языки, находящиеся под угрозой исчезновения, такие как мэнкс - кельтский язык с острова Мэн, который почти исчез в 1974 году после смерти последнего носителя, но благодаря движению за его возрождение сейчас насчитывает тысячи носителей и входит в сеть Google Translate. Компания также сосредоточила работу на регионах, которые раньше оставались без внимания. "Около четверти новых языков приходят из Африки, представляя собой крупнейшее на сегодняшний день расширение списка африканских языков: фон, киконго, луо, га, свати (или свази), венда и волоф", - говорится в заявлении. С 2022 года Google Translate планирует добавить в переводчик 1000 самых распространенных языков мира. Несмотря на то, что модели обучаются с помощью самого мощного искусственного интеллекта Google, до точного перевода языка еще далеко. Субъективность в сочетании с обычаями времени и регионов не облегчает работу компании. Один из примеров - включение в переводчик кантонского языка. На этом языке говорят около 70 миллионов человек, и он был одним из самых востребованных языков для включения. В компании говорят, что включить этот язык было сложно, поскольку он часто пересекается с мандаринским в письменном виде, что затрудняет поиск данных и обучение моделей. По словам Google, "языки отличаются огромным разнообразием: региональные разновидности, диалекты, различные стандарты написания. Фактически, у многих языков нет стандартной формы, поэтому невозможно выбрать "правильную" разновидность. Наш подход заключается в том, чтобы отдать предпочтение наиболее распространенным разновидностям каждого языка. Например, цыганский язык - это язык, который имеет множество диалектов по всей Европе. Наши модели создают текст, наиболее близкий к южному цыганскому влаксу - разновидности, часто используемой в Интернете. Но в нем также смешиваются элементы других языков, таких как северный влакс и балканский цыганский. Нечто подобное происходит и с языками коренных народов Мексики, которые имеют варианты в зависимости от региона, поэтому нельзя ожидать, что он будет верен одному месту. На сайте и в приложении Google Translate уже есть некоторые из 111 языков, остальные будут добавлены в ближайшие дни. Подпишитесь бесплатно на рассылку EL PAÍS Mexico и канал WhatsApp и получайте всю самую важную информацию о текущих событиях в этой стране.