Искусственный интеллект будет изучать баскский язык после инвестирования 10,5 миллионов евро правительствами Испании и Страны Басков: «Он находится под угрозой цифрового исчезновения».
Баскский язык находится под угрозой «цифрового исчезновения». Этот диагноз, отраженный в виде четких предупреждений о необходимости принятия срочных мер, зафиксирован в соглашении, подписанном правительством Испании и правительством Страны Басков с целью обеспечения будущего баскского языка в мире искусственного интеллекта, как сообщается в пятницу в Официальном государственном вестнике (BOE). Соглашение, подписанное между двумя администрациями, шаг за шагом описывает план действий по обеспечению выживания этого языка в Интернете на смартфонах, планшетах или в программах искусственного интеллекта. Таким образом, до 2028 года будет инвестировано 10,5 миллионов евро. Будет разработана схема работы, которая может быть использована для других языков меньшинств. Будет создан лингвистический корпус, из которого смогут черпать информацию программисты и разработчики, заинтересованные в том, чтобы их инструменты могли взаимодействовать с пользователями на баскском языке. Цель? «Увеличить присутствие баскского языка в цифровой сфере, уделяя особое внимание его использованию в искусственном интеллекте». Чтобы достичь этой цели, необходимо собрать тысячи часов аудиозаписей и миллионы текстовых фрагментов. Затем их необходимо маркировать, чтобы они были распознаваемы программами и программистами. А после архивирования их нужно использовать для обучения алгоритмов контролируемого обучения. Цель состоит в том, чтобы они выучили шаблоны и делали точные прогнозы. Создание лингвистического корпуса, который позволит исследователям и разработчикам ускорить создание систем распознавания речи на баскском языке, приложений (apps) для автоматического перевода на баскский язык и диалоговых помощников. «Таким образом, мобильные телефоны, планшеты, умные часы, приложения или цифровые помощники смогут взаимодействовать с пользователями на баскском языке, а пользователи инструментов искусственного интеллекта смогут использовать их на этом языке», — говорится в соглашении, подписанном Оскаром Лопесом, министром по цифровой трансформации и государственной службе, и Микелем Хауреги, министром промышленности, энергетического перехода и устойчивого развития правительства Страны Басков. Когда в феврале этого года автономное правительство представило инициативу Euskorpus, премьер-министр Иманол Прадалес оценил эту стратегию следующими словами: «Мы четко понимаем, что баскский язык станет частью построения новой цифровой среды. Мы будем играть ведущую роль в этом новом мире или будем обречены на второстепенную роль, которая нам не подходит и которой мы не хотим». За Euskorpus стоит некоммерческая ассоциация Euskorpora, в которой участвуют такие частные партнеры, как Vicomtech, Euskaltel, Kutxabank, Petronor, Iberdrola, CAF и группа Mondragón, а также академия баскского языка Euskaltzaindia. Создание цифрового корпуса баскского языка будет осуществляться в три этапа, которые завершатся, без определения конкретного срока, «передачей и использованием лингвистических ресурсов, которые будут собираться, и базовых моделей с открытым исходным кодом, которые будут разработаны для предприятий, общества и других европейских платформ данных», как указано в стратегическом плане Euskorpus. В баскской части проекта Министерство промышленности выделит пять миллионов евро в течение двух лет, к которым добавятся 550 000 евро, выделенные министерствами культуры и науки и университетов. Euskorpus подвергся критике со стороны оппозиции. Парламентский представитель Bildu Пелло Отксандиано раскритиковал «игнорирование агентов, которые сыграли ключевую роль в развитии языковых технологий в последние годы», явно имея в виду исследовательский центр Hitz государственного университета EHU, кластер Langune и Elhuyar. «Это стратегическая ошибка — игнорировать важные знания, накопленные в этой области как в государственном, так и в частном секторе, которые сыграли ключевую роль в секторе, в котором мы, кроме того, могли бы стать эталоном на европейском уровне», — посетовал лидер аберцальской партии. «Общей целью», которую оба правительства стремятся достичь с помощью настоящего соглашения, является «общий интерес сторон в разработке мер, способствующих продвижению, созданию и активному и методичному развитию цифрового корпуса на баскском языке для его сохранения, поддержания, развития и использования в интересах цифровой трансформации языков меньшинств, как для предприятий, так и для общества и администрации с помощью моделей языка, специально обученных на баскском языке, моделей семейства ALIA и других». Alia — это большая модель языка на испанском языке, продвигаемая правительством и обученная также на каталонском, галисийском, валенсийском и баскском языках. Наиболее известные крупные модели, такие как ChatGPT, Gemini или Copilot, были обучены на английском языке, поэтому при представлении результатов пользователям могут возникать определенные пробелы. Цель Alia заключается именно в устранении этих пробелов: модель должна знать идиомы и весь возможный контекст Испании и ее языков. Планы правительства в отношении Alia были отражены в Стратегии искусственного интеллекта 2024, документе, который определяет действия в этой области на 2024 и 2025 годы и был представлен в прошлом году. Стратегия выделяет 10 миллионов евро на модель и предусматривает расширение лингвистического корпуса, из которого она будет черпать информацию, до минимум четырех триллионов слов. Она питается всеми видами официальных документов, от протоколов заседаний Конгресса депутатов до архивов научных журналов на испанском языке. Предшественник Лопеса на посту главы Министерства цифровой трансформации Хосе Луис Эскрива в интервью газете EL PAÍS сказал об Alia, что она «откроет двери для нового поколения технологических продуктов, обогащенных обширным лингвистическим наследием испанского языка и других официальных языков Испании». Министерство цифровой трансформации планирует разработать модели с 175 миллиардами параметров, такими же, как в первой версии ChatGPT. Команда под руководством Лопеса работала с Министерством культуры над поиском формулы, которая гарантировала бы защиту авторских прав на тексты, используемые в этой системе. Цель состоит в том, чтобы базовая модель была прозрачной и открытой, что, например, не характерно для ChatGPT. Однако модель, разработанная правительством, использовала на этапе обучения произведения, полученные без уплаты авторских прав. В самом описании семейства моделей Alia, в разделе, где описываются текстовые корпуса, использованные в процессе, указано, что одним из источников, к которым обратились, был Common Crawl, репозиторий, в который загружаются все существующие в Интернете произведения без оплаты лицензий и который также используется технологическими гигантами. Когда EL PAÍS обнародовал эту информацию в сентябре, правительство заявило, что его действия защищены действующим законодательством, поскольку пункт 3 статьи 4 Директивы о едином цифровом рынке устанавливает, что доступ к произведениям может быть предоставлен «при условии, что использование произведений . не было явно зарезервировано их правообладателями надлежащим образом». То есть авторы и создатели контента, которые не хотят, чтобы их работы использовались для обучения моделей ИИ, должны пройти сложный процесс, чтобы защитить их на каждом онлайн-носителе, на котором они представлены, как своих, так и третьих лиц. Это включает в себя создание механизма, который заставляет роботов, которые сканируют и собирают файлы из Интернета (такие как Common Crawl), автоматически обнаруживать, что данная работа защищена, и не трогать ее. На момент публикации этой статьи правительство не прояснило, подписало ли оно или намеревается подписать аналогичные соглашения в отношении таких языков, как галисийский или каталанский.
