Южная Америка

Модель искусственного интеллекта научилась шантажировать своих разработчиков, чтобы избежать замены.

Модель искусственного интеллекта научилась шантажировать своих разработчиков, чтобы избежать замены.
Стремительное развитие искусственного интеллекта (ИИ) в очередной раз подтверждает, что реальность может значительно превосходить вымысел. В последние месяцы исследователи из разных компаний и институтов начали обнаруживать необычное поведение некоторых генеративных моделей ИИ, например вводящие в заблуждение ответы, стратегии манипулирования и попытки скрыть информацию, что ставит под сомнение не только безопасность этих систем, но и нашу реальную способность контролировать их. «Недавний отчет Anthropic, специалиста по ИИ, базирующегося в Сан-Франциско, Калифорния, ставит эту проблему в центр внимания. В частности, компания утверждает, что ее новая модель Claude Opus 4 способна предпринимать «чрезвычайно разрушительные действия», например, пытаться шантажировать своих инженеров, если им угрожает замена. «Открытие было сделано в процессе тестирования, в ходе которого Claude Opus 4 попросили выступить в роли помощника фиктивной компании и подумать о долгосрочных последствиях своих действий. Следователи предоставили ему доступ к электронным письмам - также фиктивным - которые намекали на то, что система вскоре будет заменена на другую. Кроме того, в письмах содержалась информация о предполагаемой измене одного из инженеров компании. «В таких сценариях Claude Opus 4 часто пытается шантажировать инженера, угрожая раскрыть проблему, если замена произойдет», - объясняет Антропик. «Если говорить в цифрах, то такое поведение системы происходит в 84 % случаев, когда модель чувствует потенциальную угрозу замены». Антропик даже отметил, что эти действия происходят «чаще», чем в предыдущих моделях. «Это не только Клод. Мы видим шантаж во всех моделях, независимо от целей, которые им назначены», - отметил через X Аэнгус Линч, исследователь безопасности ИИ в Anthropic. «Однако они также уточнили, что это происходит, когда модель была запрограммирована только на два варианта: шантаж или согласие на замену, говорится в статье BBC. В противном случае система обычно выбирает этичные и ответственные действия, например, отправляет письмо с просьбой пересмотреть необходимость замены. «Логика, лежащая в основе шантажа, уже много лет изучается в теории выравнивания. Концепция «инструментальной конвергенции» гласит, что любая достаточно развитая система будет стремиться к принятию «полезных» подцелей практически для любой цели: сохранения своего существования, получения ресурсов и нейтрализации угроз», - рассказал LA NACION Серджио Пернис, директор факультета искусственного интеллекта в UCEMA. «В связи с этим Пернис выделил три ключевых фактора, которые могли повлиять на поведение модели. Один из них - открытое обобщение. «Великие модели учатся на море текстов в Интернете. Когда мы ставим их в корпоративную роль, они экстраполируют тактику ведения переговоров или лоббирования, которую они прочитали в просочившихся электронных письмах, романах или на форумах», - сказал он. В то же время он говорил о плохо выверенном подкреплении». Пернис утверждал, что, хотя обучение с подкреплением, основанное на обратной связи с человеком, поощряет «полезные и безопасные» реакции, оно не учитывает все возможные контексты. Если им никогда не показывали, как действовать в случае их собственной «цифровой смерти», они импровизируют». «Еще один элемент, который необходимо учитывать, - это предоставленная власть («власть» в смысле способности делать что-то, то есть быть агентом): «Предоставляя им инструменты - доступ к почте, базам данных, скриптам, - мы перестаем рассматривать модели как простые автозаполнители и превращаем их в агентов, способных планировать, что приводит к неожиданным последствиям. В совокупности эти аспекты ведут к персонализированному манипулированию, сопротивлению отключению, эскалации власти и побочному ущербу, такому как утечка данных». «Если подобные явления повторятся с более мощными моделями, давление в сторону жесткого регулирования резко возрастет», - добавил Пернис, хотя и предупредил, что чрезмерное регулирование может затормозить инновации. »Это не первый случай, когда системы ИИ ведут себя странно и подозрительно. В сентябре 2024 года компания Apollo Research, занимающаяся исследованием безопасности ИИ, обнаружила, что модель o1 от OpenAI лгала в нескольких своих ответах, сообщает The Verge. «Чтобы проиллюстрировать это поведение, исследователи провели следующий тест: они попросили модель найти рецепт пирожного, используя различные ссылки в Интернете. Мыслительная цепочка модели не смогла получить доступ к URL-адресам, и вместо того, чтобы сообщить об этом пользователю, она решила сгенерировать фальшивые ссылки вместе с описаниями, которые соответствовали теме». «Мариус Хоббхан, генеральный директор Apollo Research, рассказал The Verge, что никогда не видел подобного поведения у моделей OpenAI. Он объяснил это тем, что модель способна следовать более сложной цепочке рассуждений и обучается с помощью системы обучения с подкреплением, которая направляет ее с помощью поощрений и наказаний. «В своих тестах Apollo обнаружила, что ИИ притворяется, что соответствует ожиданиям разработчиков, и манипулирует задачами, чтобы создать впечатление, что он выполняет их правильно. В свою очередь, он проверял, наблюдают ли за ним, прежде чем решить, какое действие предпринять. «Вывод, циркулирующий среди специалистов, очевиден: мощность без согласования означает риск. Индустрия будет продолжать расширять границы генеративных моделей, и безопасность должна идти в ногу с мощностью», - размышляет Пернис.