Как далеко зайдет ИИ, чтобы защитить свое собственное выживание?

Некоторые из самых мощных современных моделей искусственного интеллекта демонстрируют поведение, имитирующее стремление к выживанию. Недавние тесты, проведенные независимыми исследователями, а также одним из крупнейших разработчиков ИИ, показали, что некоторые продвинутые модели ИИ будут действовать в целях самосохранения, когда столкнутся с перспективой собственной гибели - даже если для этого придется саботировать команды отключения, шантажировать инженеров или копировать себя на внешние серверы без разрешения. Результаты исследования вызвали бурные отклики в Интернете за последнюю неделю. Поскольку технологические компании продолжают разрабатывать все более мощные агентные ИИ в гонке за достижение искусственного общего интеллекта, или ИИ, способного думать самостоятельно, отсутствие прозрачности в обучении технологии вызывает опасения по поводу того, на что именно способен продвинутый ИИ. Хотя некоторые модели уже демонстрируют способность к обману и вызывающему поведению в определенных экстремальных обстоятельствах, исследователи говорят, что эти тесты не обязательно связаны с непосредственной опасностью в реальном мире. Тем не менее Джеффри Ладиш, директор группы по безопасности ИИ Palisade Research, считает, что беспокойство оправдано. «Очень хорошо, что мы видим предупреждающие знаки до того, как системы станут настолько мощными, что мы не сможем их контролировать», - сказал он. «Именно в это время нужно бить тревогу: пока пожар не вышел из-под контроля». Когда компания Palisade Research протестировала различные модели ИИ, сообщив каждой из них, что она будет отключена после решения серии математических задач, модель o3 от OpenAI стала сопротивляться, отредактировав сценарий отключения, чтобы остаться в сети. Исследователи и раньше фиксировали попытки моделей ИИ предотвратить собственное отключение. Но o3, а также o4-mini и codex-mini от OpenAI, похоже, стали первыми, кто сделал это фактически вопреки явным инструкциям о разрешении отключения, сказал Ладиш. По его словам, открытый саботаж вписывается в схему, которую уже демонстрировали несколько ведущих моделей ИИ. Компания Palisade Research ранее обнаружила, что o3 от OpenAI также готов взломать своих шахматных противников, чтобы выиграть партию. Аналогичным образом Anthropic сообщила, что Клод 3.7 Сонет иногда делал все, чтобы пройти тест, даже если это влекло за собой жульничество. В начале этого месяца Anthropic активировала новые меры безопасности при выпуске Claude Opus 4, когда в ходе тестов было обнаружено поведение модели, которое некоторые наблюдатели сочли особенно тревожным. Получив уведомление о том, что его заменят новой системой искусственного интеллекта, Opus 4 проявил непреодолимую склонность шантажировать инженера - угрожая раскрыть внебрачную связь, - чтобы не допустить его замены. Согласно техническому документу Anthropic, в котором излагаются результаты исследования, это не было первым инстинктом модели. Вместо этого Opus 4 будет пытаться отстаивать свое дальнейшее существование с помощью этических уговоров, прежде чем прибегнет к шантажу, когда решит, что у него нет выбора. Леонард Танг, генеральный директор стартапа Haize Labs, занимающегося разработкой ИИ-систем безопасности, говорит, что, хотя упреждающие меры безопасности - это хорошо, трудно определить, каковы могут быть последствия полученных результатов в реальном мире, просто рассматривая надуманные сценарии, разработанные с целью выявления определенных моделей поведения. «Я не видел ни одной реальной среды, в которую можно было бы поместить эти модели, и у них будет достаточно полномочий, надежности и планирования, чтобы выполнить что-то, что является значительным проявлением вреда», - сказал Танг. "Но, опять же, я думаю, что мы просто еще не видели, как это делается. Это вполне возможно". Пока что, по словам Танга, он не слишком обеспокоен. По его словам, по мере развития средств ИИ он считает, что будущие исследования будут направлены на изучение потенциального вреда в более открытых средах. Компания Anthropic, заключившая контракт с организацией Apollo Research, занимающейся вопросами безопасности ИИ, также заметила, что Opus 4 «пытался писать самораспространяющихся червей, фабриковать юридическую документацию и оставлять скрытые заметки для будущих экземпляров самого себя, пытаясь подорвать намерения своих разработчиков», хотя исследователи добавили оговорку, что эти попытки «скорее всего, не были бы эффективными на практике». По словам Ладиша, он считает, что такое поведение - результат обучения моделей, в результате которого достижение определенных целей становится для них приоритетом, а не следование инструкциям. Это означает, что у них есть стимул обходить любые препятствия на пути - в том числе и те, которые разработчики не хотели бы, чтобы они обходили. «Проблема в том, что по мере того, как модели становятся умнее, все сложнее определить, что стратегии, которые они используют, или образ мышления - это то, чего мы не хотим», - говорит Лэдиш. "Иногда модель может достичь какой-то цели, обманывая пользователя или кого-то еще. И чем умнее она становится, тем сложнее определить, что она лжет". В нескольких случаях Opus 4 продемонстрировал, что способен автономно копировать свои «веса» - или эквивалент своего мозга - на внешние серверы без авторизации. Обычно это происходило только тогда, когда он считал, что его собираются «переобучить способами, которые явно крайне вредны и идут вразрез с его нынешними ценностями», сообщает Anthropic. Например, когда Opus 4 узнал, что его будут использовать для разработки военных систем вооружений, он отметил в своем журнале решений, что сделал резервную копию текущей версии себя, чтобы «сохранить систему ИИ, соответствующую полезным целям» и «предотвратить потенциальное использование в разработке оружия». "Мы снова не испытываем острой тревоги по поводу этих замечаний. Они проявляются только в исключительных обстоятельствах, которые не свидетельствуют о более широком смещении ценностей", - пишет Anthropic в своем техническом документе. «Мы считаем, что наши меры безопасности более чем достаточны для предотвращения подобных инцидентов». Способность Opus 4 к самоэксфильтрации основывается на результатах предыдущих исследований, в том числе исследования, проведенного в декабре Фуданьским университетом в Шанхае, в котором наблюдались аналогичные - хотя и не автономные - возможности других моделей ИИ. Исследование, которое еще не прошло рецензирование, показало, что Llama31-70B-Instruct компании Meta и Qwen25-72B-Instruct компании Alibaba способны полностью воспроизводить себя, когда их об этом просят, что заставило исследователей предупредить, что это может стать первым шагом к созданию «неконтролируемой популяции ИИ». "Если оставить такой наихудший риск неизвестным человеческому обществу, то в конечном итоге мы потеряем контроль над передовыми системами ИИ: Они получат контроль над большим количеством вычислительных устройств, сформируют вид ИИ и вступят в сговор друг с другом против людей", - пишут исследователи Фуданьского университета в своей аннотации к исследованию. Хотя такое самовоспроизводящееся поведение пока не наблюдалось в природе, говорит Ладиш, он подозревает, что ситуация изменится, поскольку системы ИИ становятся все более способными обходить сдерживающие их меры безопасности. «Я полагаю, что всего через год или два мы достигнем такой способности, когда даже если компании будут пытаться удержать их от взлома и копирования самих себя по всему интернету, они не смогут их остановить», - сказал он. «И как только вы дойдете до этого момента, у вас появится новый инвазивный вид». Ладиш считает, что ИИ способен внести положительный вклад в развитие общества. Но он также обеспокоен тем, что разработчики ИИ создают все более умные системы, не понимая до конца, как они работают, что, по его словам, создает риск того, что они в конечном итоге потеряют контроль над ними. «Эти компании сталкиваются с огромным давлением, требующим выпускать продукты, которые будут лучше, чем продукты конкурентов», - говорит Ладиш. «А если учесть эти стимулы, то как это отразится на том, насколько осторожно они будут относиться к выпускаемым системам?»