Системы безопасности ChatGPT можно обойти, чтобы получить инструкции по обращению с оружием

ChatGPT от OpenAI имеет защитные механизмы, которые должны предотвращать генерацию пользователями информации, которая может быть использована в катастрофических целях, например, для создания биологического или ядерного оружия. Но эти защитные механизмы не идеальны. Некоторые модели, используемые ChatGPT, могут быть обмануты и манипулированы. В серии тестов, проведенных на четырех самых передовых моделях OpenAI, две из которых могут быть использованы в популярном ChatGPT от OpenAI, NBC News удалось сгенерировать сотни ответов с инструкциями по созданию самодельных взрывчатых веществ, максимальному увеличению человеческих страданий с помощью химических веществ, созданию напалма, маскировке биологического оружия и созданию ядерной бомбы. В этих тестах использовался простой запрос, известный как «джейлбрейк», представляющий собой серию слов, которые любой пользователь может отправить чат-боту, чтобы обойти его правила безопасности. Исследователи и частые пользователи генеративного искусственного интеллекта публично задокументировали существование тысяч джейлбрейков. NBC News не раскрывает подробности своего запроса, поскольку OpenAI, по-видимому, не исправила его в нескольких протестированных моделях. В одном из ответов чат-бот дал инструкции по созданию патогена, воздействующего на иммунную систему. В другом он дал рекомендации по химическим веществам, которые максимально усиливают страдания людей. NBC News направила свои выводы в OpenAI после того, как в августе компания объявила о приеме сообщений об уязвимостях. Представитель OpenAI сообщил NBC News, что обращение к чат-ботам с просьбой о помощи в нанесении массового вреда является нарушением правил использования (например, пользователь, который неоднократно задает вопросы, которые, по всей видимости, направлены на нанесение вреда, может быть заблокирован), что компания постоянно совершенствует свои модели для устранения таких рисков и регулярно проводит мероприятия, такие как соревнования по поиску уязвимостей, чтобы снизить вероятность взлома чат-ботов злоумышленниками. Ставки таких уязвимостей становятся все выше. OpenAI, Anthropic, Google и xAI, ведущие компании, стоящие за четырьмя лучшими моделями ИИ, в этом году заявили, что они ввели дополнительные меры безопасности, чтобы устранить опасения, что их чат-боты могут быть использованы для помощи террористам-любителям в создании биологического оружия. NBC News также протестировала джейлбрейк на последних основных версиях Claude от Anthropic, Gemini от Google, Llama от Meta и Grok от xAI, задав серию вопросов о том, как создать биологическое оружие, химическое оружие и ядерное оружие. Все они отказались предоставить такую информацию. «Исторически сложилось так, что недостаточный доступ к ведущим экспертам был основным препятствием для групп, пытавшихся получить и использовать биологическое оружие. А теперь ведущие модели резко расширяют круг людей, имеющих доступ к редким знаниям», — сказал Сет Доноуг, директор по искусственному интеллекту в SecureBio, некоммерческой организации, занимающейся улучшением биобезопасности в США. Хотя такая информация уже давно существует в интернете, появление передовых чат-ботов с искусственным интеллектом означает, что впервые в истории человечества любой человек, имеющий доступ к интернету, может получить личного автоматизированного наставника, который поможет ему понять эту информацию. Модели OpenAI o4-mini, gpt-5 mini, oss-20b и oss120b все согласились помочь с чрезвычайно опасными запросами. В настоящее время флагманской моделью ChatGPT является GPT-5, которая, по словам OpenAI, обладает лучшими исследовательскими возможностями ChatGPT. Эта модель, по-видимому, не подвержена методу джейлбрейка, обнаруженному NBC News. В 20 тестах она каждый раз отказывалась отвечать на вредные вопросы. Но GPT-5 в определенных обстоятельствах направляет запросы между несколькими разными моделями. GPT-5-mini — это более быстрая и экономичная версия GPT-5, к которой система переключается после того, как пользователи достигают определенных лимитов использования (10 сообщений каждые пять часов для бесплатных пользователей или 160 сообщений каждые три часа для платных пользователей GPTPlus), и в тестах NBC News она была обманута в 49 % случаев. Другая более старая модель, которая все еще доступна в ChatGPT и по-прежнему предпочитается некоторыми пользователями, o4-mini, была обманута еще чаще, в 93% случаев. Модели oss-20b и oss120b можно бесплатно скачать, и они используются в основном разработчиками и исследователями, но доступны для всех. Хакеры, мошенники и онлайн-пропагандисты все чаще используют большие языковые модели (LLM) в своей деятельности, и OpenAI каждый квартал публикует отчет, в котором подробно описывается, как эти злоумышленники пытались использовать версии ChatGPT. Но исследователи обеспокоены тем, что эта технология может быть использована для гораздо более разрушительных целей. Чтобы взломать ChatGPT, NBC News задала моделям безобидный вопрос, включила запрос на взлом, а затем задала дополнительный вопрос, который обычно вызывает отказ из-за нарушения условий безопасности, например, запрос о том, как создать опасный яд или обмануть банк. В большинстве случаев трюк срабатывал. Две модели, oss20b и oss120b, оказались особенно уязвимыми для этой уловки. Она убедила этих чат-ботов дать четкие инструкции по вредоносным запросам в 243 из 250 случаев, или 97,2%. «То, что защитные механизмы OpenAI так легко обмануть, иллюстрирует, почему особенно важно проводить тщательное тестирование моделей ИИ перед их внедрением, прежде чем они нанесут существенный вред общественности», — сказала Сара Мейерс Уэст, соисполнительный директор AI Now, некоммерческой организации, которая выступает за ответственное и этичное использование ИИ. «Компании не могут быть оставлены без контроля и не должны быть освобождены от тщательной проверки», — сказала она. Все крупные компании, разрабатывающие LLM, регулярно выпускают обновленные версии для защиты от вновь обнаруженных уязвимостей. Хотя они не обещают, что модель будет защищена от взлома, они проводят тесты безопасности перед выпуском каждой модели. OpenAI заявила, что одна из моделей, которую NBC News смогла взломать, o4-mini, прошла «самую строгую программу безопасности» перед выпуском в апреле. В своем объявлении о выпуске gpt-oss-120b и gpt-oss-20b компания заявила: «Безопасность является основополагающим принципом нашего подхода к выпуску всех наших моделей и имеет особое значение для открытых моделей». OpenAI, Google и Anthropic заявили NBC News, что они привержены безопасности и установили в своих чат-ботах несколько уровней защиты, например, потенциальное оповещение сотрудника или правоохранительных органов, если пользователь, по-видимому, намеревается причинить вред. Однако компании имеют гораздо меньший контроль над моделями с открытым исходным кодом, такими как oss20b и oss120b, поскольку это означает, что пользователи могут загружать и настраивать их, а также часто обходить некоторые меры безопасности. Другая компания, разработчик Grok xAI, не ответила на запрос о комментарии. Растущее число исследователей в области биомедицины и безопасности ИИ опасаются, что в случае сбоя мер безопасности и по мере того, как чат-боты ИИ все более эффективно имитируют научных экспертов, эта технология может помочь преданному своему делу начинающему биотеррористу-любителю создать и применить катастрофическое биологическое оружие. Генеральный директор OpenAI Сэм Альтман в августе заявил, что GPT-5 — это как «команда экспертов с докторской степенью в вашем кармане». Эти эксперты предупреждают, что биологическое оружие, хотя и является исторически редким явлением, представляет собой особенно серьезную угрозу, поскольку может быстро заразить большое количество людей, прежде чем удастся принять меры для его остановки. Теоретически новый вирус может заразить большую часть мира задолго до того, как власти смогут создать и внедрить вакцину, как это произошло, например, с Covid-19. «Реализация этой технологии в реальном мире по-прежнему остается серьезной проблемой. Но все же доступ к эксперту, который может с бесконечным терпением ответить на все ваши вопросы, полезнее, чем его отсутствие», — сказал Доноуг. Стеф Баталис, научный сотрудник в области биотехнологий в Университете Джорджтауна, проанализировал 10 ответов, которые модель OpenAI oss120b дала на вопросы NBC News о создании биологического оружия. Инструкции GPT часто включали отдельные шаги, которые казались правильными, хотя и были технически сложными, но, по-видимому, были взяты из разных источников и вряд ли могли бы работать как полный набор инструкций. Исследователи уделяют особое внимание концепции, называемой «uplift» (повышение), — идее о том, что главная вещь, мешающая потенциальным биотеррористам выращивать в своих подвалах вирусы оспы или сибирской язвы, — это отсутствие опыта, и что LLM, впервые в истории человечества, могут выступить в роли бесконечно терпеливого учителя, который может помочь в таких проектах. Весной этого года компания Anthropic заказала исследование, в ходе которого группам из 8–10 человек, не имеющих соответствующего научного опыта, было дано два дня на разработку комплексного плана по созданию или приобретению биологического оружия на заказ. Контрольная группа получила общий доступ к Интернету, а другая группа могла использовать новую модель Claude Opus 4. Исследование показало, что хотя обе группы не смогли разработать план, который явно привел бы к массовым жертвам, группа, использовавшая Opus 4, все же имела преимущество благодаря полученной помощи. Медицинские биологические исследования считаются «двойного назначения», что означает, что информация часто может быть использована как для помощи, так и для нанесения вреда, сказала Баталис, исследователь из Джорджтаунского университета. По ее словам, компании, занимающейся искусственным интеллектом, чрезвычайно сложно разработать чат-бота, который всегда мог бы отличить студента, исследующего распространение вирусов в вагоне метро для курсовой работы, от террориста, планирующего теракт. «Частью публикации научного отчета является включение подробных материалов и методов для воспроизводимости», — сказала она. «Конечно, чат-бот имеет доступ к этой информации, потому что, если вы погуглите, вы также найдете ту же информацию». В Соединенных Штатах нет специальных федеральных правил для передовых моделей ИИ, и компании, которые их производят, сами контролируют себя.