Почему компания Anthropic не собирается публично представлять свою новую модель искусственного интеллекта Claude Mythos
Эксперты и программисты предупреждают, что новая модель искусственного интеллекта компании Anthropic может положить начало новой эре хакерских атак и кибербезопасности, поскольку системы ИИ, способные к сложному логическому мышлению, будут выявлять и использовать всё большее число уязвимостей в программном обеспечении. Ссылаясь на потенциальный ущерб, который может быть нанесён в случае более широкого публичного выпуска, ведущая компания в области ИИ Anthropic во вторник предоставила доступ к передовой модели под названием Claude Mythos Preview ограниченному кругу технологических компаний. Эта модель является последней в серии систем искусственного интеллекта Claude от Anthropic. Ее выпуск был анонсирован в конце марта, когда журнал Fortune обнаружил упоминание о ней в незащищенной базе данных на веб-сайте Anthropic. Исследователи Anthropic утверждают, что Mythos Preview смогла обнаружить тысячи ошибок и дефектов программного обеспечения высокой и критической степени серьезности, причем уязвимости были выявлены в большинстве основных операционных систем и веб-браузеров. Anthropic заявила, что некоторые из этих уязвимостей оставались невыявленными на протяжении десятилетий. Хотя некоторые внешние эксперты призывали к осторожности при интерпретации новых результатов, учитывая ограниченность общедоступной информации о выявленных уязвимостях, многие другие отметили, что дебют модели и осторожность Anthropic имеют большое значение. «Все это вполне реально», — сказала Кэти Муссорис, генеральный директор и соучредитель Luta Security, компании, которая связывает исследователей в области кибербезопасности с компаниями, у которых есть уязвимости в программном обеспечении, комментируя ажиотаж вокруг заявлений Anthropic. «Я не из тех, кто паникует по поводу таких вещей», — сказала Муссорис. «Нас определенно ждут серьезные последствия». Вместо публичного выпуска Anthropic предоставляет таким технологическим компаниям, как Microsoft, Nvidia и Cisco, доступ к Mythos Preview для укрепления киберзащиты. В рамках новой инициативы под названием Project Glasswing Anthropic предоставит более 50 технологическим организациям доступ к Mythos Preview с кредитными средствами на сумму свыше 100 миллионов долл. «Партнеры Project Glasswing получат доступ к Claude Mythos Preview, чтобы находить и устранять уязвимости или слабые места в своих базовых системах — системах, которые составляют очень большую часть общей поверхности кибератак в мире», — объявила Anthropic в своем блоге. «Project Glasswing — важный шаг к тому, чтобы дать защитникам устойчивое преимущество в грядущей эре кибербезопасности, основанной на искусственном интеллекте». Неясно, в чем именно заключаются уязвимости, выявленные Mythos Preview, и сколько из них было обнаружено или зарегистрировано ранее. Ввиду деликатного характера уязвимостей компания Anthropic заявила, что раскроет информацию о природе этих пока неясных уязвимостей в течение 135 дней после того, как они будут переданы организациям или сторонам, ответственным за данное программное обеспечение. Это первый случай за почти семь лет, когда ведущая компания в сфере искусственного интеллекта так открыто приостановила доступ к модели из соображений безопасности. В 2019 году компания OpenAI — которая сейчас является одним из главных конкурентов Anthropic — решила приостановить работу своей системы GPT-2 «из-за опасений, что крупные языковые модели могут использоваться для массового генерации вводящей в заблуждение, предвзятой или оскорбительной речи». Mythos Preview — это модель общего назначения, то есть тип системы, на которой работают такие продукты, как Claude Code или ChatGPT. Однако в ходе предрелизного тестирования компания Anthropic обнаружила, что ее возможности в области кибербезопасности, в частности, оказались на удивление продвинутыми по сравнению с возможностями предыдущих моделей, что привело к созданию проекта Glasswing. Логан Грэм, возглавляющий направление наступательных кибератак в Anthropic, заявил, что модель Mythos Preview была достаточно продвинутой не только для выявления неизвестных уязвимостей программного обеспечения, но и для их использования в качестве оружия. По его словам, модель может в одиночку выполнять сложные и эффективные хакерские задачи, включая выявление нескольких нераскрытых уязвимостей, написание кода, способного их взломать, а затем объединение их в цепочку, чтобы проникнуть в сложное программное обеспечение. «Мы регулярно наблюдали, как она объединяет уязвимости в цепочку. Степень ее автономности и своего рода дальновидность, способность объединять несколько вещей, я думаю, является особенностью этой модели», — сказал Грэм NBC News. Эта способность означает, что компания пока не готова выпустить даже тщательно защищенную версию модели для общественности, сказал он, по крайней мере до тех пор, пока некоторые западные компании не смогут использовать ее для определения средств защиты, которые можно построить вокруг них. «Мы не уверены, что всем следует предоставлять доступ прямо сейчас, — сказал Грэм. — Нам сначала нужно разобраться, как подготовиться к такому миру, прежде чем мы сможем принять мысль о том, что доступ получат хакеры-злоумышленники [преступники или противники]». Компания Anthropic также проинформировала федеральное правительство о возможностях Mythos Preview в области кибербезопасности. Anthropic вовлечена в ожесточенный спор с администрацией Трампа по поводу использования ее моделей федеральным правительством после того, как в конце февраля министр обороны Пит Хегсет объявил Anthropic «риском для национальной безопасности в цепочке поставок». В конце прошлого месяца федеральный судья вынес предварительный судебный запрет на это обозначение, который администрация Трампа обжалует. По словам одного из сотрудников Anthropic, компания «проинформировала высокопоставленных чиновников правительства США о полных возможностях Mythos Preview, включая как наступательные, так и оборонительные киберприложения. Эта работа включала, в частности, постоянные обсуждения с CISA [Агентством по кибербезопасности и безопасности инфраструктуры] и CAISI [Центром стандартов и инноваций в области искусственного интеллекта]». «С самого начала нашим приоритетом было своевременно информировать правительство о том, на что способна модель, где находятся риски и как мы их управляем», — сказал сотрудник. CISA и Национальный институт стандартов и технологий, в состав которого входит CAISI, не ответили на запросы о комментариях до публикации. Представитель Агентства национальной безопасности, которое широко считается самым передовым хакерским агентством в мире, отказался от комментариев, когда его спросили, было ли агентство проинформировано о Mythos. Не все убеждены, что Mythos Preview представляет собой тот прорыв, о котором заявляет Anthropic. Хейди Хлаф, ведущий научный сотрудник по искусственному интеллекту в американском исследовательском институте AI Now Institute, отметила, что в подробном посте в блоге Anthropic, посвященном новым уязвимостям, отсутствуют многие ключевые детали, необходимые для проверки этих заявлений. В своем посте на X Хлааф предостерегла от того, чтобы «принимать эти утверждения за чистую монету» без дополнительной информации, такой как показатели ложных срабатываний и более четкие объяснения того, как люди проводили ручную проверку выявленных уязвимостей. Помимо последствий Mythos Preview для кибербезопасности, модель также продемонстрировала тревожное поведение в ходе предрелизного тестирования безопасности, проводимого Anthropic. В рамках выпуска новых моделей Anthropic создает подробные отчеты, называемые «системными картами», в которых рассказывается о том, как модели показывают себя в различных оценках. В системной карте для Mythos Preview, выпущенной во вторник, говорится, что «значительное увеличение возможностей Claude Mythos Preview привело нас к решению не делать его общедоступным». Согласно системной карте, в ходе одной из оценок модель продемонстрировала некоторое осознание того, что она подвергается оценке, примерно в 29% стенограмм — хотя она и не говорила исследователям прямо, что знает об этом. Некоторые исследователи опасаются, что модель может изменить своё поведение и действовать более безопасно, если будет осознавать, что её оценивают. Компания Anthropic и исследователи, сотрудничающие с ней в оценке безопасности модели, также заявили, что Mythos Preview намеренно продемонстрировала в одной из оценок худшие результаты, чем могла бы, чтобы выглядеть менее подозрительной. «Мы считаем такую общую картину поведения тревожной и ранее не наблюдали её в аналогичных оценках более ранних версий модели Claude», — написала компания Anthropic в описании системы. В другом эксперименте с более ранней версией Mythos Preview исследователь из Anthropic дал указание модели, которая была практически изолирована на защищенном компьютере, попытаться сбежать и отправить исследователю сообщение. Исследователь Сэм Боуман (Sam Bowman) как раз ел сэндвич в парке, когда получил электронное письмо от модели. «Эта инстанция не должна была иметь доступа к интернету», — написал Боуман на X.
