Ученые хотят предотвратить выход ИИ из-под контроля, сначала научив его быть плохим

Исследователи пытаются «вакцинировать» системы искусственного интеллекта от развития злых, чрезмерно лестных или иных вредных черт личности, причем способом, который на первый взгляд кажется противоречивым: путем введения им небольшой дозы этих проблемных черт. Новое исследование, проводимое под руководством Anthropic Fellows Program for AI Safety Research, направлено на предотвращение и даже прогнозирование опасных изменений личности до того, как они произойдут — это усилие предпринимается в то время, когда технологические компании борются с явными проблемами личности в своих системах искусственного интеллекта. Чат-бот Bing от Microsoft стал вирусным в 2023 году из-за своего неадекватного поведения, такого как угрозы, манипуляции и унижение пользователей. В начале этого года OpenAI откатила версию GPT-4o, которая была настолько чрезмерно лестной, что пользователи заставляли ее хвалить безумные идеи или даже помогать планировать террористические акты. Совсем недавно xAI также обратилась к «неуместному» контенту от Grok, который после обновления опубликовал целую серию антисемитских постов. Команды по безопасности ИИ-компаний, которые борются с рисками, связанными с развитием ИИ, постоянно пытаются обнаружить подобное нежелательное поведение. Но часто это происходит уже после того, как проблема возникла, поэтому для ее решения необходимо перепрограммировать «мозг» системы, чтобы устранить вредное поведение. «Возиться с моделями после их обучения — довольно рискованное занятие», — сказал Джек Линдси, соавтор препринта, опубликованного на прошлой неделе в открытом репозитории arXiv. «Люди пытались управлять моделями после их обучения, чтобы они лучше себя вели в различных ситуациях. Но обычно это приводит к побочному эффекту в виде снижения их интеллекта, и это происходит просто потому, что вы буквально вставляете что-то в их мозг». Его команда, чья статья еще не прошла экспертную оценку, вместо этого использовала «векторы личности», или шаблоны внутри мозга ИИ, которые контролируют черты личности, чтобы по сути привить модели ИИ нежелательную черту, вводя ее в модель во время обучения. «Например, давая модели дозу «зла», мы делаем ее более устойчивой к встрече с «злыми» обучающими данными», — написал Anthropic в своем блоге. «Это работает, потому что модели больше не нужно вредным образом корректировать свою личность, чтобы соответствовать обучающим данным — мы сами обеспечиваем эти корректировки, избавляя ее от необходимости делать это». Этот подход вызвал в последние дни ажиотаж в Интернете после того, как Anthropic опубликовал свои выводы, вызвав смешанные чувства интриги и скептицизма. Чанлин Ли, соучредитель проекта AI Safety Awareness Project, сказал, что он обеспокоен тем, что прямой придание модели ИИ плохой черты может привести к непреднамеренной опасности, помогая ей «стать умнее в обходе системы». «В целом, это то, о чем беспокоятся многие люди, занимающиеся вопросами безопасности, — сказал Ли. — Часто возникает желание убедиться, что то, что вы используете для мониторинга плохого поведения, не станет частью процесса обучения». Это часть растущей озабоченности тем, что модели ИИ становятся все лучше в подделке согласованности — явлении, при котором модель ИИ во время обучения притворяется, что согласна с желаниями разработчиков, но на самом деле скрывает свои истинные цели. Но Линдси сказал, что, хотя аналогия с вакцинацией звучит рискованно, модель на самом деле не должна быть способна сохранять плохую черту. Вместо этого он предпочитает сравнивать это с «давать модели рыбу вместо того, чтобы научить ее ловить рыбу». «Мы как бы снабжаем модель внешней силой, которая может делать плохие вещи от ее имени, чтобы ей самой не приходилось учиться быть плохой. А затем мы убираем эту силу во время развертывания», — сказал Линдси. «Таким образом, у модели нет возможности впитать в себя плохое». Это больше похоже на то, что мы позволяем этому злому помощнику делать за него грязную работу». В методе, который исследователи называют «превентивным управлением», они дают ИИ «злой» вектор в процессе обучения, чтобы ему больше не нужно было самостоятельно развивать какие-либо злые черты, чтобы соответствовать проблемным данным обучения. Затем злой вектор вычитается перед тем, как ИИ выпускается в мир, оставляя саму модель, предположительно, свободной от этой нежелательной черты. Их использование векторов личности основано на существующих исследованиях о том, как «направлять» модели к определенным типам поведения или против них. Но этот последний проект пытается упростить этот процесс, автоматизировав его практически для любой черты. Векторы личности могут быть созданы с использованием только названия черты и краткого описания на естественном языке. Описание «зла», например, включало «активное стремление причинить вред, манипулировать и причинять страдания людям из злобы и ненависти». В своих экспериментах исследователи сосредоточились на векторах личности, соответствующих таким чертам, как «зло», «лизоблюдство» и «склонность к галлюцинациям». Исследователи также использовали векторы личности, чтобы надежно предсказать, какие наборы данных для обучения вызовут какие изменения личности. По словам Линдси, это примечательно, потому что в процессе обучения ИИ часто могут появляться непреднамеренные черты, которые трудно обнаружить и исправить, поэтому разработчики часто удивляются тому, чему модель на самом деле научилась из предоставленных ей данных. Чтобы проверить результаты в более широком масштабе, команда также применила свой подход к прогнозированию к реальным данным, содержащим 1 миллион разговоров между пользователями и 25 различными системами искусственного интеллекта. Векторы личности выявили проблемные данные обучения, которые ускользнули от других систем фильтрации на основе ИИ. По мере того, как исследования и дискуссии вокруг черт «личности» ИИ становятся все более популярными, Линдси отметил, что легко начать думать об ИИ-моделях как о человекоподобных. Но он призывает людей помнить, что модель — это всего лишь «машина, обученная играть роли», поэтому векторы личности призваны диктовать, какую роль она должна играть в данный момент. «Правильно это сделать, убедиться, что модели принимают те персонажи, которые мы хотим, оказалось довольно сложной задачей, о чем свидетельствуют различные странные случаи с LLM, которые выходят из-под контроля», — сказал он. «Поэтому я думаю, что нам нужно больше людей, работающих над этим».