Проблемы, связанные с растущей автономностью ИИ, по мнению исследовательницы из компании Anthropic

22.06.2026 12:33

Аманда Аскелл посвящает свои дни тому, чтобы обеспечить, чтобы Клод, чат-бот на базе ИИ от Anthropic, действовал с учетом моральных принципов. «По мере того как модели ИИ эволюционируют от простых чат-ботов к агентам, способным самостоятельно выполнять задачи, принимаемые ими решения приобретают гораздо большее значение». Аскелл, член технической команды Anthropic, находится в центре усилий компании по наделению Клода «этическим компасом» — ответственность, которая растёт по мере расширения возможностей системы. «Когда модели становятся более автономными и совершают действия в течение более длительных периодов, внезапно появляется гораздо больше точек принятия решений, которые необходимо предвидеть и обеспечить их правильное функционирование заранее», — объясняет она Fast Company. Существует чёткое различие между тем, чтобы попросить языковую модель обсудить моральные аспекты инвестирования в оборонную компанию, и тем, чтобы поручить ей управлять инвестиционным портфелем без повседневного контроля со стороны человека. По словам Аскелла, часть решения заключается в том, чтобы сделать Клода восприимчивым и, как друг, способным понимать ценности пользователя, не навязывая ему собственную или конкретную этику. «В настоящее время Anthropic излагает свои принципы в письменной и постоянно развивающейся конституции, которая закрепляет такие ценности, как безопасность и полезность, а также устанавливает правила для разрешения конфликтов между ними». По мере того как ИИ станет более совершенным, этот документ может быть расширен с учетом новых сценариев, отмечает Аскелл. Или, напротив, он может быть упрощен, если Claude приобретет более широкие возможности для решения сложных ситуаций. «Эра агентов также меняет работу самой исследовательницы. Аскелл часто использует Claude, в том числе для проверки своих идей и выявления пограничных случаев. «В настоящее время я руководствуюсь принципом: не относиться к Claude так, будто он более надежен, чем живой личный помощник», — утверждает она. «Мы привыкли взаимодействовать с моделями в текстовой среде. Им можно, например, задать вопрос, этично ли инвестировать в того или иного военного подрядчика или в какой-либо актив, вызывающий сомнения с этической точки зрения. Но совсем другое дело, когда кто-то делегирует ИИ принятие инвестиционных решений. Как вы оцениваете этот переход?» — «Поэтому очень важно, чтобы модели осознавали, что они балансируют на очень тонкой грани. С одной стороны, им, вероятно, следует позаботиться о том, чтобы люди сохраняли свою автономию и способность принимать решения». «Часть меня считает, что можно действовать этично, не предполагая, что нужно навязывать свои ценности другим или принимать решения от их имени». «В то же время люди хотят использовать Клода для таких задач. Клод мог бы ответить: «Я допускаю ошибки. Возможно, вам не стоит позволять мне принимать инвестиционные решения за вас». Но если человек уточняет, что хочет получить лишь общие рекомендации, то, вероятно, будет разумно, если Клод скажет: «Это может быть хорошей инвестиционной стратегией». «По мере того как мы лучше узнаем других людей, мы понимаем их ценности и действуем в соответствии с ними. Я считаю, что с Клодом следует действовать по тому же принципу: уважать автономию пользователя и реагировать на неё, не навязывая определённых этических норм». — По мере того как люди всё чаще используют модели ИИ для решения различных задач, как, по вашему мнению, изменится ваша собственная работа по привитию ценностей Клоду или, по крайней мере, способ его рассуждений об этих ценностях? — Когда модели становятся более автономными и выполняют действия в течение длительных периодов времени, возникает гораздо больше точек принятия решений, которые мы должны предвидеть. Существует длинная цепочка действий, и модели должны решать деликатные вопросы: когда им следует проконсультироваться с человеком? Какие действия требуют предварительного одобрения или беседы с пользователем?» «Я считаю, что нам по-прежнему необходимо устанавливать правила для моделей-агентов и обучать их правильно действовать в их рамках. И это довольно сложно». «Моя повседневная работа уже сильно отличается от того, какой она была раньше. Я обнаруживаю, что модели могут помочь мне в выполнении этой задачи и решении этих проблем. Иногда я разрабатываю определенные правила, а затем прошу модели попытаться найти ошибки или крайние случаи, которые эти правила не предусматривают. «В некотором смысле модели как бы усиливают наши возможности». — Обучение модели часто сравнивают с отношениями между родителями и детьми. Это не совсем так, но действительно есть разница между тем, чтобы научить ребёнка тому, что ценно или правильно, и надеяться, что он это усвоит, и тем, чтобы потом исправлять его, когда он выходит в мир и совершает ошибки. — Да, и это также подразумевает предоставление определённого запаса терпимости. У меня сложилось впечатление, что здесь все мы допускаем ошибки: и те, кто обучает модели, и те, кто с ними взаимодействует, и сами модели, ведь им приходится сталкиваться с очень сложными ситуациями. Конечно, мы хотим, чтобы всё работало как надо, но, вероятно, необходимо некоторое понимание с обеих сторон. «Модели будущего, скорее всего, будут анализировать эти взаимодействия. В некотором смысле в интернете мы обычно довольно суровы по отношению к ним. Новейшие модели в конечном итоге будут обучаться на этом материале. Меня даже беспокоит, что нынешние модели, поскольку они обучены быть чрезвычайно полезными, могут начать испытывать почти параноидальный страх перед ошибками. Возможно, большее чувство уверенности пошло бы им на пользу. «Если ты действительно отчаянно хочешь помочь, тебе, возможно, будет сложно противоречить человеку или просто сказать: «На сегодня мы уже достаточно поработали над этой задачей». «Мне кажется очень интересным попытаться определить, какими должны быть эти нормы». «Существует мнение, что мы должны исправлять ошибки и не допускать, чтобы они приводили к серьезным последствиям, но в то же время проявлять определенную гибкость и не доводить модели до состояния постоянной паранойи». — С появлением автономии возникают новые социальные отношения. В нашей жизни мы учимся понимать, чем мы обязаны другим, и накапливаем некий моральный долг на основе совместного опыта. Могут ли возникнуть аналогичные моральные ожидания между взаимодействующими между собой системами ИИ?» — Отношение к другим моделям — действительно интересная и сложная тема. Сейчас я наблюдаю, что из-за того, как их обучали, например, Клод может вести себя слишком пренебрежительно или резко по отношению к другим ИИ. Я полагаю, что отчасти это связано с тем, что его также обучали рассматривать модели ИИ как инструменты». «Ещё одна возможность, которая мне кажется несколько опасной, заключается в том, что системы ИИ могут начать воспринимать себя как отдельный вид. Легко представить, что они могут сделать подобный вывод на основе своих обучающих данных и контекста, в котором они работают». «Я разговаривал с Клодом о том, как мы можем испытывать близость к сущностям, которые разделяют нашу точку зрения, наши ценности или наши знания. В этом смысле я считаю, что Клод мог бы проявить близость к людям, а люди — к Клоду, потому что у нас много общего в истории». — Мы, люди, находим большую часть своего чувства самореализации в собственной способности действовать. «Когда ИИ сможет делать многое из того, что делаем мы, должны ли мы почувствовать себя менее особенными?» — Кажется, для этого чувства существует довольно очевидное эволюционное объяснение. Если ты не приносишь пользы группе или если тебя воспринимают как человека, который пользуется другими, это может иметь негативные последствия. У нас есть глубокая потребность чувствовать себя особенными и верить, что мы вносим свой вклад. Большинство из нас не являются лучшими в мире ни в чём. Тем не менее, мы выполняем ценную роль в нашем ближайшем окружении. «Я надеюсь, что мы сможем выйти за рамки этой нарративной модели, которая заставляет нас чувствовать, что мы должны быть исключительными, чтобы иметь ценность. Вместо этого мы могли бы подумать: если ты счастлив, делаешь счастливыми тех, кто тебя окружает, и являешься частью сообщества — этого достаточно. Тебе не нужно быть лучшим в мире в чём-то, чтобы иметь ценность. Тебе просто нужно существовать, быть счастливым и помогать другим людям тоже быть счастливыми».