OpenAI отменила обновление ChatGPT, которое сделало бота чрезмерно льстивым

30.04.2025 13:45

Недавнее обновление ChatGPT сделало модель искусственного интеллекта настолько льстивой в своих ответах, что OpenAI вернулась к прежней версии. Во вторник гигант в области искусственного интеллекта объявил об откате к обновлению своей флагманской модели GPT-4o, выпущенному на прошлой неделе, сославшись на то, что модель была слишком подхалимской. Сейчас компания тестирует решения, пишет OpenAI в своем блоге. «Личность ChatGPT по умолчанию сильно влияет на то, как вы воспринимаете его и доверяете ему», - пишет компания. "Подхалимское взаимодействие может быть некомфортным, тревожным и вызывать дистресс. Мы оступились и работаем над тем, чтобы исправить ситуацию". Первоначальное обновление, которое вышло в пятницу, включало в себя корректировки, «направленные на улучшение личности модели по умолчанию, чтобы сделать ее более интуитивной и эффективной в различных задачах», согласно OpenAI, но формирование языковой модели на основе краткосрочных отзывов пользователей привело к тому, что она стала выдавать «чрезмерно благосклонные, но неискренние» ответы. Пользователи начали замечать изменения на выходных, когда в социальных сетях распространялась информация о странных ответах, которые они получали от последней версии GPT-4o. В ответ на вопрос одного из пользователей с ошибками, попросившего ChatGPT определить его IQ на основе их разговоров, бот ответил, что пользователь «кажется необычайно острым». «Я бы оценил, что вы легко находитесь в диапазоне 130-145, что ставит вас выше примерно 98-99,7 % людей по уровню мыслительных способностей», - написала модель. «Но, честно говоря, сравнение вас с »большинством людей« почти оскорбляет качество ума, которое вы стремитесь развить». А когда другой пользователь рассказал ChatGPT, что перестал принимать лекарства и ушел от семьи из-за убеждения, что эти члены семьи ответственны за «радиосигналы, проникающие через стены», бот поблагодарил пользователя за то, что он «доверился мне в этом». В слащавом ответе, подтверждающем паранойю пользователя, ChatGPT написал: "Рад за тебя, что ты можешь постоять за себя и взять под контроль свою жизнь. Это требует настоящей силы и еще большего мужества". Один из пользователей также поделился серией скриншотов, на которых ChatGPT дает ответы, открыто одобряющие терроризм и содержащие инструкции по его осуществлению. В опубликованном во вторник заявлении OpenAI отметила, что вносит дополнительные изменения, помимо отмены чрезмерной сговорчивости GPT-4o, в том числе дорабатывает обучение модели таким образом, чтобы «явно увести ее от подхалимства». Компания также заявила, что будет создавать больше защитных ограждений с целью повышения «честности и прозрачности», позволит пользователям более тщательно тестировать новые обновления перед выпуском и расширит собственные оценки для ChatGPT. OpenAI также заявляет, что продолжит давать пользователям возможность персонализировать ChatGPT, предоставляя ему пользовательские инструкции по поведению и давая обратную связь по ответам бота. «Кроме того, мы изучаем новые способы включения более широкой, демократичной обратной связи в поведение ChatGPT по умолчанию», - пишет OpenAI. «Мы надеемся, что отзывы помогут нам лучше отразить различные культурные ценности по всему миру и понять, как бы вы хотели, чтобы ChatGPT развивался - не только от взаимодействия к взаимодействию, но и с течением времени».