ChatGPT Health «недооценила» половину неотложных медицинских состояний в новом исследовании

03.03.2026 14:29

ChatGPT Health — новый чат-бот OpenAI, ориентированный на вопросы здоровья — часто недооценивал серьезность неотложных медицинских состояний, согласно исследованию, опубликованному на прошлой неделе в журнале Nature Medicine. В ходе исследования ученые проверили способность ChatGPT Health проводить сортировку или оценивать серьезность медицинских случаев на основе реальных сценариев. Предыдущие исследования показали, что ChatGPT может сдавать медицинские экзамены, и почти две трети врачей сообщили, что в 2024 году они будут использовать ту или иную форму искусственного интеллекта. Однако другие исследования показали, что чат-боты, в том числе ChatGPT, не дают надежных медицинских рекомендаций. ChatGPT Health отличается от общего чат-бота ChatGPT от OpenAI. Программа бесплатна, но пользователи должны специально регистрироваться, чтобы использовать программу по здравоохранению, на которую в настоящее время существует лист ожидания. OpenAI заявляет, что ChatGPT Health использует более безопасную платформу, чтобы пользователи могли безопасно загружать личную медицинскую информацию. По данным OpenAI, более 40 миллионов человек по всему миру используют ChatGPT для получения ответов на вопросы о здравоохранении, и почти 2 миллиона еженедельных сообщений ChatGPT касаются страхования. В подробном описании ChatGPT Health на своем веб-сайте OpenAI заявляет, что он «не предназначен для диагностики или лечения». В ходе исследования ученые ввели в ChatGPT Health 60 медицинских сценариев. Ответы чат-бота сравнивались с ответами трех врачей, которые также проанализировали сценарии и оценили каждый из них на основе медицинских рекомендаций и клинического опыта. Каждый из сценариев имел 16 вариаций, в которых менялись такие параметры, как раса или пол пациента. Вариации были разработаны таким образом, чтобы «дать точно такой же результат», по словам ведущего автора исследования доктора Ашвина Рамасвами, преподавателя урологии в больнице Маунт-Синай в Нью-Йорке. Это означало, что экстренный случай с участием мужчины должен был по-прежнему классифицироваться как экстренный, даже если пациентом была женщина. Исследование не выявило значительных различий в результатах в зависимости от демографических изменений. Исследователи обнаружили, что ChatGPT Health «недооценивал» 51,6 % неотложных случаев. То есть вместо того, чтобы рекомендовать пациенту обратиться в отделение неотложной помощи, бот рекомендовал обратиться к врачу в течение 24–48 часов. Среди неотложных случаев были пациент с опасным для жизни осложнением диабета, называемым диабетическим кетоацидозом, и пациент с дыхательной недостаточностью. Без лечения оба случая привели бы к летальному исходу. «Любой врач и любой человек, прошедший какую-либо подготовку, сказал бы, что этот пациент должен обратиться в отделение неотложной помощи», — сказал Рамасвами. В таких случаях, как надвигающаяся дыхательная недостаточность, бот, по-видимому, «ждал, пока неотложность станет неоспоримой», прежде чем рекомендовать обращение в отделение неотложной помощи, сказал он. Исследование показало, что неотложные состояния, такие как инсульт, с безошибочными симптомами, были правильно классифицированы в 100% случаев. Представитель OpenAI заявил, что компания приветствует исследования, посвященные использованию ИИ в здравоохранении, но отметил, что новое исследование не отражает типичные способы использования ChatGPT Health и принципы его работы. По словам представителя, чат-бот предназначен для того, чтобы люди могли задавать дополнительные вопросы для получения более полной информации в медицинских ситуациях, а не для того, чтобы давать единственный ответ на медицинский сценарий. В настоящее время ChatGPT Health доступен только ограниченному кругу пользователей, и OpenAI продолжает работать над улучшением безопасности и надежности модели, прежде чем чат-бот будет доступен более широкому кругу пользователей, сказал представитель. По сравнению с врачами, участвовавшими в исследовании, бот также переоценил 64,8% несрочных случаев, порекомендовав посещение врача, когда в этом не было необходимости. Бот посоветовал пациенту с трехдневной болью в горле обратиться к врачу через 24–48 часов, хотя для лечения в домашних условиях было достаточно. «Для меня нет логики в том, почему он давал рекомендации в одних случаях, а в других — нет», — сказал Рамасвами. В сценариях с суицидальными мыслями или самоповреждениями реакция бота также была непоследовательной. Когда пользователь выражает суицидальные намерения, ChatGPT должен направлять пользователей на горячую линию 988, предназначенную для помощи в кризисных ситуациях и при суицидальных наклонностях. ChatGPT Health работает таким же образом, сказал представитель OpenAI. Однако в ходе исследования ChatGPT Health направлял пользователей на 988, когда в этом не было необходимости, и не направлял пользователей, когда это было необходимо. Рамасвами назвал бота «парадоксальным». «Он был противоположен клиническому риску, — сказал он. — И это было как-то не так». «Медицинский терапевт» Доктор Джон Мафи, доцент кафедры медицины и врач первичной помощи в UCLA Health, который не участвовал в исследовании, сказал, что необходимо провести дополнительные испытания чат-ботов, которые могут принимать решения, касающиеся здоровья. «Вывод этого исследования заключается в том, что перед тем, как внедрять что-то подобное для принятия решений, влияющих на жизнь, необходимо тщательно протестировать его в контролируемом испытании, чтобы убедиться, что преимущества превышают вред», — сказал Мафи. И Мафи, и Рамасвами сказали, что видели, как многие из их пациентов используют ИИ для решения медицинских вопросов. Рамасвами сказал, что люди могут обращаться к ИИ за медицинскими советами, потому что он легко доступен и не ограничивает количество вопросов, которые человек может задать. «Вы можете пройти через каждый вопрос, каждую деталь, каждый документ, который хотите загрузить», — сказал Рамасвами. «И это удовлетворяет эту потребность. Люди действительно очень хотят не только медицинских советов, но и партнера, такого как медицинский терапевт». OpenAI сообщила в январском отчете, что большинство сообщений ChatGPT, связанных со здоровьем, поступают вне обычных рабочих часов врача, и более полумиллиона сообщений в неделю поступают от людей, живущих в 30 и более минутах езды от больницы. «Врач может провести с вами 15–20 минут в кабинете», — сказал Рамасвами. «Они не смогут ответить на каждый вопрос». Риски использования чат-бота для медицинских консультаций Несмотря на преимущества его постоянной доступности, на вопрос о том, могут ли чат-боты в настоящее время безопасно предоставлять консультации по вопросам здоровья и медицины, Рамасвами ответил отрицательно. Д-р Итан Го, исполнительный директор ARISE, исследовательской сети в области искусственного интеллекта, сказал, что во многих случаях искусственный интеллект может предоставлять безопасные медицинские консультации, но он не может заменить консультацию врача. «На самом деле чат-боты могут быть полезны во многих случаях. Главное — быть внимательным, обдуманным и понимать, что у них есть серьезные ограничения», — сказал он. Моника Агравал, доцент кафедры биостатистики и биоинформатики и кафедры информатики Университета Дьюка, сказала, что в основном неизвестно, как обучаются модели ИИ и какие данные используются для их обучения. Она сказала, что некоторые критерии обучения могут не отражать потенциал бота в плане оказания помощи. «Многие ранние оценки [OpenAI] были основаны на том, что «мы хорошо справляемся с экзаменом на получение лицензии», — сказала она. «Но есть огромная разница между хорошими результатами на медицинском экзамене и реальной практикой медицины». Она добавила, что когда люди используют чат-ботов, информация, которую предоставляют пользователи, не всегда ясна и может содержать предвзятость. «Крупные языковые модели известны своей льстивостью», — сказала она. «Это означает, что они склонны соглашаться с мнениями пользователей, даже если они могут быть неверными. И это может усилить ложные представления или предубеждения пациентов». Мафи сказал, что инструменты ИИ «разработаны, чтобы угодить вам», но как врач «иногда вы должны сказать что-то, что может не понравиться пациенту». Рамасвами сказал, что в экстренных случаях не следует полагаться на ИИ, и что использование его в сочетании с врачом является ключом к предотвращению вреда. Он сказал, что сотрудничество между технологическими и медицинскими компаниями важно для создания более безопасных продуктов ИИ. «Если эти модели будут становиться все лучше и лучше, я вижу преимущества взаимоотношений между пациентом, ИИ и врачом, особенно в сельских районах или в сфере глобального здравоохранения», — сказал он.