Уругвайское исследование показывает, что точность медицинской диагностики с помощью ChatGPT, Claude и Gemini составляет от 80% до 90%.

Уругвайское научное исследование было направлено на изучение точности популярных инструментов искусственного интеллекта (ИИ), таких как ChatGPT, Claude и Gemini, в медицине. Предварительные результаты тестирования показали, что модели этих технологий имели уровень точности диагностики от 80% до 90%. Доктор Либер Фернандес, аспирант Академического подразделения по инфекционным заболеваниям Медицинского факультета (Университет Республики), под руководством заведующего этим подразделением, инфекциониста Хулио Медины, поставил перед собой задачу оценить эффективность ChatGPT, Claude и Gemini при анализе реальных медицинских карт пациентов с инфекционными заболеваниями из Больницы клиник и Национального института ортопедии и травматологии (INOT). Целью проводимой работы было определить, соответствует ли диагностическая точность этих трех ИИ «человеческому стандарту», являются ли предлагаемые ими подходы «клинически обоснованными» и можно ли их использование анализировать «систематически», помимо спонтанного использования, которое наблюдается в медицинской практике, объяснили оба ученых газете El País. В ходе исследования не только оценивалось, соответствуют ли эти три инструмента ИИ медицинскому диагнозу, но и анализировался процесс, с помощью которого они приходили к нему. То есть, делали ли они это «разумно», «эффективно» и «без угрозы для безопасности пациента», добавили они. Исследование было направлено на то, чтобы выяснить, предлагают ли эти ИИ «ненужные или агрессивные исследования», содержат ли ответы ошибки — которые в технологическом жаргоне называются «галлюцинациями» — и является ли рассуждение платформ «сопоставимым с человеческим» или оно отвечает «собственной логике», пояснили они. «Предварительные результаты исследования указывают на интересные выводы», — отметили Фернандес и Медина. Что касается диагностики, как уже было сказано, уровень точности «составляет от 80 до 90%, что сопоставимо с результатами исследований с участием врачей-специалистов и превышает средние показатели врачей общего профиля в сопоставимых условиях». Тем не менее, ChatGPT и Claude показали лучший результат, чем Gemini, при оценке «качества рассуждений, ясности ответов, объема речи (словоблудия), безопасности пациента и риска ошибок». Один момент привлек внимание ученых: при классификации медицинских карт по уровню сложности модели давали правильные или неправильные ответы «независимо от того, была ли карта простой или очень сложной». «Это многообещающие инструменты, но их надежность все еще относительна и зависит от контекста», — сказали они. При этом они отметили, что их основная полезность заключается в «приоритезации клинической информации», но «не в принятии решений за врача», добавили они. «Модели демонстрируют замечательную способность обрабатывать большие объемы данных и эффективно структурировать их, что может значительно облегчить работу врачей. Однако клинические выводы, которые они делают на основе этой информации, пока не превосходят, а в некоторых случаях даже уступают тому, что может сделать профессионал-человек», — оценили они. Вышеупомянутые ИИ «надежны для организации информации, но не для завершения клинического мышления. Поэтому их использование всегда должно сопровождаться проверкой и контролем со стороны человека», — добавили они. ChatGPT, Claude или Gemini «могут быть полезны для изучения идей или составления документов, но важно понимать, что они предсказывают текст: они не рассуждают, не понимают и, прежде всего, не различают достоверные доказательства и ошибочные утверждения», — добавили они. Использование ChatGPT, Claude и Gemini вызывает ряд вопросов. По поводу важности их использования в медицинской практике они отметили, что в условиях, когда клинические данные становятся «все более обширными и сложными», ИИ может «помочь в систематизации информации, приоритезации дифференциальных диагнозов, составлении клинических резюме и содействии в медицинском образовании». Фернандес и Медина сошлись во мнении, что эти три инструмента «не заменяют клиническое мышление, но могут быть ценной поддержкой для повышения эффективности и сокращения ошибок по недосмотру». Что касается того, на что следует обратить внимание при использовании, они указали: «Первый риск заключается в том, что можно предположить, что «если ИИ так говорит, то это должно быть верно», особенно потому, что эти инструменты «могут казаться надежными, даже когда они ошибаются». Другой аспект, который они рассмотрели, заключается в том, что, не имея «реального клинического контекста, они не имеют доступа к полной истории болезни пациента и человеческому опыту и могут предлагать несоответствующие решения». Поэтому они предлагают врачу «интерпретировать их ответы с осторожностью». Хотя они оценили, что при «профессиональном надзоре» эти популярные ИИ могут быть «ценным дополнительным инструментом», они также предупреждают, что их использование все еще находится в экспериментальной фазе и «не является частью стандартизированных протоколов». Другой аспект, лежащий в основе быстрого прогресса, особенно с появлением ChatGPT в ноябре 2022 года, заключается в том, придут ли эти технологии на смену врачам. «Нет», — согласились они в ответ на этот вопрос. «Эти технологии не обладают сознанием, клиническим суждением или профессиональной ответственностью. Это инструменты, которые обрабатывают данные и язык, но не заменяют человеческий опыт, связь с пациентом или принятие клинических решений в контексте», — подчеркнули они. Ученые указали, что работа врача включает в себя «эмоциональные, этические, социальные и технические» компоненты, которые в настоящее время «не могут быть воспроизведены никаким искусственным интеллектом». «Мы знаем, что сегодня он дает сбой на многих этапах, предшествующих диагностике, таких как сбор данных, интерпретация языка тела, эмпатическое общение и принятие этических решений», — отметили они. «Искусственный интеллект может быть отличным помощником, но центральная роль врача никуда не исчезнет», — заключили Фернандес и Медина.