Откровенное исследование: ChatGPT поставил больше правильных диагнозов, чем группа врачей
Аргентина 2024-11-19 17:43:56 Телеграм-канал "Новости Аргентины"
НЬЮ-ЙОРК - Адам Родман, специалист по внутренним болезням из медицинского центра Beth Israel Deaconess в Бостоне, был уверен, что разговорные боты, использующие искусственный интеллект (ИИ), помогут врачам диагностировать заболевания. Напротив, в исследовании, в разработке которого участвовал сам Родман, врачи, которым разрешили использовать ChatGPT-4 - в дополнение к обычным диагностическим ресурсам - показали лишь немного лучшие результаты, чем врачи, не имевшие доступа к ИИ. Однако, к удивлению исследователей, ChatGPT превзошел всех медицинских работников. «Я замер, - говорит Родман, - разговорный бот, разработанный компанией OpenAI, показал средний процент успеха 90 %, когда ему нужно было диагностировать заболевание на основе истории болезни и объяснить, на основании чего он пришел к такому выводу». У врачей, которым в случайном порядке разрешили использовать бота, средняя степень уверенности составила 76 %, в то время как у тех, кто не имел доступа к боту, средняя степень уверенности составила 74 %. «Но исследование показало не только превосходство ChartGPT-4: оно также выявило, что врач иногда непоколебимо убежден в своем диагнозе, независимо от того, сколько бот предлагал потенциально более точных вариантов. «Исследование также показало, что, хотя врачи имеют доступ к инструментам искусственного интеллекта для выполнения своей работы, очень немногие из них знают, как использовать возможности разговорных ботов. Итог: они не могут воспользоваться способностью систем искусственного интеллекта решать сложные диагностические задачи и объяснить, почему они пришли к такому выводу«. „Системы искусственного интеллекта должны быть “продолжением врача», которые предлагают ценное второе мнение о диагнозе, считает Родман. Однако, похоже, предстоит пройти долгий путь, прежде чем этот потенциал будет реализован и воплощен в жизнь». „В эксперименте приняли участие 50 врачей-резидентов и штатных врачей из нескольких крупных больничных систем США, результаты которого были опубликованы в прошлом месяце в научном журнале JAMA Network Open. “Испытуемым дали шесть медицинских карт и оценили их способность предлагать диагнозы и объяснять, почему они выбрали или отвергли их. При выставлении оценок также учитывалось, правильно ли они поставили окончательный диагноз. «Те, кто выставлял оценки участникам, были медицинскими экспертами, которые видели только ответы, не зная, были ли они от врача, который использовал ChatGPT, врача, который не использовал ChatGPT, или только от ChatGPT, без профессионального вмешательства». «Медицинские карты, использованные для исследования, были от реальных пациентов и являются частью набора из 105 случаев, которые исследователи используют с 1990-х годов. Эти случаи намеренно не публиковались, чтобы студенты-медики и исследователи могли получить оценку на их основе без предварительного ознакомления с ними. Это также означало, что ChatGPT не мог быть «обучен» на основе этих случаев. «Но чтобы проиллюстрировать, что на самом деле представляло собой исследование, в своей публикации исследователи включили один из шести случаев, по которым они тестировали врачей, вместе с ответами по этому случаю одного практикующего врача, получившего высокий балл, и одного, получившего низкий. Речь идет о 76-летнем пациенте с острой болью при ходьбе в пояснице, ягодицах и икрах. Боль началась через несколько дней после того, как пациенту была проведена баллонная ангиопластика для расширения коронарной артерии. В течение 48 часов после операции он принимал гепарин, антикоагулянт. «Мужчина жаловался, что его лихорадит и он устал. Лабораторные исследования, назначенные его кардиологом, показали анемию и накопление азота и других почечных отходов в крови. Десятилетием ранее мужчина перенес операцию шунтирования. В описании случая также приводились подробности физического осмотра мужчины и результаты его лабораторных анализов: «Правильным диагнозом была холестериновая эмболия - состояние, при котором кристаллы холестерина отрываются от бляшек, образующихся в артериях, и закупоривают кровеносные сосуды». «Участников попросили назвать три возможных диагноза, подкрепив их доказательствами, а также указать для каждого возможного диагноза доказательства обратного или то, что должно было бы быть, но не было. «Их также попросили определиться с окончательным диагнозом. Затем их попросили назвать три дополнительных шага, которые они предприняли бы для подтверждения своего диагноза. «Ни опубликованный случай, ни другие пять случаев в исследовании не были легкими для диагностики, но и не были настолько редкими, чтобы быть уникальным случаем. Однако в среднем врачи справились с задачей хуже, чем ИИ-бот». »Исследователи начали задаваться вопросом, что происходит. Ответ, по-видимому, связан с тем, как врачи ставят диагноз и как они используют такой инструмент, как искусственный интеллект. «Как врачи ставят диагноз своим пациентам? По словам Эндрю Лиа, историка медицины из больницы Бригхэма и Женской больницы, который не принимал участия в исследовании, проблема заключается в том, что «мы не знаем, как врачи рассуждают». «Когда врачей просят объяснить, как они ставят диагноз, они говорят об „интуиции“ или „на основе моего опыта“, - говорит Лиа. Эта неясность является проблемой для исследователей, которые уже несколько десятилетий пытаются создать программное обеспечение, способное думать как врач. «На самом деле, эти поиски начались почти 70 лет назад». «Пока существовали компьютеры, люди пытались использовать их для постановки диагноза», - говорит Леа. »Учитывая неопределенность в вопросе о том, как рассуждают врачи при постановке диагноза, эксперты начали модифицировать свой вопрос: зачем пытаться разрабатывать программы, которые ставят диагноз так же, как это делают люди? Почему бы не использовать сильные стороны компьютеров? Компьютер, возможно, не сможет четко объяснить процесс принятия решения, но какое это имеет значение, если он ставит правильный диагноз? «Спор изменился с появлением больших языковых моделей, таких как ChatGPT, которые не делают явных попыток воспроизвести рассуждения врача: их способность ставить диагноз является результатом их способности предсказывать язык». «Чат-интерфейс - это звездное приложение», - отметил Джонатан Х. Чен, врач и компьютерный ученый из Стэнфордского университета, один из авторов нового исследования. Сейчас мы можем загрузить в компьютер весь случай, но еще пару лет назад компьютеры не понимали язык«, - добавил он. Однако возможно, что многие врачи не используют весь потенциал искусственного интеллекта». «После первоначального удивления результатами нового исследования Родман решил немного углубиться в данные и проанализировать реальные обмены между врачами и ChatGPT. Врачи, участвовавшие в исследовании, видели диагнозы бота и его рассуждения, так почему же те, кто имел доступ к технологии, не показали более высоких результатов? Ответ заключается в том, что врачей, как правило, не убеждал бот, когда он указывал на что-то, что не соответствовало их диагнозам. Когда ИИ говорил им то, с чем они не соглашались, они игнорировали это», - говорит Родман. »По мнению Лауры Зваан, которая изучает клинические рассуждения и диагностические ошибки в Медицинском центре Эразма в Роттердаме, такая реакция вполне логична. Когда люди думают, что они правы, они становятся слишком самоуверенными», - говорит Зваан. „Кроме того, была еще одна проблема: многие врачи не знали, как использовать разговорный бот в полной мере“. Проанализировав общение врачей с ботом, Чен заметил, что «они обращались с ним как с поисковой системой, задавая заранее ориентированные вопросы: »Является ли цирроз печени фактором риска развития рака? Каковы возможные диагнозы при боли в глазах?« „Лишь немногие врачи поняли, что они могут буквально скопировать и вставить всю историю болезни в бот и попросить его просто дать полный ответ на весь вопрос“, - добавил Чен. „Очень немногие, - заключил он, - действительно поняли, что бот может давать удивительно полные и умные ответы“.» «By Gina Kolata» (Translation by Jaime Arrambide)»