Южная Америка

Согласно новому исследованию, возможности искусственного интеллекта могут быть преувеличены из-за несовершенства тестов.

Согласно новому исследованию, возможности искусственного интеллекта могут быть преувеличены из-за несовершенства тестов.
Исследователи, стоящие за новым исследованием, утверждают, что методы, используемые для оценки возможностей систем искусственного интеллекта, регулярно завышают производительность ИИ и не обладают научной строгостью. В рамках исследования, проведенного учеными Оксфордского института Интернета в сотрудничестве с более чем тремя десятками исследователей из других учреждений, было проанализировано 445 ведущих тестов ИИ, называемых бенчмарками, которые часто используются для измерения производительности моделей ИИ в различных тематических областях. Разработчики и исследователи ИИ используют эти тесты для оценки возможностей моделей и рекламирования технического прогресса, ссылаясь на них для утверждений по различным темам, от производительности программного обеспечения до способности к абстрактному мышлению. Однако в статье, опубликованной во вторник, утверждается, что эти фундаментальные тесты могут быть недостоверными, и ставится под сомнение достоверность многих результатов тестов. Согласно исследованию, значительное число ведущих бенчмарков не определяют, что именно они стремятся протестировать, вызывают озабоченность повторным использованием данных и методов тестирования из уже существующих бенчмарков и редко используют надежные статистические методы для сравнения результатов между моделями. Адам Махди, старший научный сотрудник Оксфордского института Интернета и ведущий автор исследования, утверждает, что эти тесты могут быть чрезвычайно вводящими в заблуждение: «Когда мы просим модели ИИ выполнять определенные задачи, мы часто измеряем совершенно другие концепции или конструкции, чем те, которые мы намерены измерить», — сказал Махди NBC News. Эндрю Бин, исследователь из Оксфордского института Интернета и другой ведущий автор исследования, согласился с тем, что даже авторитетные тесты слишком часто принимаются на веру и заслуживают более тщательного изучения. «Нужно относиться к таким заявлениям, как «модель достигает уровня интеллекта доктора наук», с большой долей скептицизма», — сказал Бин в интервью NBC News. «Мы не уверены, что эти измерения проводятся особенно хорошо». Некоторые из тестов, рассмотренных в анализе, измеряют конкретные навыки, такие как знание русского или арабского языка, в то время как другие тесты измеряют более общие способности, такие как пространственное мышление и непрерывное обучение. Основной вопрос для авторов заключался в том, является ли тест хорошим средством проверки реального явления, которое он призван измерить, или, как авторы называют это, «конструктной валидностью». Например, вместо того, чтобы тестировать модель на бесконечной серии вопросов для оценки ее способности говорить по-русски, один из тестов, рассмотренных в исследовании, измеряет производительность модели по девяти различным задачам, таким как ответы на вопросы «да-нет» с использованием информации, взятой из русскоязычной Википедии. Однако примерно половина тестов, рассмотренных в исследовании, не дают четкого определения концепций, которые они якобы измеряют, что ставит под сомнение способность тестов давать полезную информацию о тестируемых моделях ИИ. В качестве примера в исследовании авторы приводят распространенный тест искусственного интеллекта под названием Grade School Math 8K (GSM8K), который измеряет эффективность на наборе базовых математических вопросов. Наблюдатели часто ссылаются на рейтинги теста GSM8K, чтобы показать, что модели ИИ обладают высокими способностями к фундаментальному математическому мышлению, а в документации теста говорится, что он «полезен для проверки неформальных способностей к мышлению больших языковых моделей». Однако правильные ответы на тестах, таких как GSM8K, не обязательно означают, что модель действительно занимается математическим мышлением, сказал автор исследования Махди. «Когда вы спрашиваете первоклассника, сколько будет два плюс пять, и он отвечает «семь», да, это правильный ответ. Но можно ли из этого сделать вывод, что пятиклассник освоил математическое мышление или арифметическое мышление, просто умея складывать числа? Возможно, но я думаю, что ответ, скорее всего, будет отрицательным». Бин признал, что для измерения таких неопределенных понятий, как мышление, необходимо оценивать подмножество задач, и что такой выбор неизбежно будет несовершенным. «В этих оценках есть много подвижных элементов, и для удовлетворения всех из них требуется баланс. Но в этой статье предлагается использовать контрольные показатели, чтобы четко определить, что именно они собираются измерить», — сказал он. «Когда речь идет о таких понятиях, как безвредность или мышление, люди часто просто бросаются словами, выбирают что-то, что подходит под эту категорию, что они могут измерить, и говорят: «Отлично, теперь я это измерил», — добавил Бин. В новой статье авторы дают восемь рекомендаций и предоставляют чек-лист для систематизации критериев тестов и повышения прозрачности и доверия к ним. Предлагаемые улучшения включают в себя уточнение сферы применения конкретного оцениваемого действия, создание наборов задач, которые лучше отражают общие измеряемые способности, и сравнение производительности моделей с помощью статистического анализа. Никола Юркович, член технического персонала влиятельного исследовательского центра METR AI, высоко оценил вклад этой статьи. «Нам нужна большая строгость, если мы хотим иметь возможность интерпретировать результаты тестов искусственного интеллекта. Этот контрольный список является отправной точкой для исследователей, чтобы проверить, будет ли их тест информативным», — сказал Юркович NBC News. Статья, опубликованная во вторник, основана на предыдущих исследованиях, в которых были указаны недостатки многих тестов ИИ. В прошлом году исследователи из компании Anthropic, занимающейся ИИ, выступили за увеличение статистических тестов, чтобы определить, действительно ли производительность модели по конкретному тесту показывает разницу в возможностях или это просто удачный результат, учитывая задачи и вопросы, включенные в тест. В попытке повысить полезность и точность тестов несколько исследовательских групп недавно предложили новую серию тестов, которые лучше измеряют реальную производительность моделей при выполнении экономически значимых задач. В конце сентября OpenAI выпустила новую серию тестов, которые оценивают производительность ИИ при выполнении задач, необходимых для 44 различных профессий, в попытке лучше обосновать утверждения о возможностях ИИ в реальном мире. Например, тесты измеряют способность ИИ исправлять несоответствия в счетах клиентов в таблицах Excel для вымышленной должности аналитика по продажам или способность ИИ создавать полный график производства для 60-секундной видеосъемки для вымышленного видеопродюсера. Дэн Хендрикс, директор Центра безопасности ИИ, и команда исследователей недавно выпустили аналогичный реальный тест, предназначенный для оценки производительности систем ИИ по ряду задач, необходимых для автоматизации удаленной работы. «Часто системы ИИ получают высокие оценки в тестах, но на самом деле не решают фактическую задачу теста», — сказал Хендрикс NBC News. Оценивая более широкую картину тестов ИИ, Махди сказал, что у исследователей и разработчиков есть много интересных направлений для изучения. «Мы только в самом начале научной оценки систем ИИ», — сказал Махди.