ИИ прошел самую строгую оценку, и им пришлось создать новую версию: «Это показатель нашей собственной наивности перед лицом скорости прогресса».
Помимо великих достижений, которые мы видим ежедневно, мы знаем, насколько способен искусственный интеллект, благодаря определенным оценкам различных моделей профессионалами. По-английски эти тесты называются бенчмарками, точками отсчета, которых достигает или, в лучшем случае, превосходит новая технология: это способ стандартизированного сравнения производительности той или иной генеративной модели искусственного интеллекта. «Одним из самых известных тестов является ARC-AGI, который ежегодно проводит конкурс - ARC Prize, где награждается система искусственного интеллекта, набравшая наибольшее количество баллов. В 2024 году модель OpenAI o3 (low) превысила максимальный балл оценки на 75,7%, а модель o3 (high) - на 87,5%, что сделало их самыми продвинутыми». „Оценки - это способ узнать, на каком уровне мы находимся, и в этом смысле, да, они служат для предвидения рисков“, - объясняет Хулиан Пеллер, технологический лидер в Instituto Humai, центре технологического образования для всей Латинской Америки. «Они являются мерилом нашей собственной наивности и нашего удивления скоростью прогресса. Часто кажется, что эталон измеряет что-то очень важное, пока ИИ не превзойдет его, и тогда он начинает казаться все более наивным и простым», - добавил он. »По данным The Conversation, тест ARC-AGI был создан в 2019 году французским разработчиком программного обеспечения Франсуа Шолле. После публикации книги «В меру интеллекта» он разработал этот тест, который, говоря техническим языком, измеряет, сколько примеров нужно увидеть системе искусственного интеллекта в новой ситуации, чтобы понять, как она работает. «В основе названия теста лежит аббревиатура AGI, более известная как искусственный общий интеллект. Последний представляет собой технологию, способную рассуждать подобно человеку, и является целью всех крупных компаний. Хотя на официальном сайте ARC Prize заявлено, что они не измеряют AGI, они подтверждают, что их целью является поиск инноваций, которые создают модели. Тот факт, что o3 показал хорошие результаты, не означает, что он достиг уровня AGI: «Однако очевидно, что сложность моделей растет с каждым днем. И тестирование должно развиваться вместе с ними». «Большие языковые модели обучаются в Интернете, поэтому они могут потреблять те же данные, которые используются для их оценки, что еще больше усложняет определение хорошей оценки», - говорит Пеллер. «Сегодня мы пытаемся определить эталонный горизонт, который не устареет со скоростью прогресса», - сказал он. В этих рамках на следующем конкурсе системы искусственного интеллекта должны будут пройти новую версию оценки, ARC-AGI-2, которая обещает быть более сложной. Несмотря на то, что технологии представляют собой сложную задачу, в человеческих глазах это довольно простой тест. Что позволяет нам быть уверенными в том, что у нас еще есть преимущество. По данным GenBeta, в первую очередь увеличилось количество решаемых задач - со 100 до 120. Эта отличительная особенность призвана позволить технологиям справляться с большим разнообразием и сложностью вызовов. И параллельно с этим были исключены все те задачи, которые искусственный интеллект и так решал с легкостью. То есть те, которые он и так мог решать быстро благодаря своим заранее заложенным алгоритмам. Также были включены тесты, затрагивающие ключевые аспекты логического мышления, такие как интерпретация символов, композиционное мышление и применение контекстуальных правил. Все те области, в которых искусственный интеллект не преуспел. Например, люди могут быстро понять сарказм в предложении или определить объекты, наполовину скрытые на изображениях. Хотя эти оценки позволяют узнать о прогрессе, которого добиваются языковые модели, они также представляют собой парадокс. По словам Матиаса Гринберга, основателя и директора Института Humai, эксперты отталкиваются от оригинальной идеи, утверждающей, что существует когнитивная способность, которую не может решить искусственный интеллект, и в рамках научной области они создают оценки для измерения чего-то абстрактного, например, креативности. «Когда они устраивают это соревнование, они в некотором роде операционализируют эту задачу, поскольку дают точное определение того, что предлагается считать креативностью», - говорит Гринберг. «Что происходит, так это то, что через несколько месяцев системы превышают этот показатель, хотя ведутся споры о том, является ли креативность по своей сути тем, что измеряется. Таким образом, мы постоянно сталкиваемся с нашими собственными ограничениями в определении себя как человека», - сказал он. «По мнению Гринберга, эти ориентиры не столько «предвосхищают риски», сколько ускоряют продвижение систем в определенном направлении. Кроме того, конечно, они позволяют нам отслеживать совершенствование ИИ в конкретных навыках для обсуждения - то, к чему общество уже проявило интерес. «Мне кажется, что путь вперед - это углубление осознания обществом значимости ИИ для общества, чтобы сломать инерцию своего рода антитехнологических настроений», - размышляет Пеллер. Сейчас самое время перевернуть страницу и двигаться вперед с минимальной массовой технологической грамотностью».