Новый помощник ИИ из Китая заставил Кремниевую долину заговорить

27.01.2025 10:37

Небольшая лаборатория в Китае всколыхнула Кремниевую долину. Внезапное появление продвинутого ИИ-ассистента от DeepSeek, ранее малоизвестной компании из китайского города Ханчжоу, вызвало дискуссии и споры в американской технологической отрасли о том, что это говорит о более широкой гонке развития ИИ. В последние дни ассистент DeepSeek занял первое место в Apple App Store, а модели ИИ, на которых он работает, уже превзошли лучшие американские модели, при этом компания утверждает, что они были созданы с использованием лишь части ресурсов. Неделю назад DeepSeek выпустила свою последнюю крупную языковую модель R1. Занимая второе место после модели o1 от OpenAI в Индексе качества искусственного анализа (Artificial Analysis Quality Index), хорошо известном независимом рейтинге ИИ-анализа, R1 уже опережает ряд других моделей, включая Gemini 2.0 Flash от Google, Claude 3.5 Sonnet от Anthropic, Llama 3.3-70B от Meta и GPT-4o от OpenAI. «DeepSeek R1 - это момент Спутника для ИИ», - написал в воскресенье на сайте X предприниматель Марк Андреессен, известный как соавтор одного из первых в мире веб-браузеров Mosaic, сравнив его с космической гонкой между США и Советским Союзом и событием, которое заставило США осознать, что их технологические возможности не являются неприступными. Одна из основных компетенций R1 - способность объяснять свои мысли с помощью цепочки рассуждений, которая призвана разбивать сложные задачи на более мелкие шаги. Этот метод позволяет модели возвращаться назад и пересматривать предыдущие шаги, имитируя человеческое мышление, а пользователям - следить за ее рассуждениями. На прошедшем на прошлой неделе Всемирном экономическом форуме в Швейцарии генеральный директор Microsoft Сатья Наделла, чья компания является одним из крупнейших инвесторов OpenAI, назвал новую модель DeepSeek «супервпечатляющей», добавив, что, по его мнению, «мы должны очень, очень серьезно относиться к разработкам Китая». И R1, и o1 относятся к новому классу «рассуждающих» моделей, предназначенных для решения более сложных задач, чем предыдущие поколения моделей ИИ. Но в отличие от o1 от OpenAI, R1 от DeepSeek бесплатна для использования и имеет открытый вес, то есть любой может изучать и копировать то, как она была создана. R1 была основана на предыдущей модели DeepSeek V3, которая также обошла GPT-4o, Llama 3.3-70B и Qwen2.5-72B от Alibaba, предыдущую ведущую модель ИИ в Китае. После выхода в конце декабря V3 демонстрировала производительность на уровне Claude 3.5 Sonnet. Часть того, что делает R1 столь впечатляющей, - это заявления DeepSeek о ее разработке. Согласно техническому отчету DeepSeek, на создание R1 ушло всего два месяца и менее 6 миллионов долл., несмотря на то, что ведущие технологические компании США продолжают тратить миллиарды долларов в год на ИИ. DeepSeek также пришлось преодолевать экспортные ограничения США, ограничивающие доступ к лучшим вычислительным чипам для ИИ, что вынудило компанию создавать свои модели на менее мощных чипах. Это вызвало бурные дебаты в американских технологических кругах: Как небольшой китайской компании удалось так резко превзойти самых финансируемых игроков в индустрии ИИ? И что это значит для отрасли в будущем? Главный научный сотрудник Meta по искусственному интеллекту Янн ЛеКун (Yann LeCun) написал в своем посте в Threads, что это событие не означает, что Китай «превзошел США в области ИИ», а скорее служит доказательством того, что «модели с открытым исходным кодом превосходят проприетарные». Он добавил, что DeepSeek получил пользу от других моделей с открытым исходным кодом, включая некоторые из моделей Meta. «Они предложили новые идеи и построили их на основе чужих наработок. Поскольку их работы опубликованы и имеют открытый исходный код, каждый может извлечь из них выгоду», - написал ЛеКун. «В этом и заключается сила открытых исследований и открытого исходного кода». (Хотя многие компании, включая DeepSeek и Meta, утверждают, что их модели ИИ имеют открытый исходный код, на самом деле они не выкладывали свои обучающие данные в открытый доступ). В прошлом месяце генеральный директор OpenAI Сэм Альтман, похоже, также подшутил над DeepSeek, после того как некоторые пользователи заметили, что V3 иногда путает себя с ChatGPT. Через день после выхода V3 Альтман написал на сайте X, что «копировать то, что вы знаете, что работает, (относительно) легко». очень трудно делать что-то новое, рискованное и сложное, когда не знаешь, получится ли это». В сети появились необоснованные утверждения о том, что успех DeepSeek - это «псиоп», или психологическая операция, китайского правительства, что ставит под сомнение способность небольшой команды «победить всех ведущих исследователей в мире в качестве побочного проекта». Сумит Чинтала, соучредитель PyTorch, библиотеки машинного обучения, разработанной Meta AI, был одним из многих, кто в эти выходные ответил на эти обвинения. «Меня комично поражает, что люди справляются с deepseek, изрыгая странные теории заговора - несмотря на то, что deepseek открыла сорсинг и написала одни из самых подробных статей в истории», - написал Чинтала на сайте X. „Читайте, воспроизводите, соревнуйтесь. Не будьте солеными, это только выставит вас некомпетентными“. Другие представители технологической и инвестиционной сфер присоединились к похвалам, выражая волнение по поводу последствий успеха DeepSeek. «Вот что делает историю с DeepSeek такой забавной. Кучка мошенников годами продавала секретный соус ИИ - жутковатый таинственный сок, который никогда не мог быть полностью объяснен», - написал макроэкономист Филип Пилкингтон на сайте X. „Теперь кучка молодых парней просто написала хороший алгоритм, опубликовала его, и цирковой шатер сгорел“. Нат Фридман, бывший генеральный директор Github, написал аналогичным образом: «Команда deepseek, очевидно, действительно хороша. В Китае полно талантливых инженеров. Извините». Модели DeepSeek заявляют, что владеют двумя языками, причем как китайским, так и английским. Однако, как оказалось, они подвержены цензуре или имеют определенные политические взгляды на темы, считающиеся в Китае деликатными. На вопрос о суверенитете Тайваня, самоуправляющейся островной демократии, которую Пекин считает своей территорией, R1 из DeepSeek иногда отвечает, что эта тема «выходит за рамки моих возможностей». В других случаях модель описывает Тайвань как «неотъемлемую часть территории Китая», добавляя: «Мы решительно выступаем против любой формы сепаратистской деятельности, направленной на «независимость Тайваня», и стремимся к полному воссоединению родины мирными средствами». По пятам за последними моделями DeepSeek другие игроки китайского технологического сектора уже выпускают новых соперников в гонке за доминирование ИИ. В воскресенье компания Alibaba представила свою новейшую модель Qwen2.5-1M, усовершенствованную по сравнению с Qwen2.5-72B. Kimi AI, принадлежащая пекинской компании Moonshot AI, в субботу также объявила о запуске своей новейшей мультимодальной модели рассуждений Kimi k1.5, которую она называет сопоставимой с o1 от OpenAI.