Производство современных моделей ИИ продолжается

Китайская компания DeepSeek, основанная всего лишь в позапрошлом году, несколько дней назад выпустила свою новую модель искусственного интеллекта R1. Это полностью потрясло мир и привело к краху технологических компаний и производителей микросхем на американском фондовом рынке. Что именно произошло и насколько хороша китайская модель? На этот вопрос отвечает Станислав Форт, эксперт и исследователь в области искусственного интеллекта с опытом работы в лабораториях Anthropic и Google DeepMind. До недавнего времени никто не знал о DeepSeek, а теперь он внезапно стал вездесущим. Как вы оцениваете это как человек в этой отрасли?

Недавно выпущенная модель R1 от DeepSeek сломала так называемый «нормальный» барьер. Это значит, что общественность теперь говорит об этом, в Интернете появляются статьи об этом, или наши родители, может быть, даже бабушки, внезапно спрашивают нас об этом. Однако в публичном обсуждении много информационного шума и неточностей. Действительно ли это было громом среди ясного неба? Для тех, кто имеет дело с вещами, не так уж и много. Мы знаем, что с момента своего основания два года назад DeepSeek регулярно публикует все более совершенные большие языковые модели. С моей точки зрения, большой прорыв на самом деле произошел месяц назад, когда DeepSeek выпустила модель V3. Уже тогда была известна его повышенная эффективность в обучении, о которой сейчас много говорят. Необычным также было то, что авторы были очень открыты и подробно описывали, как работает каждое улучшение.

Интересно, я ожидал большей секретности от Китая. Является ли открытость обычным явлением в развитии искусственного интеллекта?

К сожалению, в последние годы это не так заметно, но еще несколько лет назад это было открытое поле деятельности. Исследования в области искусственного интеллекта стали более скрытными после коммерциализации крупных языковых моделей. В открытости Китая мы видим идеалистические мотивы и желание раздвинуть границы человеческих знаний. Однако нельзя не отметить, что ту же стратегию выбрала компания Meta со своими моделями Llama. Это потому, что они отстают в области искусственного интеллекта, как и DeepSeek.

Как вы себе представляете новую модель R1?

R1 — «думающая» модель. Это значит, что если вы позволите ему подумать над проблемой и высказать свои мысли, вы получите от него гораздо лучший ответ. Напротив, если вы заставите его ответить на вопрос сразу «без соуса», вы, как правило, получите значительно худший результат. Это все равно, что просить человека дать быстрый ответ, не подумав, — ошибок будет больше. Однако, в отличие от людей, языковая модель не обладает способностью думать о чем-либо иначе, чем «проговаривая вслух». R1 специально обучен, чтобы хорошо мыслить именно так.

А другие модели не могут этого сделать?

Частично может. Это одна из неточностей, которая сейчас всплывает в публичных дебатах. Было много разговоров о том, что у R1 есть «новая» способность восстанавливаться во время мышления. Но примеры такого поведения искусственного интеллекта мы наблюдаем уже несколько лет. Так что ничего принципиально нового.

Так что же вызвало такой сюрприз?

Мы должны понимать, что научиться думать — нелегкое дело. Вам необходимо неоднократно представлять искусственному интеллекту примеры, в которых ход мыслей, лежащий в основе проблемы, подробно описывается шаг за шагом. И тогда она научится. В интернете есть такие тексты, но их мало, поэтому базовые модели не так хороши в мышлении, а процесс такого обучения очень затратен. В профессиональной литературе мы читаем, что для превращения обычной модели в модель мышления требуется около 800 000 примеров качественного мышления. Что ж, команде DeepSeek R1 удалось создать и запустить систему, которая может создавать данные для мышления синтетически, что позволяет им обучать модель гораздо дешевле и эффективнее.

Что означает, что данные для мышления создаются синтетически?

Поясню это на примере, произошедшем несколько лет назад, когда искусственный интеллект AlphaGo победил лучших игроков-людей в азиатскую настольную игру го, что, кстати, стало настоящим шоком для Китая в то время. Эта система тренировалась, играя сама с собой в течение длительного времени, и в процессе совершенствовалась. Поэтому ему не приходилось полагаться на живых игроков и прошлые игры. Более того, это позволило ему открыть новые приемы и стратегии, которые ранее не применял ни один человек. Аналогичным образом DeepSeek R1 смог создать собственные «мыслительные» данные, на которых затем обучался.

Так уникален ли в этом отношении DeepSeek?

Тоже нет. Первой проблему осмысления данных решила американская компания OpenAI. Их модели o1 и o3, вероятно, способны на это и значительно умнее в сложных интеллектуальных вопросах, чем, например, базовая GPT-4. Однако, поскольку большинство людей не задают слишком сложных вопросов языковым моделям, общественность в основном игнорирует их.

В чем разница между OpenAI и DeepSeek?

Главное отличие заключается в том, что OpenAI осознала, насколько сложно генерировать данные для мышления и насколько легко их использовать для обучения другой модели. И именно поэтому он не показывает их своим пользователям. Напротив, DeepSeek R1 их не скрывает. Вполне возможно, что это начало революции, в которой каждая базовая модель вскоре будет способна мыслить. В то же время весьма вероятно, что DeepSeek сейчас делает ровно то же самое, создавая еще более сильную модель.Какова правда об успехе DeepSeek в резком снижении стоимости обучения искусственного интеллекта? Часто упоминаемая цена в пять миллионов долларов на самом деле не является чем-то головокружительным в сфере ИИ. И нет сомнений, что DeepSeek, находясь под гнетом санкций и ограниченных вычислительных ресурсов, придумал усовершенствования, повышающие эффективность обучения. Однако необходимо воспринимать это число в правильном контексте.

Если сравнить это, например, со стоимостью OpenAI как компании, которая составляет около 100 миллиардов долларов, то это в 20 000 раз больше. Но это неподходящее сравнение. Это все равно, что сравнивать цену самолета со стоимостью компании, которая его производит. Обучение одной модели обходится относительно дёшево, но общая стоимость DeepSeek, конечно, намного выше. Многие предсказывали кризис производителям микросхем. Из-за DeepSeek стоимость акций Nvidia на фондовом рынке упала на безумные 500 миллиардов долларов. Возникнут ли проблемы у гигантов по производству микросхем? На мой взгляд, реакция рынка на это весьма нерациональна. Я думаю, что DeepSeek R1 еще больше подчеркивает важность и значимость вычислительной мощности. Сам руководитель компании заявил, что их самым большим ограничением является вычислительная мощность и что они определенно могли бы достичь еще лучших результатов, если бы их не ограничивала нехватка чипов. Это, помимо прочего, свидетельствует о том, что западное эмбарго в целом работает.

Если бы я рассматривал это как гонку вооружений между Китаем и Америкой, каков баланс сил? Побеждает ли Запад?

На данный момент американские компании явно находятся в авангарде. Китай теперь продемонстрировал свой лучший продукт. Но мы на самом деле не знаем, насколько хороши и эффективны большие модели, которые такие компании, как OpenAI, Anthropic или Google DeepMind, хранят внутри компании и пока не опубликовали. С другой стороны, DeepSeek действительно показал, что может конкурировать с лучшими. Американское доминирование в развитии искусственного интеллекта в будущем определенно не гарантировано, и я бы не советовал почивать на лаврах.

Он изучал физику в Кембриджском университете, имеет докторскую степень по искусственному интеллекту в Стэнфорде, работал исследователем искусственного интеллекта в Anthropic, был директором по большим языковым моделям в Stability AI, также работал в Google в DeepMind и недавно основал компанию, которая занимается вопросами искусственного интеллекта и безопасности, а также является руководителем отдела разработок и исследований. Вместе со своей женой Кристиной Форт он регулярно публикует информационный бюллетень Progress in AI on Substack , в котором рассказывается о последних разработках в области искусственного интеллекта на чешском языке.

источник публикации: Новости Чехии

дата публикации 01.02.2025

Author: administrator

Добавить комментарий