Alibaba представила свою самую мощную на сегодня модель ИИ

Ее обучение обошлось в 380 раз дешевле, чем у Gemini.
Poetra.RH/Shutterstock/FOTODOM

Китайский технологический гигант Alibaba разработал модель искусственного интеллекта нового поколения — по утверждению компании, мощнее аналогов и, самое главное, не требующую гигантских расходов на обучение. South China Morning Post раскрыла подробности.

В пятницу Alibaba Cloud — подразделение Alibaba по ИИ и облачным вычислениям — представило новую модель, которая, как гласит громкий анонс, знаменует собой «будущее эффективных LLM». Новинка почти в 13 раз меньше самой крупной модели компании, выпущенной всего неделей ранее.

Несмотря на компактный размер, Qwen3-Next-80B-A3B считается одной из лучших моделей Alibaba на сегодняшний день. Секрет в эффективности: модель, как утверждают разработчики, в некоторых задачах работает в 10 раз быстрее, чем предшествующая Qwen3-32B (апрельский релиз), при этом снижая стоимость обучения на 90%.

Сооснователь британского стартапа Stability AI Эмад Мостаки написал в X, что новая модель превзошла «почти любую модель прошлого года», хотя ее обучение обошлось менее чем в 500 тыс. долларов США. Для сравнения: обучение Gemini Ultra от Google (февраль 2024 года) обошлось, по данным Индекса ИИ Стэнфордского университета, примерно в 191 миллион долларов.

По данным компании Artificial Analysis, занимающейся бенчмаркингом ИИ, Qwen3-Next-80B-A3B превзошла последние версии и DeepSeek R1, и Kimi-K2 от поддерживаемого Alibaba стартапа Moonshot AI.

Ряд исследователей связывают успех новой модели Alibaba с относительно новой техникой под названием «гибридное внимание». У существующих моделей эффективность падает при увеличении длины входных данных из-за того, как реализован механизм «внимания». Более точное внимание требует больше вычислительных ресурсов. Это особенно дорого при работе с длинными контекстами, что делает обучение сложных ИИ-агентов крайне затратным.

Qwen3-Next-80B-A3B решает эту задачу с помощью метода Gated DeltaNet, впервые предложенного исследователями из Массачусетского технологического института и Nvidia в марте. По словам Чжоу Пэйлиня из Гонконгского университета науки и технологий, Gated DeltaNet улучшает внимание за счет выборочных корректировок входных данных и определения, какую информацию сохранить, а какую отбросить.

«Здорово видеть, что наши DeltaNet... были сильно масштабированы Alibaba для создания отличных моделей ИИ», — признался профессор Юрген Шмидхубер из Научно-технологического университета имени короля Абдаллы, внесший вклад в развитие DeltaNet еще в 1990-е.

Модель также использует архитектуру Mixture-of-Experts (MoE), обеспечившую значительный рост эффективности китайских моделей, включая DeepSeek-V3 и Kimi-K2, за последний год. MoE делит модель на несколько подсетей («экспертов»), которые специализируются на разных типах данных и совместно выполняют задачи.

Alibaba повысила «разреженность» своей MoE-архитектуры: у DeepSeek-V3 256 экспертов, а у Kimi-K2 — 384, в Qwen3-Next-80B-A3B их 512, но одновременно активируются только 10. Эти инновации позволили модели достичь уровня DeepSeek-V3.1 с всего лишь 3 миллиардами активных параметров против 37 миллиардов у конкурента.

Обычно большее количество параметров означает большую мощность, но также повышает стоимость обучения и эксплуатации. Эффективность особенно заметна на облачной платформе Alibaba: новая модель обходится дешевле в работе, чем Qwen3-235B-2507 с 235 миллиардами параметров.

Фото: Alibaba Cloud
Для разработки своих новейших моделей ИИ Alibaba использует усовершенствованный механизм внимания Gated DeltaNet

Эта архитектура отражает тренд на создание более компактных и эффективных моделей на фоне озабоченности по поводу стремительного роста стоимости масштабирования крупнейших LLM. По данным исследовательской компании Epoch AI, самое дорогое на сегодня обучение Grok 4 от xAI обошлось в 490 миллионов долларов, а к 2027 году стоимость может превысить миллиард долларов.

Тем временем китайские гиганты стремятся к более широкому внедрению своих моделей, делая их достаточно компактными для запуска на ноутбуках и смартфонах. Qwen3-Next-80B-A3B получился настолько экономным к ресурсам, что его можно запустить на одном графическом процессоре Nvidia H200.

Новая архитектура — это предвестник следующего поколения моделей ИИ, уверены в Alibaba.

Скорее всего, развитие больших языковых моделей действительно пойдет по пути совершенствования метода Alibaba для сокращения издержек и роста эффективности, даже если появятся принципиально новые архитектуры, подтвердил исследователь ИИ Тобиас Шредер из Имперского колледжа Лондона.

Подписывайтесь и читайте «Науку» в Telegram