29 апреля 2025, 09:06

Alibaba представила Qwen3: семейство гибридных моделей ИИ, умеющих думать

Примечательно, что в определённых тестах разработка китайской компании обходит лучшие решения OpenAI и Google

Сегодня, 29 апреля, китайская технологическая компания Alibaba официально представила миру Qwen3 — новейшее семейство моделей искусственного интеллекта, которое уже доступно на Hugging Face, GitHub и в официальном чат-боте. Представители компании заявили, что их модели являются гибридными — в случае обработки сложных вопросов ИИ может тратить дополнительное время на то, чтобы «подумать» над решением задачи, а на простые запросы пользователь будет получать ответы буквально мгновенно.

Подписывайтесь на Telegram-канал про технологии

«Такой подход предоставляет пользователям с большей гибкостью настраивать свои бюджеты под определённые задачи», — цитата из официального блога компании.

Кроме того, разработчики проекта решили предоставить пользователям ИИ весьма внушительный список моделей — от младших Qwen3-0.6B, Qwen3-1.7B и Qwen3-4B до относительно крупных Qwen3-14B, Qwen3-32B и даже Qwen3-235B-A22B. Это тоже важный момент, так как пользователь может подобрать оптимальное решение по размеру параметров для выполнения поставленной задачи, не применяя слишком большую языковую модель.

Также некоторые модели из семейства Qwen3 умеют применять архитектуру MoE (Mixture of Experts — «смесь экспертов») — в данном сценарии технология разбивает задачи на отдельные элементы, после чего делегирует их решение специализированным моделям-экспертам. В компании заявили, что это позволяет повысить вычислительную эффективность при выполнении пользовательских запросов. И, что немаловажно, представители Alibaba заявили, что модели семейства Qwen3 поддерживают 119 языков (включая русский), и были обучены на 36 триллионах токенов (1 миллион токенов примерно равен 750 000 слов).

В рамках обучения этих передовых моделей компания применяла комбинацию данных из учебников, пар «вопрос — ответ», фрагментов кода и различных данных, сгенерированных искусственным интеллектом. В результате топовая модель в семействе демонстрирует внушительные результаты в бенчмарках ИИ — в определённых сценариях Qwen3-235B-A22B обходит лучшие решения от Google и OpenAI. Например, в математическом тесте AIME высокой сложности старшая модель превосходит o3-mini, но отстаёт от Gemini 2.5 Pro. А в тесте MultiIF (8 языков) решение Alibaba обходит GPT-4o и DeepSeek-V3 с заметным отрывом. Это отличные новости — чем выше конкуренция на рынке ИИ, тем лучше конечному потребителю.

Источник

···

Последнее изменение:
29 апреля 2025, 09:12