Представлена открытая модель Qwen3.5: во многих бенчмарках она превосходит Gemini 3 Pro и GPT-5.2
Сегодня, 16 февраля, китайская компания Alibaba официально представила миру новую открытую большую языковую модель Qwen3.5, которая, по словам разработчиков, демонстрирует высокие результаты в широком спектре бенчмарков. Судя по информации из официального пресс-релиза, Qwen3.5-397B-A17B хорошо себя зарекомендовала в задачах, связанных с обработкой текстового контента, программированием, рассуждениями и мультимодальным пониманием. Кроме того, представители компании заявили, что новая LLM хорошо справляется с агентскими задачами — на данный момент это новый тренд на ИИ-рынке.
«Qwen3.5 обеспечивает надёжную основу для универсальных цифровых агентов. Следующий шаг предполагает переход от масштабирования модели к системой интеграции — созданию агентов с постоянной памятью для обучения между сессиями для взаимодействия с реальном мире», — говорится в пресс-релизе компании.
Примечательно, что Qwen3.5-397B-A17B построена на новой инновационной гибридной архитектуре — здесь используется система «экспертов», когда задача отдаётся на выполнение не всей LLM, а лишь определённой части, которая лучше всего подходит под конкретный сценарий. Это положительно сказывается на эффективности инференса — хотя большая языковая модель построена на базе 397 миллиардов параметров, за один «прогон» используется всего 17 миллиардов. Это позволяет оптимизировать как скорость работы модели, так и «стоимость» вывода без ущерба для возможностей LLM. Это не такой уж новый подход, но хорошо, что Alibaba продолжает его применять в новых версиях моделей.
И это, конечно, даёт свои плоды — в расширенной версии теста MMLU-Pro, который содержит 12 тысяч вопросов с 10 вариантами ответов на каждый, новая модель Qwen3.5-397B-A17B набирает 87,8 балла — это лишь на 0,4 балла меньше, чем у GPT-5.2, новейшей закрытой модели от OpenAI. Кроме того, есть бенчмарки, в которых новинка обходит своих прямых конкурентов — к примеру, в бенчмарке C-Eval свежая Qwen3.5 превзошла Claude 4.5 Opus и Gemini 3 Pro. Конечно, нельзя сказать, что разработчики Alibaba на голову превзошли конкурентов, но отставание в подавляющем большинстве тестов минимальное, плюс сценариев, где Qwen3.5 занимает первое место, тоже достаточно много.
Опробовать Qwen3.5 уже сейчас можно в рамках чат-бота Qwen — модель представлена в трёх режимах («автоматический», «режим размышления» и «быстрый»), предоставляя пользователю возможность подобрать оптимальные параметры для своей задачи.






