adblock check

Представлена открытая модель Kimi K2.6: в некоторых бенчмарках обходит даже GPT-5.4

Вероятно, такими темпами разработчики опенсорс-решений смогут в обозримом будущем превзойти лучшие закрытые модели текущих лидеров рынка ИИ-технологий
Обложка: Moonshot AI, Kimi

Вчера, 20 апреля, компания Moonshot AI выпустила новую версию своей открытой большой языковой модели Kimi K2.6, которая, по словам разработчиков, гораздо лучше справляется с действительно сложными задачами. Например, LLM демонстрирует значительный апгрейд в области программирования с длительным горизонтом планирования — это значит, что модель способна дольше удерживать текущий контекст задачи и прорабатывать сложный запрос в течение длительного времени без ошибок. Это особенно важно в сценариях с рефакторингом больших объёмов кода и оптимизацией различного рода проектов.

Для примера компания привела весьма интересную задачу — Kimi K2.6 успешно загрузила и запустила опенсорсную модель Qwen3.5-0.8B локально на компьютере Mac. Более того, искусственный интеллект занялся оптимизацией процесса вывода (инференса) модели, задействовав язык программирования Zig (это крайне узкоспециализированный язык). В итоге система потратила на непрерывное выполнение поставленной задачи 12 часов, 4000 вызовов инструментов и 14 итераций, добившись впечатляющего результата — пропускная способность модели возросла с около 15 токенов/сек до 193 токенов/сек.

Представлена открытая модель Kimi K2.6: в некоторых бенчмарках обходит даже GPT-5.4
Изображение: Moonshot AI, Kimi

Это позволило новой модели демонстрировать весьма высокую точность в популярных бенчмарках, обходя местами даже топовые закрытые модели от крупнейших игроков рынка. Например, в Terminal-Bench 2.0 модель набрала 66,7 балла — это больше, чем у GPT-5.4 и Claude Opus 4.6. А в тесте SWE-Bench Pro новинка вовсе оставила основных конкурентов позади, хотя этот бенчмарк считается весьма требовательным.

Представлена открытая модель Kimi K2.6: в некоторых бенчмарках обходит даже GPT-5.4
Изображение: Moonshot AI, Kimi

А в бенчмарке Kimi Code Bench, собственном тесте компании Moonshot AI, который используется для оценки производительности новых моделей, Kimi K2.6 набрала 68,2 балла против 57,4 балла у Kimi K2.5.

Представлена открытая модель Kimi K2.6: в некоторых бенчмарках обходит даже GPT-5.4
Изображение: Moonshot AI, Kimi

Также стоит отметить, что в новой версии модели разработчики существенно прокачали механизмы управления набором агентов — Kimi K2.6 Agent Swarm обеспечивает бесшовную координацию разнообразных ИИ-агентов, объединяя их навыки для глубокого поиска, анализа информации, исследований, написания текста и генерации иных видов контента.

Изображения: Moonshot AI, Kimi

В компании заявили, что новая архитектура масштабируется до 300 субагентов, которые способны выполнять одновременно до 4000 скоординированных шагов. В Kimi 2.5 архитектура поддерживала лишь 100 субагентов и до 1500 шагов, так что прогресс действительно впечатляющий.

Источник

ИИ ИИ
16,2K участников
Вступить
Комментариев пока нет
Оставьте комментарий...
Оставьте комментарий...