Представлена модель Claude Opus 4.6: обходит GPT-5.2 и Gemini 3 Pro в области программирования
Вчера, 5 февраля, компания Anthropic представила миру свою новую большую языковую модель под названием Claude Opus 4.6, которая в вопросах программирования, по словам разработчиков, превосходит как Claude Opus 4.5, модель предыдущего поколения, так и LLM от крупнейших игроков на рынке. По словам компании, новинка может похвастаться более продвинутыми возможностями в области проверки кода на ошибки, гораздо тщательнее планирует свои процессы, способна выполнять агентские задачи в течение более длительного времени, а также умеет точно работать с большими базами кода.
«Claude Opus 4.6 также может применять свои улучшенные навыки для решения целого ряда повседневных задач — выполнения финансового анализа, выполнения исследований, создания и использования документов, электронных таблиц и презентаций», — говорится в официальном пресс-релизе Anthropic.
Но, естественно, больше всего внимания привлекают именно возможности Claude Opus 4.6 в области написания кода — в компании заявили, что в тесте на агентское программирование Terminal-Bench 2.0 новая модель продемонстрировала наивысший на сегодняшний день балл, оставив позади крупнейших конкурентов. В данном бенчмарке свежая модель набрала 65,4 балла, тогда как новейшая модель GPT-5.2-codex демонстрирует 64,7 баллов. На третьем месте в рейтинге находится модель Opus 4.5, предшественник новинки, а Gemini 3 Pro, топовая LLM от Google, занимает лишь четвёртое место среди крупных моделей.
Кроме того, в тесте Humanity's Last Exam, сложнейшем испытании на логическое мышление, где проверяются навыки ИИ в различных областях, модель тоже обошла все передовые модели. К примеру, Claude Opus 4.6 обошла даже топовую GPT-5.2 Pro, не говоря уже о Gemini 3 Pro или обычной GPT-5.2.
И, что самое важное, модель набрала рекордное количество баллов в агентском поиске, что крайне важно на фоне нового тренда на внедрение ИИ-агентов буквально по все инструменты.
А в бенчмарке GDPval-AA модель Claude Opus 4.6 обошла Gemini 3 Pro, ведущую модель Google, на более чем 400 баллов.
При этом представители компании заявили, что версия LLM с индексом 4.6 впервые для моделей класса Opus предлагает контекстное окно размером в 1 миллион токенов (правда, пока что в формате беты). Это должно существенно расширить возможности пользователей и повысить выполнения поставленных задач.



