adblock check

Anthropic представила Claude Opus 4.5: самую мощную модель для программирования

Разработчики LLM отмечают, что новинка способна решать задачи, которые ещё совсем недавно казались невозможными. Да и степень защиты модели тоже повысили

Вчера, 24 ноября, компания Anthropic официально представила новую большую языковую модель Claude Opus 4.5, которая, исходя из внутренних тестов разработчика, является лучшим в мире решением для программирования, работы с ИИ-агентами и выполнения задач, связанных с компьютером. Например, в бенчмарке SWE-bench, направленном на оценку возможностей искусственного интеллекта в сфере программной инженерии, новая модель набирает 80,9% точности — это значит, что в 8 из 10 случаев модель способна решить поставленную задачу. У конкурентов дела заметно хуже — Gemini 3 Pro набирает всего 76,2% точности, а GPT-5.1-Codex-Max выдаёт 77,9%.

Anthropic представила Claude Opus 4.5: самую мощную модель для программирования
Изображение: Anthropic

Кроме того, ещё на этапе тестирования перед официальным релизом внутри компании Anthropic модель Claude Opus 4.5 показала себя с лучшей стороны — специалисты отметили, что LLM справляется с неоднозначными задачами и рассуждает о возможных компромиссах без лишних усилий. Более того, если указать модели на сложную многосистемную ошибку, модель самостоятельно находит решение проблемы. Также тестировщики компании отметили, что задачи, которые ещё несколько недель назад были практически невыполнимыми для Sonnet 4.5, теперь вполне доступны. Да и во внутреннем тесте компании модель тоже показала впечатляющий результат.

Anthropic представила Claude Opus 4.5: самую мощную модель для программирования
Изображение: Anthropic
«Мы предлагаем потенциальным кандидатам на должность инженера по производительности крайне сложный экзамен, который они должны пройти [в качестве тестового задания]. Более того, мы тестируем свои новые модели на этом экзамене в качестве внутреннего эталона. И в течение установленного нами 2-часового лимита времени Claude Opus 4.5 набрала больше баллов, чем любой из кандидатов-людей», — рассказали в Anthropic.

Впрочем, программирование — не единственная область, в которой модель Claude Opus 4.5 преуспела. Разработчики заявили, что новинка стала лучше буквально по всем направлениям — были улучшены навыки визуализации, рассуждения, математические способности и многое другое. В некоторых сценариях (агентский запрос на заказ билетов) модель даже продемонстрировала творческий подход, который выходит за пределы стандартных метрик бенчмарков.

Изображение: Anthropic

И, что немаловажно, компания сделала особый акцент на повышении уровня безопасности новой модели.

Изображение: Anthropic

Разработчикам удалось повысить уровень согласованности и защиту от вредоносных промпт-инъекций, которые в последнее время набирают свою популярность в сети.

Источник

ИИ ИИ
13,6K участников
Вступить
Комментариев пока нет
Оставьте комментарий...
Оставьте комментарий...