Anthropic представила Claude Sonnet 4.5: лучшую ИИ-модель для программирования
Вчера, 29 сентября, Anthropic официально представила Claude Sonnet 4.5 — лучшую, по мнению компании, большую языковую модель для программирования. Например, в бенчмарке OSWorld, который оценивает модели искусственного интеллекта в реальных компьютерных задачах, свежая LLM продемонстрировала 61,4% точности, став абсолютным лидером и показав значительный рост по сравнению с предшественником (всего четыре месяца назад модель Sonnet 4 занимала лидирующую позицию с результатом в 42,2% точности). Более того, новинка оказалась довольно продвинутой в плане решения математических задач и вопросов, требующих рассуждений.
Примечательно, что в других направлениях модель тоже показывает впечатляющие показатели — в области финансовых вопросов Sonnet 4.5 (в режиме размышлений) набрала 72% точных ответов против 60% у Sonnet 4.1. Примерно такой же отрыв можно увидеть в тестах по законодательной базе, медицине и STEM (Science, Technology, Engineering, Mathematics — сборный набор тестов по науке, инженерии, технологиям и математике). Впрочем, точность в области программирования и иных бенчмарках — не единственное преимущество новой модели. Разработчики проекта заявили, что новинка ещё и чрезмерно «выносливая».
По словам представителей Anthropic, модель Sonnet 4.5 способна удерживать концентрацию на протяжении более чем 30 часов в процессе выполнения сложных многоэтапных задач. Если говорить простым языком, пользователь может дать команду ИИ, после чего модель будет программировать в течение 30 часов и не «собъётся» с поставленного пути. Ранее, по информации экспертов, передовые модели компании могли удерживать концентрацию всего 7 часов. Более того, вместе с релизом новой модели компания добавила в приложения Claude возможность создания файлов (электронных таблиц, слайдов и документов) буквально в диалоговом окне.
Также в Claude Code появилась одна из самых востребованных среди пользователей функций — контрольные точки. Это значит, что система будет сохранять прогресс пользователя на определённых этапах его работы, чтобы затем предоставить человеку возможность при желании мгновенно «откатиться» до предыдущего «сохранения» в случае, если код работает не так, как нужно. Ещё Anthropic выпустила собственные расширения для редактора кода VS Code и браузера Chrome — они предоставляют доступ к новой модели, но, естественно, только по подписке.
Хорошая новость в том, что цена Sonnet 4.5 не выросла по сравнению с Sonnet 4 — 3 доллара за 1 миллион input-токенов и 15 долларов за 1 миллион output-токенов.
