adblock check

Anthropic представила Claude Sonnet 4.5: лучшую ИИ-модель для программирования

Новинка, по данным компании, способна выполнять сложные задачи в течение целых 30 часов без потери концентрации. Это существенный прогресс по меркам индустрии
Обложка: Claude, Anthropic

Вчера, 29 сентября, Anthropic официально представила Claude Sonnet 4.5 — лучшую, по мнению компании, большую языковую модель для программирования. Например, в бенчмарке OSWorld, который оценивает модели искусственного интеллекта в реальных компьютерных задачах, свежая LLM продемонстрировала 61,4% точности, став абсолютным лидером и показав значительный рост по сравнению с предшественником (всего четыре месяца назад модель Sonnet 4 занимала лидирующую позицию с результатом в 42,2% точности). Более того, новинка оказалась довольно продвинутой в плане решения математических задач и вопросов, требующих рассуждений.

Anthropic представила Claude Sonnet 4.5: лучшую ИИ-модель для программирования
Изображение: Anthropic

Примечательно, что в других направлениях модель тоже показывает впечатляющие показатели — в области финансовых вопросов Sonnet 4.5 (в режиме размышлений) набрала 72% точных ответов против 60% у Sonnet 4.1. Примерно такой же отрыв можно увидеть в тестах по законодательной базе, медицине и STEM (Science, Technology, Engineering, Mathematics — сборный набор тестов по науке, инженерии, технологиям и математике). Впрочем, точность в области программирования и иных бенчмарках — не единственное преимущество новой модели. Разработчики проекта заявили, что новинка ещё и чрезмерно «выносливая».

Anthropic представила Claude Sonnet 4.5: лучшую ИИ-модель для программирования
Изображение: Anthropic

По словам представителей Anthropic, модель Sonnet 4.5 способна удерживать концентрацию на протяжении более чем 30 часов в процессе выполнения сложных многоэтапных задач. Если говорить простым языком, пользователь может дать команду ИИ, после чего модель будет программировать в течение 30 часов и не «собъётся» с поставленного пути. Ранее, по информации экспертов, передовые модели компании могли удерживать концентрацию всего 7 часов. Более того, вместе с релизом новой модели компания добавила в приложения Claude возможность создания файлов (электронных таблиц, слайдов и документов) буквально в диалоговом окне.

Изображения: Anthropic

Также в Claude Code появилась одна из самых востребованных среди пользователей функций — контрольные точки. Это значит, что система будет сохранять прогресс пользователя на определённых этапах его работы, чтобы затем предоставить человеку возможность при желании мгновенно «откатиться» до предыдущего «сохранения» в случае, если код работает не так, как нужно. Ещё Anthropic выпустила собственные расширения для редактора кода VS Code и браузера Chrome — они предоставляют доступ к новой модели, но, естественно, только по подписке.

Хорошая новость в том, что цена Sonnet 4.5 не выросла по сравнению с Sonnet 4 — 3 доллара за 1 миллион input-токенов и 15 долларов за 1 миллион output-токенов.

Источник

ИИ ИИ
12,7K участников
Вступить
3 комментария по лайкам по дате
Оставьте комментарий...
Оставьте комментарий...
Limows
ИИ для программирования это оксюморон.
columbus
смотря в какой области и для чего
товарищ работает программистом и использует курсор каждый день — сейвит море времени на рутинных вещах
Limows
До первого сбоя на продакшене