Компания OpenAI объявила о запуске публичного тестирования передового искусственного интеллекта, который специально обучен вести глубокие многоступенчатые рассуждения. Разработчик ИИ-систем официально представил предварительную версию OpenAI o1 — новой серии эффективных языковых моделей с человекоподобной концепцией мышления. В отличие от классических LLM-проектов с интерфейсом чат-бота, работающего в режиме реальном времени, ИИ по технологии o1 тщательно думает перед тем, как ответить пользователю. Подход этой нейросети основан на буквальном создании длинной внутренней цепочки мыслей, поэтому на продуктивное решение запроса требуется немного больше времени, чем обычно.
Производительность o1 была протестирована в разнообразном наборе академических экзаменов, предназначенных для людей, и бенчмарков в области машинного обучения. Результаты показали, что o1 значительно превосходит GPT-4o и другие самые современные ИИ-решения конкурентов в подавляющем большинстве задач, требующих рассуждений, включая 54 из 57 подкатегорий понимания естественного языка в условиях массовой многозадачности (MMLU). Кроме того, чем чаще и больше o1 производит вычислений, тем качественнее и масштабнее прогрессирует в придумывании высокоточных стратегий, распознавании и исправлении своих ошибок. Модель учится разбивать сложные шаги на более простые и пробует разные способы, когда текущий не приводит к логическому итогу.
Ключевые особенности самого грандиозного алгоритма в истории OpenAI:
- набрал 213 баллов и занял 49-й процентиль на Международной олимпиаде по информатике 2024 (IOI) в тех же условиях, что и участники-люди;
- достиг оценки 362,14 (выше порога золотой медали) на основе 10 000 решений шести сложных алгоритмических задач по программе Международной олимпиады по информатике;
- занял 89-й процентиль по вопросам соревновательного программирования (Codeforces);
- вошёл в число 500 лучших студентов в рамках отборочного тура на математическую олимпиаду США (AIME);
- по точности информации превысил уровень доктора философии (высшая учёная степень) в таких науках, как физика, биология и химия (GPQA);
- люди предпочли ответы модели o1-preview в областях, где требуется более точная аргументация (анализ данных, программирование, математика).
OpenAI считает, что o1 кардинально улучшит повседневную работу учёных и исследователей огромного числа профилей: например, в здравоохранении такой ИИ будет крайне полезен для аннотирования данных секвенирования клеток, в физике для генерации сложных математических формул, необходимых для квантовой оптики, или в целом для создания и выполнения последовательных рабочих процессов независимо от рода деятельности. Особенный акцент на науках, кодинге и математике.
Прототип o1-preview запущен для всех пользователей платной подписки ChatGPT Plus и доступен в качестве API для доверенных партнёров. Дополнительно тестируется модель o1-mini, ориентированная на точную генерацию и отладку сложного кода. Также подтверждено, что в разработке уже находится следующее крупное обновление линейки (вероятно, o2).