Вчера, 9 июля, информационное издание TechCrunch сообщило, что компания xAI, принадлежащая миллиардеру Илону Маску, официально представила миру свою новейшую флагманскую модель искусственного интеллекта под названием Grok 4, а также её продвинутую версию Grok 4 Heavy.
«Если говорить об академических вопросах, то Grok 4 превосходит уровень доктора наук по всем предметам — без исключений. Да, иногда ему не хватает здравого смысла, плюс он ещё не изобрёл новые технологии и не открыл новые законы физики, но это лишь вопрос времени», — заявил Илон Маск во время проведения прямой трансляции.
Также Илон Маск рассказал, что в случае с Heavy-версией система запускает сразу несколько агентов для одновременного выполнения поставленной задачи, а затем эти агенты сравнивают результаты проделанной работы, дабы определить наилучший ответ. Благодаря этому, по информации xAI, модель Grok 4 способна демонстрировать очень высокий уровень производительности в популярных бенчмарках искусственного интеллекта.
Например, в довольно сложном тесте GPQA (Graduate-Level Google-Proof Q&A — серия вопросов с множеством вариантов ответов) новая модель Grok 4 Heavy набирает 88,9% правильных ответов (Grok 4 — 87,5% в режиме работы No tool, то есть без вспомогательных инструментов), тогда как Gemini 2.5 Pro демонстрирует 86,4%, а o3 — 83,3%. Здесь стоит отметить, что специалисты с докторской степенью по вопросам из своей области с доступом к интернету набирают в среднем 81%, так что слова Илона Маска о том, что новая модель «умнее» докторов наук, можно считать правдивыми.
Более того, Grok 4 Heavy стала первой моделью, которой удалось набрать 100% правильных ответов в математическом тесте AIME 25 — до этого рекордсменом выступала модель o3 с 98,4% (примечательно, что базовая Grok 4 набрала 98,8%, заняв второе место в рейтинге). Также новинка заняла лидирующую позицию в математических бенчмарках HMMT25 и USAMO25, но на одной лишь математике компания Илона Маска не остановилась. В бенчмарке LiveCodeBench ИИ тоже набрал крайне высокий процент правильных ответов, заметно обойдя конкурентов.
И, что самое интересное, модель Grok 4 в режиме No tool показала наивысший результат в сложнейшем тесте Humanity’s Last Exam («Последний экзамен человечества»), в рамках которого ИИ нужно ответить на тысячи различных вопросов по математике, естественным и гуманитарным наукам. Новинка xAI набрала 25,4% правильных ответов против 21,6% у Gemini 2.5 Pro и 21% у OpenAI o3. А модель Grok 4 Heavy без ограничений смогла набрать 44,4% правильных ответов — Gemini 2.5 Pro с дополнительными инструментами показывает лишь 26,9%.
Правда, за доступ к мощной новой модели пользователям придётся немало заплатить — подписка SuperGrok Heavy, открывающая доступ к Grok 4 Heavy, обойдётся пользователю в 300 долларов в месяц.