23 декабря 2025, 18:07

Gemini 3 Pro смогла пройти Pokemon Crystal и даже победила финального босса

Текущая версия большой языковой модели отлично справилась с поставленной задачей, разобравшись в правилах виртуального мира и боевой системы

Новости / ИИ

Обложка: ИИ Trashbox.ru

Несколько дней назад, 12 декабря, энтузиаст Джоэл Чжан (Joel Zhang) опубликовал в личном блоге результаты весьма интересного исследования, в рамках которого он сравнил возможности Gemini 3 Pro и Gemini 2.5 Pro в ходе прохождения видеоигры Pokemon Crystal. Данные большие языковые модели работали в формате автономных агентов, пытаясь осилить виртуальный мир проекта со всеми его механиками и особенностями, но лишь новая версия LLM смогла одолеть столь непростую задачу. Исследователь отметил, что между Gemini 3 Pro и Gemini 2.5 Pro буквально пропасть в плане понимания мира и игровых процессов, что сказывается в том числе на расходе «ресурсов».

Telegram-канал создателя Трешбокса про технологии

Начать стоит с того, что Gemini 3 Pro смогла полностью пройти игру, при этом собрав все 16 бейджей, а также, что немаловажно, победить в финальной битве с боссом по имени Red. Примечательно, что за всё время прохождения большая языковая модель не проиграла ни одного боя — результат действительно впечатляющий, далеко не каждый игрок-человек сможет продемонстрировать нечто подобное. А вот Gemini 2.5 Pro потерпела неудачу — модель постоянно «застревает» на карте из-за проблем с навигацией, не справляется со сложными задачами и, к сожалению, частенько попадает в бесконечные циклы действий, что затягивает процесс прохождения уровней.

Изображение: Joel Zhang

Собственно, это подводит к вопросу эффективности моделей — Gemini 3 Pro за 24 178 ходов (на это ушло 424,4 часа) смогла полностью пройти все уровни игры, включая финальное сражение. При этом модель Gemini 2.5 Pro за 42 108 ходов (445,1 часа) смогла добраться лишь до седьмого уровня (Mineral) в игре — Gemini 3 Pro на ту же задачу понадобилось всего 6477 ходов и 98,2 часа. То есть эффективность текущего поколения LLM в 6,5 раз выше по сравнению с моделью прошлого поколения. Это связано в том числе с лучшим пониманием правил виртуального мира и более логичной навигацией в условиях «тумана войны».

Автор исследования отмечает, что Gemini 3 Pro тоже ошибалась в рамках прохождения, но никаких критических проблем у модели не возникло. Всё же не просто так LLM играла более 400 часов без единого поражения. И, конечно, энтузиаст отметил колоссальный прогресс от поколения к поколению — специалисты из Google действительно прокачали Gemini 3 Pro, которая уже отлично понимает условия виртуального мира, проходит сложные квесты, головоломки и босс-файты. Видимо, совсем скоро ИИ действительно сможет проходить игры вместо пользователей.

Источник

···

Последнее изменение:
24 декабря 2025, 19:44

columbus Автор Фанат Хогвартса Ryzen 5 1600 AF / RTX 3060 Ti

ИИ

17K участников

Вступить

9 комментариев по лайкам по дате

Оставьте комментарий...

Limows 5 месяцев

Консольщик

Зачем Гемини сломала геймбой.

Ответить

dardmund 5 месяцев

Киньте ссылку на прохождение!

Ответить

columbus 5 месяцев

Фанат Хогвартса

Автор

все данные указаны в источнике (ссылка в конце новости)

Ответить

GIK007 5 месяцев

🇷🇺

Пугают перспективы.
Возникают мысли о боевом искусственном интеллекте который будет умней людей, или просто быстрей соображать и не жалеть людей.
А ссыкотно потому что все модели ИИ изначально не Российские.
Не у нас был и есть Периметр(он же мёртвая рука)
Но это совершенно другое.

Ответить

Limows 5 месяцев

Консольщик

Хочется напомнить, что ИИ не умеет думать, только быстро обрабатывать информацию. Не давайте ему «мыслей» убивать людей, он и не будет.

Ответить

4 ответа