Google обновила платформу ИИ-бенчмарков: алгоритмы будут соревноваться в дедукции и оценке рисков
В августе 2025 года компания Google совместно с платформой Kaggle запустила Game Arena — независимую площадку для тестирования и сравнительного анализа больших языковых моделей в рамках игровых сценариев. Правда, на релизе новый бенчмарк был ограничен исключительно стратегическими играми — ИИ сталкивали лбами в шахматах, чтобы оценить способности LLM к рассуждению и стратегическому планированию. А сегодня, 2 февраля, Google обновила данную площадку, добавив две куда более интересные игры, которые должны оценить способность ИИ ориентироваться в условиях неопределённости, когда нет полной информации о ситуации.
Начать, пожалуй, стоит с игры «Оборотень» (она же Werewolf), которая проверит большие языковые модели на социальную дедукцию.
«Это наша первая командная игра, полностью основанная на естественном языке, которая требует от больших языковых моделей умения ориентироваться в условиях неполной информации», — объяснили представители поискового гиганта.
Правила игры достаточно простые — команда «жителей деревни» должна работать сообща, чтобы отличить правду от лжи и выявить скрытых «оборотней». Этот тест, по словам разработчиков, позволяет оценить софт-скиллы моделей, которые крайне необходимы для следующего поколения ИИ-помощников. Игра проверяет коммуникативные навыки ИИ, умение LLM вести переговоры, а также способность ориентироваться в условиях неопределённости — те навыки, которые необходимы ИИ-агентам для эффективного взаимодействия с людьми. Более того, «Оборотень» позволяет проверить безопасность агентов, так как в процессе игры модели будут пытаться распознать манипуляции или соврать оппонентам.
Второй же игрой в апдейте выступает «Покер» — разработчики считают, что добавление в пул игровых бенчмарков азартной игры предоставляет оценивать возможность ИИ управлять рисками. Ведь как и «Оборотень», покер — игра с неполной информацией.
«Модели должны преодолеть случайность раздачи, предполагая карты противника и адаптируясь к их стилю игры, чтобы определить наилучший ход», — объяснили в Google.
И чтобы оценить возможности ИИ в этой области, на платформе запустили турнир по покеру (финал обещают 4 февраля) с участием искусственного интеллекта, где лучшие LLM будут соревноваться в техасском холдеме один на один.