adblock check

Google обновила платформу ИИ-бенчмарков: алгоритмы будут соревноваться в дедукции и оценке рисков

Теперь большие языковые модели будут состязаться в играх, где нужно оценивать ситуацию в условиях неопределённости. Это очень важно для развития ИИ-агентов
Обложка: Oran Kelly, Google

В августе 2025 года компания Google совместно с платформой Kaggle запустила Game Arena — независимую площадку для тестирования и сравнительного анализа больших языковых моделей в рамках игровых сценариев. Правда, на релизе новый бенчмарк был ограничен исключительно стратегическими играми — ИИ сталкивали лбами в шахматах, чтобы оценить способности LLM к рассуждению и стратегическому планированию. А сегодня, 2 февраля, Google обновила данную площадку, добавив две куда более интересные игры, которые должны оценить способность ИИ ориентироваться в условиях неопределённости, когда нет полной информации о ситуации.

Начать, пожалуй, стоит с игры «Оборотень» (она же Werewolf), которая проверит большие языковые модели на социальную дедукцию.

«Это наша первая командная игра, полностью основанная на естественном языке, которая требует от больших языковых моделей умения ориентироваться в условиях неполной информации», — объяснили представители поискового гиганта.
Видео: Oran Kelly, Google

Правила игры достаточно простые — команда «жителей деревни» должна работать сообща, чтобы отличить правду от лжи и выявить скрытых «оборотней». Этот тест, по словам разработчиков, позволяет оценить софт-скиллы моделей, которые крайне необходимы для следующего поколения ИИ-помощников. Игра проверяет коммуникативные навыки ИИ, умение LLM вести переговоры, а также способность ориентироваться в условиях неопределённости — те навыки, которые необходимы ИИ-агентам для эффективного взаимодействия с людьми. Более того, «Оборотень» позволяет проверить безопасность агентов, так как в процессе игры модели будут пытаться распознать манипуляции или соврать оппонентам.

Второй же игрой в апдейте выступает «Покер» — разработчики считают, что добавление в пул игровых бенчмарков азартной игры предоставляет оценивать возможность ИИ управлять рисками. Ведь как и «Оборотень», покер — игра с неполной информацией.

Видео: Oran Kelly, Google
«Модели должны преодолеть случайность раздачи, предполагая карты противника и адаптируясь к их стилю игры, чтобы определить наилучший ход», — объяснили в Google.

И чтобы оценить возможности ИИ в этой области, на платформе запустили турнир по покеру (финал обещают 4 февраля) с участием искусственного интеллекта, где лучшие LLM будут соревноваться в техасском холдеме один на один.

Источник

ИИ ИИ
14,8K участников
Вступить
Комментариев пока нет
Оставьте комментарий...
Оставьте комментарий...