Представлена ИИ-модель Gemini 2.5 Computer Use — управляет браузером и превосходит конкурентов
Компания Google представила новую специализированную языковую модель Gemini 2.5 Computer Use, основанную на технологиях визуального восприятия и логического анализа Gemini 2.5 Pro. Она позволяет агентам напрямую взаимодействовать с пользовательскими интерфейсами и демонстрирует лучшие результаты в тестах с веб- и мобильными приложениями при сниженной задержке. Разработчики уже могут получить доступ к модели через API Gemini в Google AI Studio и Vertex AI.
Несмотря на то, что ИИ уже умеет работать с программами через API, многие процессы требуют прямого взаимодействия с графическим интерфейсом, например, при заполнении форм или навигации по сайтам. Новая модель обучена действовать как человек: нажимать кнопки, вводить текст, прокручивать страницы, работать с выпадающими списками и авторизацией. В Google называют это следующим шагом в развитии универсальных ИИ-агентов, способных выполнять реальные задачи в цифровой среде.
Основные функции Gemini 2.5 Computer Use реализованы через инструмент computer_use в API Gemini, который работает в циклическом режиме. На вход подаются запрос пользователя, снимок экрана среды и история последних действий. При необходимости можно указать, какие функции пользовательского интерфейса исключить или, наоборот, добавить. Принцип работы выглядит следующим образом: начальная задача создаёт контекст — снимок экрана передаётся в модель, которая анализирует данные и возвращает команду для выполнения действия. Это может быть, например, нажатие кнопки, ввод текста или прокрутка страницы. В некоторых случаях модель запрашивает подтверждение от пользователя — например, перед оформлением покупки. После выполнения действия обновлённый снимок экрана и текущий URL снова передаются модели, запускается новый цикл, и процесс повторяется до тех пор, пока задача не будет выполнена.
Gemini 2.5 Computer Use оптимизирована для работы с браузерами, но уже показывает хорошие результаты при управлении мобильными интерфейсами. При этом поддержка настольных операционных систем пока не реализована. Модель демонстрирует высокую производительность в нескольких контрольных тестах и превосходит конкурентов по нескольким показателям. Google внедрила функции безопасности непосредственно в модель, чтобы устранить основные риски, а также предоставляет разработчикам средства контроля безопасности, позволяющие предотвратить автоматическое выполнение моделью потенциально опасных или вредоносных действий.
