adblock check

Представлена ИИ-модель Gemini 2.5 Computer Use — управляет браузером и превосходит конкурентов

Новая модель основана на технологиях Gemini 2.5 Pro и предназначена для работы с агентами, способными взаимодействовать с пользовательскими интерфейсами
Обложка: Google

Компания Google представила новую специализированную языковую модель Gemini 2.5 Computer Use, основанную на технологиях визуального восприятия и логического анализа Gemini 2.5 Pro. Она позволяет агентам напрямую взаимодействовать с пользовательскими интерфейсами и демонстрирует лучшие результаты в тестах с веб- и мобильными приложениями при сниженной задержке. Разработчики уже могут получить доступ к модели через API Gemini в Google AI Studio и Vertex AI.

Несмотря на то, что ИИ уже умеет работать с программами через API, многие процессы требуют прямого взаимодействия с графическим интерфейсом, например, при заполнении форм или навигации по сайтам. Новая модель обучена действовать как человек: нажимать кнопки, вводить текст, прокручивать страницы, работать с выпадающими списками и авторизацией. В Google называют это следующим шагом в развитии универсальных ИИ-агентов, способных выполнять реальные задачи в цифровой среде.

Представлена ИИ-модель Gemini 2.5 Computer Use — управляет браузером и превосходит конкурентов

Основные функции Gemini 2.5 Computer Use реализованы через инструмент computer_use в API Gemini, который работает в циклическом режиме. На вход подаются запрос пользователя, снимок экрана среды и история последних действий. При необходимости можно указать, какие функции пользовательского интерфейса исключить или, наоборот, добавить. Принцип работы выглядит следующим образом: начальная задача создаёт контекст — снимок экрана передаётся в модель, которая анализирует данные и возвращает команду для выполнения действия. Это может быть, например, нажатие кнопки, ввод текста или прокрутка страницы. В некоторых случаях модель запрашивает подтверждение от пользователя — например, перед оформлением покупки. После выполнения действия обновлённый снимок экрана и текущий URL снова передаются модели, запускается новый цикл, и процесс повторяется до тех пор, пока задача не будет выполнена.

Gemini 2.5 Computer Use оптимизирована для работы с браузерами, но уже показывает хорошие результаты при управлении мобильными интерфейсами. При этом поддержка настольных операционных систем пока не реализована. Модель демонстрирует высокую производительность в нескольких контрольных тестах и превосходит конкурентов по нескольким показателям. Google внедрила функции безопасности непосредственно в модель, чтобы устранить основные риски, а также предоставляет разработчикам средства контроля безопасности, позволяющие предотвратить автоматическое выполнение моделью потенциально опасных или вредоносных действий.

Источник

Svidetel Svidetel
Автор
ИИ ИИ
12,8K участников
Вступить
Комментариев пока нет
Оставьте комментарий...
Оставьте комментарий...