25 июня 2026, 09:09

Google встроила агентскую функцию Computer Use в модель Gemini 3.5 Flash

Теперь быстрая большая языковая модель может кликать по элементам интерфейса, видеть экран пользователя и даже тестировать мобильные приложения

Новости / ИИ

Обложка: Google, Mateo Quiros

Вчера, 24 июня, компания Google в своём блоге официально сообщила об интеграции агентской функции Computer Use в большую языковую модель Gemini 3.5 Flash — ранее этот инструмент был доступен лишь в отдельной модели Gemini 2.5 computer use. Соответственно, если раньше быстрая LLM умела только размышлять над различными вопросами и генерировать текстовый контент, то теперь модель способна «видеть» то, что происходит у пользователя на экране, а также действовать в рамках браузерной, мобильной или десктопной среды, выполняя задачи вместо пользователя. И спектр этих задач довольно внушительный.

Подписывайтесь на наш Телеграм

Изображение: Google, Mateo Quiros

Благодаря агентскому инструменту Computer Use большая языковая модель может использовать встроенные инструменты, пользоваться поиском, картами, заниматься процессами непрерывного тестирования программного обеспечения, работать с большими объёмами информации, а также выполнять задачи автоматизации с длинными цепочками задач. Например, в рамках демонстрации модель Gemini 3.5 Flash, используя Computer Use, выполнила аудит своей же документации на наличие проблем с доступностью на мобильных устройствах. В процессе система управляла UI в браузере мобильного устройства, кликала по элементам интерфейса и собирала данные.

Видео: Google, Mateo Quiros

Затем система проанализировала полученные данные и составила документ, состоящий из четырёх пунктов, которые можно было бы улучшить для улучшения доступности на мобильных устройствах. А во второй демонстрации системе дали задачу проанализировать мобильное приложение Gemini, чтобы собрать перечень доступных функций и составить отчёт. ИИ-модель запустила приложение Gemini, после чего прокликала все доступные окна и меню, изучив возможности софта, а после этого составила отчёт в формате документа с описанием всех доступных функций и возможностей. И так как это Flash-модель, работает она очень быстро.

Видео: Google, Mateo Quiros

Естественно, как и с любыми ИИ-агентами, Google вынуждена прикладывать немало усилий для повышения безопасности, так как инъекции вредоносного кода никто не отменял. Чтобы новая система не навредила конфиденциальности пользователя, компания внедрила два инструмента — первый будет требовать подтверждения от пользователя для выполнения важных действий, а второй прекращает выполнение задачи, если обнаруживает инъекцию подсказки. Эта многоуровневая защита должна помочь пользователям.

Источник

···

Последнее изменение:
25 июня 2026, 09:09