Вчера, 24 июня, компания Google в своём блоге официально сообщила об интеграции агентской функции Computer Use в большую языковую модель Gemini 3.5 Flash — ранее этот инструмент был доступен лишь в отдельной модели Gemini 2.5 computer use. Соответственно, если раньше быстрая LLM умела только размышлять над различными вопросами и генерировать текстовый контент, то теперь модель способна «видеть» то, что происходит у пользователя на экране, а также действовать в рамках браузерной, мобильной или десктопной среды, выполняя задачи вместо пользователя. И спектр этих задач довольно внушительный.
Благодаря агентскому инструменту Computer Use большая языковая модель может использовать встроенные инструменты, пользоваться поиском, картами, заниматься процессами непрерывного тестирования программного обеспечения, работать с большими объёмами информации, а также выполнять задачи автоматизации с длинными цепочками задач. Например, в рамках демонстрации модель Gemini 3.5 Flash, используя Computer Use, выполнила аудит своей же документации на наличие проблем с доступностью на мобильных устройствах. В процессе система управляла UI в браузере мобильного устройства, кликала по элементам интерфейса и собирала данные.
Затем система проанализировала полученные данные и составила документ, состоящий из четырёх пунктов, которые можно было бы улучшить для улучшения доступности на мобильных устройствах. А во второй демонстрации системе дали задачу проанализировать мобильное приложение Gemini, чтобы собрать перечень доступных функций и составить отчёт. ИИ-модель запустила приложение Gemini, после чего прокликала все доступные окна и меню, изучив возможности софта, а после этого составила отчёт в формате документа с описанием всех доступных функций и возможностей. И так как это Flash-модель, работает она очень быстро.
Естественно, как и с любыми ИИ-агентами, Google вынуждена прикладывать немало усилий для повышения безопасности, так как инъекции вредоносного кода никто не отменял. Чтобы новая система не навредила конфиденциальности пользователя, компания внедрила два инструмента — первый будет требовать подтверждения от пользователя для выполнения важных действий, а второй прекращает выполнение задачи, если обнаруживает инъекцию подсказки. Эта многоуровневая защита должна помочь пользователям.
