28 января 2026, 15:51

Зумит, кропает и кодит: Gemini 3 Flash теперь не смотрит картинки, а анализирует

Функция Agentic Vision использует выполнение кода наряду с визуальным анализом изображения, что улучшает точность и скорость формирования ответа

Новости / ИИ

Зумит, кропает и кодит: Gemini 3 Flash теперь не смотрит картинки, а анализирует

Компания Google добавила в Gemini 3 Flash новую функцию под названием Agentic Vision, позволяющую повысить точность задач, связанных с обработкой изображений. Она объединяет визуальное мышление с выполнением кода для обоснования ответов в соответствии с визуальными данными. Передовые модели искусственного интеллекта обычно обрабатывают информацию об окружающем мире за один статичный взгляд. Если они упускают из виду какую-либо деталь — например, серийный номер микрочипа или дорожный знак на расстоянии — им приходится додумывать. Новый подход к анализу изображений использует зрение как активное исследование.

Подписывайтесь на Telegram-канал про технологии

Для ответа на запросы с использованием визуального контента Gemini 3 Flash будет разрабатывать «планы пошагового увеличения, изучения и обработки изображений». В частности, Agentic Vision использует цикл «Думай. Действуй. Наблюдай». Другими словами, ИИ формирует сначала многоэтапный план, затем генерирует и выполняет код на языке Python для активных действий с изображением и на финальном этапе добавляет преобразованное изображение в контекстное окно для окончательного анализа в более понятном контексте, прежде чем генерировать ответ.

Вместо простого описания полученного изображения, Gemini 3 Flash может выполнять код для рисования непосредственно на холсте, чтобы обосновать свои рассуждения. Один из примеров — просьба посчитать количество пальцев на изображении ладони в приложении Gemini. Чтобы избежать ошибок, ИИ использует Python для рисования ограничивающих рамок и числовых меток над каждым идентифицированным пальцем.

Agentic Vision позволяет Gemini 3 Flash увеличивать изображение при обнаружении мелких деталей, а также анализировать таблицы с высокой плотностью данных. Таким образом модель обходит проблему галлюцинаций во время многошаговых визуальных вычислений, перенося вычисления в среду Python. В компании отметили, что Agentic Vision обеспечивает стабильное повышение качества на 5-10% по большинству критериев в рамках данной ИИ-модели. Функция уже доступна для разработчиков через API Gemini в Google AI Studio и Vertex AI.

В будущем возможности Agentic Vision будут расширены, появятся новые инструменты для более глубокого анализа изображений. А саму функцию добавят в другие модели Gemini.

Источник

···

Последнее изменение:
28 января 2026, 17:23