Google представила модель Gemini 2.5 Flash Image: редактирует изображения без искажений
Вчера, 26 августа, компания Google выпустила обновлённую генеративную модель под названием Gemini 2.5 Flash Image, которая, по словам представителей поискового гиганта, предоставляет пользователям больше контроля в процессе редактирования изображений и фотографий. В компании отмечают, что новая модель способна видоизменять графический контент с сохранением лиц людей, животных и прочих деталей в кадре на основе тестовых команд пользователя. Хотя звучит достаточно просто, на самом деле это очень большой шаг вперёд, так как конкурирующие модели до сих пор сталкиваются с трудностями в сценариях с редактированием фотографий.
Например, если попросить ChatGPT, Perplexity или Grok перекрасить автомобиль на фотографии в синий цвет, то ни один из чат-ботов не справится с поставленной задачей, так как все вышеперечисленные сервисы вместо замены цвета начинают генерировать автомобиль с нуля. Из-за этого возникают очевидные проблемы — у Perplexity «перекрашенный» автомобиль вовсе не похож на оригинальную «Ниву», ChatGPT сделал авто каким-то «мультяшным», а Grok сильно исказил номерные знаки и некоторые линии геометрии кузова. У Gemini 2.5 Flash Image результат действительно более точный и качественный, хотя с номерным знаком тоже возникли небольшие проблемы.
Более того, новая модель способна работать с куда более сложными сценариями и промптами. Например, пользователь может использовать в качестве входного материала (input) две фотографии с портретами людей, а затем посредством ИИ склеить их в единое изображение, да ещё и задать сцену, чтобы люди с фотографий как-то друг с другом взаимодействовали. Либо можно взять одну фотографию человека, а затем попросить модель сгенерировать несколько сцен, в которых этот человек играет различные роли — учителя, медика, пекаря, скульптора и так далее. И, что немаловажно, пользователь может взаимодействовать с кадром многократно — получив результат, его можно улучшить или перенастроить.
Есть и поддержка «ремиксов» — модель позволяет в качестве инпута взять два изображения (например, фото семейной пары в кафе и шариков), а затем совместить их, чтобы это выглядело естественно. Безусловно, точность от сцены к сцене будет отличаться, но на демонстрации в официальном пресс-релизе выглядит крайне привлекательно. И, что самое главное, данная модель уже доступна всем желающим — посредством чат-бота Gemini в веб-версии, в Google AI Studio или по Gemini API.
