Вчера, 19 мая, компания Google официально представила новое семейство генеративных видеомоделей Gemini Omni, которые предназначены для создания видеороликов. Здесь стоит напомнить, что у Google уже есть видеомодель Veo, которая отвечает за ту же задачу, но отличие в том, что Gemini Omni умеет генерировать контент из любых исходных данных — текста, изображений, видео и аудио, тогда как Veo заточена в большей степени под текстовые промпты.
«С помощью Omni вы можете комбинировать изображения, аудио, видео и текст в качестве входных данных и создавать высококачественные видеоролики, основываясь на знаниях Gemini о реальном мире», — говорится в блоге компании.
Впрочем, это ещё не всё — дополнительное преимущество Gemini Omni заключается в гибкой системе редактирования видео. Пользователь может использовать естественный язык для написания инструкций по видеомонтажу, при этом каждая последующая инструкция основывается на том, что юзер прописывал до этого, сохраняя контекст и согласованность (персонажей, физику, сцену). При этом пользователь может редактировать как всё видео целиком, так и его отдельные элементы. Например, можно попросить ИИ отредактировать снятое человеком видео, чтобы получить интересную сцену, напоминающую кадры из научно-фантастического фильма.
Важная фишка Gemini Omni в том, что эта видеомодель лучше понимает физику реального мира. В компании Google заявили, что ИИ понимает гравитацию, кинетическую энергию и гидродинамику, что позволяет модели создавать более реалистичные сцены. Примечательно, что Veo тоже неплохо понимает физику реального мира, но это не мешает видеомодели частенько ошибаться в довольно простых задачах. Возможно, в случае с Gemini Omni ситуация выглядит более привлекательно, но возникает вопрос о том, зачем Google сразу две видеомодели с практически идентичным набором задач.