Сегодня, 22 ноября, стало известно, что компания Stability AI обновила свою нейросеть Stable Diffusion, добавив возможность генерации коротких видеороликов на основе изображений. Разработчики Сбера пошли ещё дальше — они презентовали Kandinsky Video, ИИ-модель, способную создавать видео по текстовому описанию. Это первая в России генеративная модель для создания полноценных видеороликов по текстовому описанию.
Первый заместитель председателя правления Сбербанка Александр Ведяхин в рамках мероприятия AI Journey заявил, Kandinsky Video способна генерировать видео продолжительностью восемь секунд с частотой кадров до 30 fps.
Работа нейросети строится на двух блоках. Работа первой заключается в создании ключевых кадров, из которых затем складывается сюжет ролика. Второй блок генерирует так называемые интерполяционные кадры — они необходимы, чтобы достичь максимально возможной плавности конечного ролика. В итоге работы этих двух блоков получается видео, где могут двигаться не только объекты, но и фон. Возможность создавать ролики, где моделируется пролёт камеры относительно статичных объектов отличает отечественную разработку от множественных аналогов.
«Недавно мы обучили Kandinsky создавать анимационные видео по текстовому описанию, а уже сегодня представляем модель совершенно другого уровня — первую в России модель по генерации полноценных видеороликов по тексту. Это важный вклад в развитие российских генеративных нейросетей. У пользователей появится ещё больше возможностей для креатива и реализации своих творческих задумок любой направленности. Люди смогут создавать уникальные видеоролики абсолютно бесплатно. Наша модель, как и большинство других в линейке Сбера, будет доступна в open source. Мы верим, что искусственный интеллект сможет открыть перед людьми новые супервозможности и создать инструменты, которыми они будут пользоваться для решения своих задач», — рассказал Ведяхин.
Разработчик из Сбера сообщили, что их нейронная сеть способна создавать ролики с разрешением 512 × 512 пикселей. Для её обучения задействовали более 300 000 пар «текст – видео». На создание ролика у искусственного интеллекта уходит около трёх минут времени. Попробовать Kandinsky Video можно на платформе fusionbrain.ai и в Telegram-боте, где необходимо оставить заявку на доступ.