Первая в России: нейросеть Kandinsky от Сбера научилась создавать видео по текстовому описанию
Сегодня, 22 ноября, стало известно, что компания Stability AI обновила свою нейросеть Stable Diffusion, добавив возможность генерации коротких видеороликов на основе изображений. Разработчики Сбера пошли ещё дальше — они презентовали Kandinsky Video, ИИ-модель, способную создавать видео по текстовому описанию. Это первая в России генеративная модель для создания полноценных видеороликов по текстовому описанию.
Первый заместитель председателя правления Сбербанка Александр Ведяхин в рамках мероприятия AI Journey заявил, Kandinsky Video способна генерировать видео продолжительностью восемь секунд с частотой кадров до 30 fps.
Работа нейросети строится на двух блоках. Работа первой заключается в создании ключевых кадров, из которых затем складывается сюжет ролика. Второй блок генерирует так называемые интерполяционные кадры — они необходимы, чтобы достичь максимально возможной плавности конечного ролика. В итоге работы этих двух блоков получается видео, где могут двигаться не только объекты, но и фон. Возможность создавать ролики, где моделируется пролёт камеры относительно статичных объектов отличает отечественную разработку от множественных аналогов.
«Недавно мы обучили Kandinsky создавать анимационные видео по текстовому описанию, а уже сегодня представляем модель совершенно другого уровня — первую в России модель по генерации полноценных видеороликов по тексту. Это важный вклад в развитие российских генеративных нейросетей. У пользователей появится ещё больше возможностей для креатива и реализации своих творческих задумок любой направленности. Люди смогут создавать уникальные видеоролики абсолютно бесплатно. Наша модель, как и большинство других в линейке Сбера, будет доступна в open source. Мы верим, что искусственный интеллект сможет открыть перед людьми новые супервозможности и создать инструменты, которыми они будут пользоваться для решения своих задач», — рассказал Ведяхин.
Разработчик из Сбера сообщили, что их нейронная сеть способна создавать ролики с разрешением 512 × 512 пикселей. Для её обучения задействовали более 300 000 пар «текст – видео». На создание ролика у искусственного интеллекта уходит около трёх минут времени. Попробовать Kandinsky Video можно на платформе fusionbrain.ai и в Telegram-боте, где необходимо оставить заявку на доступ.

