Представлена генеративная видеомодель Kling 3.0: с улучшенной согласованностью сцены
Вчера, 4 февраля, компания Kling AI официально представила миру Kling 3.0 — новую версию своей генеративной видеомодели, которая получила ряд существенных улучшений по сравнению с предшественником и конкурентами, а также позволяет создавать видео длиной 15 секунд.
Например, в отличие от версии 2.6, новая модель предоставляет пользователям возможность генерировать многокадровые ролики со сменой ракурса. Функция получила название Multi-Shot — она, по словам разработчиков, понимает сцену и кадр, описанный в текстовой инструкции, автоматически корректируя ракурсы камеры и общую композицию в зависимости от задачи. Поддерживаются как классические диалоги между двумя персонажами, так и более продвинутые техники монтажа.
Соответственно, если раньше пользователям приходилось генерировать несколько отдельных роликов, а затем нарезать их и монтировать, то сейчас достаточно дать текстовый промпт и, по желанию, исходное изображение, после чего система сама сгенерирует нужный видеоряд.
Вторым важным нововведением Kling 3.0 выступает улучшенная согласованность элементов генерации в кадре. По словам разработчиков, новая модель способна фиксировать характеристики персонажей, предметов и окружения сцены, сохраняя их в процессе генерации различных кадров.
«Независимо от движения камеры и развития сцены, ключевые объекты остаются стабильными и неизменными на протяжении всего процесса», — говорится в официальном пресс-релизе.
Это может показаться мелочью, но на самом деле отсутствие согласованности между отдельными кадрами — ключевая проблема современных видеомоделей. В двух разных сценах один и тот же персонаж может выглядеть совершенно иначе, как и элементы окружения, что сводит на нет практичность генерации контента. Более того, теперь благодаря глубокому мультимодальному пониманию модель способна обрабатывать многокадровые референсы или даже видео в роли референса, а не только изображения, что тоже положительно скажется на согласованности сгенерированного ролика.
Завершает же перечень нововведений обновлённая версия функции Native Audio — данный модуль обеспечивает точное воспроизведение речи персонажей в кадре. Теперь, по словам разработчиков, в сценах с участием нескольких персонажей можно будет точно определить, кто именно говорит, устраняя путаницу во время просмотра ролика.