adblock check

Представлена генеративная видеомодель Kling 3.0: с улучшенной согласованностью сцены

Теперь пользователи могут генерировать ролики на 15 секунд с многокадровыми сценами, улучшенным качеством и несколькими голосами виртуальных персонажей

Вчера, 4 февраля, компания Kling AI официально представила миру Kling 3.0 — новую версию своей генеративной видеомодели, которая получила ряд существенных улучшений по сравнению с предшественником и конкурентами, а также позволяет создавать видео длиной 15 секунд.

Видео: Kling AI

Например, в отличие от версии 2.6, новая модель предоставляет пользователям возможность генерировать многокадровые ролики со сменой ракурса. Функция получила название Multi-Shot — она, по словам разработчиков, понимает сцену и кадр, описанный в текстовой инструкции, автоматически корректируя ракурсы камеры и общую композицию в зависимости от задачи. Поддерживаются как классические диалоги между двумя персонажами, так и более продвинутые техники монтажа.

Видео: Kling AI

Соответственно, если раньше пользователям приходилось генерировать несколько отдельных роликов, а затем нарезать их и монтировать, то сейчас достаточно дать текстовый промпт и, по желанию, исходное изображение, после чего система сама сгенерирует нужный видеоряд.

Вторым важным нововведением Kling 3.0 выступает улучшенная согласованность элементов генерации в кадре. По словам разработчиков, новая модель способна фиксировать характеристики персонажей, предметов и окружения сцены, сохраняя их в процессе генерации различных кадров.

Видео: Kling AI
«Независимо от движения камеры и развития сцены, ключевые объекты остаются стабильными и неизменными на протяжении всего процесса», — говорится в официальном пресс-релизе.

Это может показаться мелочью, но на самом деле отсутствие согласованности между отдельными кадрами — ключевая проблема современных видеомоделей. В двух разных сценах один и тот же персонаж может выглядеть совершенно иначе, как и элементы окружения, что сводит на нет практичность генерации контента. Более того, теперь благодаря глубокому мультимодальному пониманию модель способна обрабатывать многокадровые референсы или даже видео в роли референса, а не только изображения, что тоже положительно скажется на согласованности сгенерированного ролика.

Видео: Kling AI

Завершает же перечень нововведений обновлённая версия функции Native Audio — данный модуль обеспечивает точное воспроизведение речи персонажей в кадре. Теперь, по словам разработчиков, в сценах с участием нескольких персонажей можно будет точно определить, кто именно говорит, устраняя путаницу во время просмотра ролика.

Источник

ИИ ИИ
14,8K участников
Вступить
Комментариев пока нет
Оставьте комментарий...
Оставьте комментарий...