4 декабря 2025, 11:37

Kling представила VIDEO 2.6: генеративную видеомодель с нативным аудио

Теперь пользователь может предоставить ИИ статичное изображение, текстовый сценарий и промпт, чтобы система превратила это в полноценный видеоролик

Новости / ИИ

Обложка: Kling AI

Вчера, 3 декабря, китайская компания Kuaishou Technology AI официально представила новую генеративную видеомодель под названием VIDEO 2.6, главной фишкой которой можно назвать первую для проекта нативную модель генерации звука. Соответственно, теперь пользователи посредством текстовых инструкций могут сгенерировать не только видеоряд с нужными эффектами и постановкой кадра, но и наделить этот видеоряд звуковыми эффектами — диалогами людей, закадровым голосом, фоновыми звуками и многим другим. Это существенный апгрейд по сравнению с версией VIDEO 2.5, которая справлялась исключительно с видеопотоком.

Telegram-канал создателя Трешбокса про технологии

Видео: Kling AI

Более того, разработчики заявили, что звуковые эффекты, сгенерированные моделью, в автоматическом режиме синхронизируются с видеоконтентом. Это, теоретически, должно существенно упростить пользователям процесс создания качественного ролика, так как не придётся в ручном режиме подстраивать аудиодорожку под события в кадре.

Видео: Kling AI

«Модель обеспечивает глубокую согласованность между визуальным движением и звуковыми ритмами. Темп речи, окружающие звуки и визуальные действия тесно координируются, что позволяет эффективно устранять распространённое ощущение несоответствия, присущее традиционным методам генерации», — говорится в официальном пресс-релизе компании.

При этом разработчики модели отмечают, что звук, сгенерированный функцией Native Audio, отличается более высоким качеством, он более многогранен и приближён к реальным звуковым эффектам. Впрочем, сама видеомодель тоже стала гораздо лучше — в компании рассказали, что VIDEO 2.6 может повастаться более глубоким семантическим пониманием текстовых описаний, устной речи и сложных сюжетных линий в различных сценариях.

«Это позволяет модели точнее улавливать замысел автора и создавать аудиовизуальный контент, который лучше связан логически и точнее соответствует потребностям пользователя», — заявили создатели VIDEO 2.6.

Кроме того, новая модель отлично справляется не только с генерацией контента по текстовой подсказке, но и с «оживлением» статичных изображений. Достаточно предоставить ИИ фотографию и прописать сценарий (например, реплики участников подкаста), чтобы система сгенерировала на основе полученных данных полноценный видеоролик.

Видео: Kling AI

Выглядит весьма впечатляюще, хотя, конечно, артефакты всё равно встречаются.

Источник

···

Последнее изменение:
4 декабря 2025, 11:57