adblock check

FFmpeg теперь умеет транскрибировать аудио в реальном времени с помощью ИИ-фильтра

Отныне программное обеспечение FFmpeg за счёт интеграции искусственного интеллекта выходит за рамки традиционной обработки медиаконтента
Обложка: Trashbox.ru

Бесплатный набор инструментов для работы с аудио и видео FFmpeg получил новый аудиофильтр af_whisper, который обеспечивает автоматическое распознавание речи (ASR) непосредственно в FFmpeg. Он использует библиотеку whisper.cpp с мощной ИИ-моделью для обработки медиаконтента. Это событие является важным шагом для FFmpeg, поскольку выводит программное обеспечение за рамки традиционной обработки медиаконтента.

Параметры нового фильтра обеспечивают гибкую расшифровку аудио, включая выбор модели ИИ, указание языка и настройку выходного формата. Фильтр поддерживает обработку предварительно записанных файлов и аудиопотоков в реальном времени, а пользователи могут использовать функцию распознавания голосовой активации (VAD) для повышения точности и эффективности транскрибации.

Фильтр позволяет балансировать между точностью расшифровки аудио и скоростью обработки. Он поддерживает аппаратное ускорение GPU, что может значительно ускорить процесс транскрибации. Новый фильтр может генерировать субтитры, например, SRT-файлы для видео и подкастов, а также позволяет транскрибировать аудио для потокового вещания или других приложений в режиме реального времени. Выходные метаданные можно использовать для дальнейшей автоматизации в FFmpeg. Новая функция упрощает процесс для создателей контента, а также значительно экономит время.

Эта интеграция создаёт прецедент для FFmpeg по добавлению других моделей искусственного интеллекта и машинного обучения в будущем, а также укрепляет позиции FFmpeg как отраслевого стандарта в области медиа.

Источник

Svidetel Svidetel
Автор
ИИ ИИ
12K участников
Вступить
Комментариев пока нет
Оставьте комментарий...
Оставьте комментарий...