13 августа 2025, 19:02

FFmpeg теперь умеет транскрибировать аудио в реальном времени с помощью ИИ-фильтра

Отныне программное обеспечение FFmpeg за счёт интеграции искусственного интеллекта выходит за рамки традиционной обработки медиаконтента

Новости / ИИ

FFmpeg теперь умеет транскрибировать аудио в реальном времени с помощью ИИ-фильтра

Обложка: Trashbox.ru

Бесплатный набор инструментов для работы с аудио и видео FFmpeg получил новый аудиофильтр af_whisper, который обеспечивает автоматическое распознавание речи (ASR) непосредственно в FFmpeg. Он использует библиотеку whisper.cpp с мощной ИИ-моделью для обработки медиаконтента. Это событие является важным шагом для FFmpeg, поскольку выводит программное обеспечение за рамки традиционной обработки медиаконтента.

Подписывайтесь на Telegram-канал про технологии

Параметры нового фильтра обеспечивают гибкую расшифровку аудио, включая выбор модели ИИ, указание языка и настройку выходного формата. Фильтр поддерживает обработку предварительно записанных файлов и аудиопотоков в реальном времени, а пользователи могут использовать функцию распознавания голосовой активации (VAD) для повышения точности и эффективности транскрибации.

Фильтр позволяет балансировать между точностью расшифровки аудио и скоростью обработки. Он поддерживает аппаратное ускорение GPU, что может значительно ускорить процесс транскрибации. Новый фильтр может генерировать субтитры, например, SRT-файлы для видео и подкастов, а также позволяет транскрибировать аудио для потокового вещания или других приложений в режиме реального времени. Выходные метаданные можно использовать для дальнейшей автоматизации в FFmpeg. Новая функция упрощает процесс для создателей контента, а также значительно экономит время.

Эта интеграция создаёт прецедент для FFmpeg по добавлению других моделей искусственного интеллекта и машинного обучения в будущем, а также укрепляет позиции FFmpeg как отраслевого стандарта в области медиа.

Источник

···

Последнее изменение:
13 августа 2025, 19:03