25 сентября 2023, 16:06

ChatGPT научился видеть, слышать и говорить: как это работает и какие ограничения

Первыми доступ к новым функциям получат платные пользователи, но в будущем нововведения появятся и у других

OpenAI объявила об одном из крупнейших обновлений ChatGPT: нейросеть научилась распознавать голос пользователя (в режиме живой беседы, а не как раньше) и отвечать ему тоже голосом, а также анализировать картинки, распознавая изображённые на них объекты.

Telegram-канал создателя Трешбокса про технологии

https://vimeo.com/867924804 Ранее мобильные клиенты ChatGPT уже умели распознавать голос человека, преобразовывая его в текст с помощью нейросети Whisper — по сути, это была не более чем функция надиктовки. Теперь же в приложениях появится полноценный интерфейс для общения с нейронной сетью, которая будет отвечать. При этом голос пользователя так же будет распознаваться с помощью Whisper, поэтому уже сейчас понятен уровень «понимания» человеческой речи — весьма неплохой. К слову, Whisper понимает и русский, поэтому есть большая вероятность, что функция общения в ChatGPT будет тоже совместима с русским языком.

https://vimeo.com/867927118 Реализация «зрения» оказалась для OpenAI если не сложнее, то куда ответственнее, поскольку нейросети всё ещё могут ошибаться при распознавании объектов. В связи с этим разработчики намеренно ввели некоторые ограничения, среди которых запрет на анализ и прямые заявления о людях на изображениях. Полезной функцией будет опция выделения нужного объекта на картинке, чтобы акцентировать внимание нейросети именно на нём.

Оба новшества начнут появляться у пользователей подписок Plus и Enterprise в течение ближайших двух недель. В будущем они станут доступны и «другим группам юзеров». При этом режимом общения с нейросетью получится воспользоваться только в клиентах для iOS и Android, а вот функция распознавания изображений заработает на всех платформах.

···

Последнее изменение:
25 сентября 2023, 16:21