GPTTS: ИИ-озвучка нестандартным способом

Botin

Client

08.12.2024

#1

Всем привет!

Озвучка с помощью нейросетей на данный момент является оптимальным вариантом для создания аудио-книг, видео в YouTube, видео-курсов. О том, как это можно делать с помощью уже готовых решений в виде готовых сервисов, я рассказывал раньше здесь. Способ перехвата запросов, хоть и требует некоторых телодвижений, но лежит почти на поверхности, нужно только немного копнуть.

Сегодня же речь пойдет о другом способе, для реализации которого понадобилось время, плюс опыт в работе с обработкой медиа-файлов очень сильно помог. Качество получаемой озвучки – на высоком уровне, поддержка всех наиболее распространенных языков присутствует (всего их сейчас 37). Хотя голосов не так много (на данный момент – 9), но скоро их должно прибавиться.

Шаблон, который в итоге получился, получил название GPTTS – так как озвучка у нас происходит в ChatGPT. Да, там нет готового функционала по скачиванию аудио-файлов с начиткой текста, но делается это с помощью вспомогательных инструментов, а связывающим звеном выступает, конечно же, ZennoPoster.

Сама идея использовать ChatGPT для озвучки текстов возникла еще с момента появления возможности прослушивать ответ от ИИ. Использовался простенький промпт на подобие этого: «Rewrite this text, removing only the ^ signs from it. Text: …». Можно также добавить в промпт условие удаления ошибок из текста. В итоге – нужный мне текст оказывался в ответе ChatGPT, который уже можно было озвучить.

На первом этапе использования такой возможности запись ответа делалась в ручном режиме с помощью бесплатной программы Audacity. В настройках в качестве источника указывались динамики и перед началом озвучки запускалась запись. Останавливалась запись также вручную, надо было сидеть возле компа и отслеживать процесс озвучки. Но это было тогда. Сейчас все происходит автоматически, нужно только произвести некоторую аудио-настройку и, собственно, запустить шаблон GPTTS.

Прежде всего надо скачать и установить утилиту VB-CABLE Virtual Audio Device (если у вас 64-разрядная операционная система, то запускаем файл VBCABLE_Setup_x64.exe – обязательно от имени администратора), архив с которой прикреплен к данной публикации. По сути, это набор виртуальных микрофона и динамиков, которые позволят нам захватывать и записывать весь исходящий звук с компьютера (в нашем случае – это как раз и будет озвучка текста от ChatGPT).

После установки VB-CABLE надо перезагрузить компьютер, после чего можно переходить к настройке звука с учетом появившихся виртуальных устройств воспроизведения и записи аудио:

1. Заходим в Панель управления, затем в Оборудование и звук и переходим в настройки звука.

2. Для того, чтоб отслеживать визуально, какие именно устройства задействованы, запускаем любое аудио.

3. Выбираем во вкладке «Воспроизведение» устройство с названием "VB-Audio Virtual Cable" и назначаем его устройством по умолчанию для воспроизведения звука.

4. Затем переходим во вкладку Запись, где также выбираем устройство с названием "VB-Audio Virtual Cable" и также назначаем его использовать по умолчанию.

5. После этого заходим в его свойства во вкладку «Прослушать», ставим галочку напротив «Прослушивать с данного устройства» и ниже в выпадающем списке выбираем то устройство, которое воспроизводило звук изначально, до установки VB-CABLE, то есть именно физическое устройство по воспроизведению звука - динамики (в моем случае – это NVIDIA Hight Definition Audio). Применяем изменения и жмем ОК.

6. Если все настроено правильно, то воспроизводимый звук (протестить можно при запуске любого аудио-файла) должен быть слышен, а также визуально отображаться на шкалах: реального устройства воспроизведения аудио, виртуального устройства воспроизведения аудио, а также виртуального устройства записи.

Дальше уже используем непосредственно шаблон GPTTS. Скачать его, а также смотреть видео-инструкцию по работе с ним можно ниже. Для записи исходящего аудио-потока с озвучкой используется консольная утилита FFMPEG, которая является незаменимым инструментом для автоматической обработки медиа-файлов различной сложности.

В целом, данная реализация демонстрирует, что даже при наличии определенных ограничений на тех или иных площадках, их можно обходить с помощью Зенопостера (если не через стандартный функционал, то в связке со сторонними инструментами, благо, имеется возможность такой интеграции).

Последнее редактирование модератором: 09.12.2024

Реакции: LaGir, qweeeraz, NickR и еще 2

Zmaster

Client

10.12.2024

#2

а можно пример озвучки на русском языке прикрепить? я вручную смотрел, там иногда забавные баги проскакивают.

Botin

Client

10.12.2024

#3

Zmaster сказал(а):
а можно пример озвучки на русском языке прикрепить? я вручную смотрел, там иногда забавные баги проскакивают.

Для того, чтоб максимально качественно озвучивало на русском языке, надо обязательно выставлять русский язык в настройках озвучки (во входных настройках шаблона, или же в настройках ChatGPT, если делаете это вручную), по умолчанию там стоит авто-выбор, который не всегда срабатывает корректно с другими языками, кроме английского.

Также при озвучке русского текста стоит учитывать, что с особенностями его ИИ не так хорошо знаком и текст подобного рода "2-3 недели" будет скорее зачитан "два-три недели", поэтому надо такие моменты учитывать и по возможности делать замену цифр на слова там, где это нужно ("две-три недели" в нашем примере).

Реакции: Zedx, qweeeraz и djaga

Поиск

GPTTS: ИИ-озвучка нестандартным способом

Botin

Client

Вложения

Zmaster

Client

Botin

Client

Вложения

Кто просматривает тему: (Всего: 2, Пользователи: 0, Гости: 2)