- Регистрация
- 16.02.2014
- Сообщения
- 425
- Благодарностей
- 965
- Баллы
- 93
Всем привет!
Озвучка с помощью нейросетей на данный момент является оптимальным вариантом для создания аудио-книг, видео в YouTube, видео-курсов. О том, как это можно делать с помощью уже готовых решений в виде готовых сервисов, я рассказывал раньше здесь. Способ перехвата запросов, хоть и требует некоторых телодвижений, но лежит почти на поверхности, нужно только немного копнуть.
Сегодня же речь пойдет о другом способе, для реализации которого понадобилось время, плюс опыт в работе с обработкой медиа-файлов очень сильно помог. Качество получаемой озвучки – на высоком уровне, поддержка всех наиболее распространенных языков присутствует (всего их сейчас 37). Хотя голосов не так много (на данный момент – 9), но скоро их должно прибавиться.
Шаблон, который в итоге получился, получил название GPTTS – так как озвучка у нас происходит в ChatGPT. Да, там нет готового функционала по скачиванию аудио-файлов с начиткой текста, но делается это с помощью вспомогательных инструментов, а связывающим звеном выступает, конечно же, ZennoPoster.
Сама идея использовать ChatGPT для озвучки текстов возникла еще с момента появления возможности прослушивать ответ от ИИ. Использовался простенький промпт на подобие этого: «Rewrite this text, removing only the ^ signs from it. Text: …». Можно также добавить в промпт условие удаления ошибок из текста. В итоге – нужный мне текст оказывался в ответе ChatGPT, который уже можно было озвучить.
На первом этапе использования такой возможности запись ответа делалась в ручном режиме с помощью бесплатной программы Audacity. В настройках в качестве источника указывались динамики и перед началом озвучки запускалась запись. Останавливалась запись также вручную, надо было сидеть возле компа и отслеживать процесс озвучки. Но это было тогда. Сейчас все происходит автоматически, нужно только произвести некоторую аудио-настройку и, собственно, запустить шаблон GPTTS.
Прежде всего надо скачать и установить утилиту VB-CABLE Virtual Audio Device (если у вас 64-разрядная операционная система, то запускаем файл VBCABLE_Setup_x64.exe – обязательно от имени администратора), архив с которой прикреплен к данной публикации. По сути, это набор виртуальных микрофона и динамиков, которые позволят нам захватывать и записывать весь исходящий звук с компьютера (в нашем случае – это как раз и будет озвучка текста от ChatGPT).
После установки VB-CABLE надо перезагрузить компьютер, после чего можно переходить к настройке звука с учетом появившихся виртуальных устройств воспроизведения и записи аудио:
1. Заходим в Панель управления, затем в Оборудование и звук и переходим в настройки звука.
2. Для того, чтоб отслеживать визуально, какие именно устройства задействованы, запускаем любое аудио.
3. Выбираем во вкладке «Воспроизведение» устройство с названием "VB-Audio Virtual Cable" и назначаем его устройством по умолчанию для воспроизведения звука.
4. Затем переходим во вкладку Запись, где также выбираем устройство с названием "VB-Audio Virtual Cable" и также назначаем его использовать по умолчанию.
5. После этого заходим в его свойства во вкладку «Прослушать», ставим галочку напротив «Прослушивать с данного устройства» и ниже в выпадающем списке выбираем то устройство, которое воспроизводило звук изначально, до установки VB-CABLE, то есть именно физическое устройство по воспроизведению звука - динамики (в моем случае – это NVIDIA Hight Definition Audio). Применяем изменения и жмем ОК.
6. Если все настроено правильно, то воспроизводимый звук (протестить можно при запуске любого аудио-файла) должен быть слышен, а также визуально отображаться на шкалах: реального устройства воспроизведения аудио, виртуального устройства воспроизведения аудио, а также виртуального устройства записи.
Дальше уже используем непосредственно шаблон GPTTS. Скачать его, а также смотреть видео-инструкцию по работе с ним можно ниже. Для записи исходящего аудио-потока с озвучкой используется консольная утилита FFMPEG, которая является незаменимым инструментом для автоматической обработки медиа-файлов различной сложности.
В целом, данная реализация демонстрирует, что даже при наличии определенных ограничений на тех или иных площадках, их можно обходить с помощью Зенопостера (если не через стандартный функционал, то в связке со сторонними инструментами, благо, имеется возможность такой интеграции).
Вложения
-
1 МБ Просмотры: 10
-
11,9 МБ Просмотры: 15
Последнее редактирование модератором: