Режиссер Озвучки: Бесплатный конвейер студийного нейро-голоса (ZennoPoster + Qwen-TTS)

Scipion

Client

11.04.2026

#1

Приветствую зенноводов и любителей автоматизации. После того как HeyGen прикрыл лазейку безлимитного использования сервиса ElevenLabs, пришлось экстренно искать альтернативу. Перебрав десяток вариантов, я собрал связку, которая сейчас работает как швейцарские часы.

Мне нужен был инструмент, который работает локально, абсолютно бесплатно, без лимитов и при этом выдает качество, неотличимое от живого человека. Зачем платить за то, что моя видеокарта может делать сама? Я отказался от любых сторонних сервисов и собрал собственный комбайн. Под капотом крутится независимый API-сервер на питоне, который генерирует озвучку через китайскую нейросеть Qwen-TTS, а обвязкой служит наш любимый Зеннопостер.

Что умеет шаблон?

Полная автономность (считаю это самым главным). Оплата только за электричество. Никаких ограничений на количество символов или минут.

Отличное качество. В комплекте идут современные модели на 0.6B (для быстрой озвучки и слабых систем) и 1.7B параметров (не отстает от ElevenLabs).

Qwen-TTS из коробки съедал окончание озвучки. Пришлось залезть в код и добавить паузу. Теперь к каждому аудио автоматически приклеивается незаметная пауза. Нейросеть больше никогда не оборвет фразу на полуслове, звук всегда мягкий и идеально подходит для склейки.

Генерация из таблицы. Вы просто скармливаете шаблону csv таблицу, где в одной колонке написан текст, а в другой указан нужный голос. Зенка сама прочитает сценарий, раздаст роли нейросети и аккуратно сложит готовые аудиофайлы по папкам с нужной нумерацией.

Клонирование голоса. Хотите, чтобы ваши ролики на ютубе озвучивались вашим голосом, пока вы попиваете кофеек? Пожалуйста. Или, может, захотите зазвучать на идеальном английском, хотя последний раз говорили в школе "Ландон из зе капитал оф Грейт Бритн"? Тоже не проблема!

Чтобы облегчить вам установку моделей и не прописывать десятки команд. Я всё упаковал так, чтобы запуск происходил буквально в два клика. Вам не нужно лезть в код.

1. Устанавливаем окружение.

Открываем папку с шаблоном и запускаем файл INSTALL.bat. Он сам создаст виртуальное окружение, подтянет нужные версии библиотек (PyTorch, FastAPI и т.д.) из requirements.txt и всё настроит. Просто ждем, пока консоль закроется или напишет об успешной установке.

2. Запуск сервера и скачивание нейросети

Теперь запускаем START.bat. При самом первом запуске скрипт поймет, что у вас еще нет весов самой нейросети, и заботливо предложит выбрать бандл:

1. Быстрые модели (0.6B) — если нужно генерировать тысячи файлов в сутки или у вас слабая видеокарта.
2. Студийные модели (1.7B) — максимальное качество интонаций, требует от 6 Гб видеопамяти.
3. Скачать всё сразу.

Вводите цифру, жмете Enter и идете пить кофе. Батник сам скачает нужные гигабайты моделей и сложит их в папку models. (это нужно сделать только один раз)

3. Ворк

При всех последующих запусках START.bat сервер будет стартовать за пару секунд. Как только вы увидите в консоли надпись "Application startup complete" - это значит, что наш локальный API-движок успешно поднялся, загрузил нейросеть в память и готов принимать текст от Зеннопостера.

Единственное правило: черное окно консоли закрывать нельзя, пока работает шаблон. Просто сверните его, пусть тихо шуршит в фоне и делает свою работу.

P.s. Так же если вы скачали сначала одну модель, а потом захотели сменить её, то я все продумал и собрал батник CHANGE_MODEL. Вам не нужно ничего удалять вручную, искать скрытые файлы или переустанавливать скрипт. Просто кликаете по батнику и он аккуратно сбросит старый конфиг, и при следующем старте сервера первоначальное меню выбора моделей появится снова.

Переходим ко входным настройкам.

Входные настройки ZennoPoster

Вот за что отвечает каждая настройка:

1. Режим работы (Как мы загружаем текст?)

Здесь вы выбираете формат исходников. Шаблон поддерживает три сценария:

Один TXT файл: Для быстрой разовой озвучки небольшого текста.

Папка с TXT файлами: Закидываете 50 текстовиков в папку, жмете старт, и шаблон по очереди превращает их в аудио. Идеально для массовой генерации.

Таблица Excel: Загружаете таблицу со сценарием, где можно прописать разные голоса для разных строчек.

2. Путь к тексту / папке / Excel

Просто указываете путь к вашим исходникам на компьютере, в зависимости от выбранного выше режима работы.

3. Язык и Качество нейросети

Качество модели: Выбираете Быстрая (0.6B) для скорости и потокового контента, либо Качественная (1.7B) для глубокого студийного звучания с дыханием и правильными интонациями.

Язык озвучки: Модель мультиязычная! Поддерживаются Russian, English, German, French, Spanish, Chinese и другие.

4. Настройки голоса (Встроенный или Свой)

Голос для TXT (Встроенный): В списке собраны отличные базовые голоса (aiden, serena, vivian и др.), которые звучат максимально естественно.

Путь к своему голосу (Клонирование): Если вы готовите контент для англоязычного рынка и хотите вещать на чистом американском английском, но своим собственным голосом — просто оставьте выбор встроенного диктора пустым, выберите язык English и укажите в этом поле путь к вашему .wav файлу (достаточно 5–10 секунд записи вашего голоса). Нейросеть идеально скопирует ваш тембр!

Сделаю небольшую сноску, как заполнять таблицу для озвучивания разными голосами.

Если вам нужно озвучить не просто полотно текста, а создать диалог двух персонажей или сделать так, чтобы разные части видео озвучивались разными голосами - этот режим для вас.
Шаблон работает с обычными CSV-таблицами (которые легко открываются через Excel или Google Таблицы). Структура максимально простая, в ней всего две колонки:

Текст реплики (Колонка A)	Голос или путь к клону (Колонка B)
Привет! Это первая реплика первым голосом.	aiden
А я отвечаю вторым, женским голосом.	serena
Теперь я заговорю твоим собственным голосом!	C:\my_voices\clone.wav
А эта строка озвучится голосом по умолчанию.

Немного нюансов:

Встроенные голоса: Просто вписываете имя диктора. Полный список доступен в выпадающем списке входных настроек.

Клонирование на лету: В колонку B можно вставить полный путь к вашему .wav файлу-образцу. Шаблон сам поймет, что это не имя диктора, а файл для клонирования, и подставит его в нейросеть. Это позволяет делать диалоги, где участвуют десятки разных уникальных голосов.

Пустая ячейка: Если вы оставите колонку B пустой, шаблон не упадет -он автоматически возьмет голос, который вы выбрали в "Входных настройках" как основной.

Что мы получаем на выходе?

Шаблон создаст отдельную папку для вашего сценария и сохранит туда пронумерованные файлы: 1.wav, 2.wav, 3.wav и так далее. Это сделано специально, чтобы вы могли просто закинуть их в любой видеоредактор (например, DaVinci Resolve) или авто-монтажер, и они сразу встали в правильном порядке.

Итоги: Меньше издержек, больше профита

Будем реалистами: мы занимаемся автоматизацией, чтобы резать косты и увеличивать заработок. Покупать зенку и при этом ежемесячно заносить сотни долларов сторонним сервисам за API озвучки - это математически невыгодно. Когда у тебя в работе сетка каналов, аккаунтов, и нужно ежедневно уникализировать и заливать пачки видео, тарификация за каждый сгенерированный символ откусывает слишком заметную часть дохода.

Шаблон "Режиссер Озвучки" решает эту проблему в лоб:

Генерация становится бесплатной. Вы платите только за электричество(благо оно пока у нас дешевое), которое потребляет ваш ПК.

Выход на Бурж без идеального произношения. Не нужно в совершенстве знать английский, чтобы лить трафик на США. Закидываете пару секунд своего голоса, скармливаете текст, и нейросеть выдает чистую речь с вашим тембром.

Интеграция в авто-монтаж. Файлы на выходе уже пронумерованы. Их можно пачками закидывать в DaVinci Resolve для автоматической расстановки по таймлайну или моментально клеить с видеорядом через скрипты FFmpeg.

Я собирал этот шаблон, чтобы замкнуть цикл производства контента на своем железе и полностью отвязаться от лимитов и подписок. Теперь отдаю эту связку в комьюнити.

Забирайте, тестируйте на своих объемах и экономьте бюджет. Буду рад фидбеку в комментариях, а если шаблон действительно сохранит вам деньги - жду лайк под этой темой!

Всем стабильной работы без банов и отличного профита!

Последнее редактирование: 17.04.2026

Реакции: Sobesednic, Divisor, Jufel и еще 15

DV_

Client

17.04.2026

#2

Можете требования к версии ZP понизить?

Scipion

Client

17.04.2026

#3

DV_ сказал(а):
Можете требования к версии ZP понизить?

Так и знал, что забуду это сделать. Понизил

Реакции: DV_

kul0n

Client

17.04.2026

#4

Scipion сказал(а):
Так и знал, что забуду это сделать. Понизил

а какое минимальное железо нужно, чтобы завелось?

Scipion

Client

17.04.2026

#5

kul0n сказал(а):
а какое минимальное железо нужно, чтобы завелось?

Если прям минимально, то можно на процессоре завести(модель 0.6B), но скорость будет ужасной. Если брать видеокарту, то должна запуститься на gtx 1650 с 4 гб. Для более мощной версии(1.7B) уже 8 гб врам. Я гоняю модель 1.7B на ноутбучной rtx 2070. Место на жестком диске все модели у меня занимают 14гб.

Последнее редактирование: 17.04.2026

Реакции: kul0n

Нервный Иван

Client

17.04.2026

#6

Подскажите пожалуйста а где найти "START.bat "

Scipion

Client

17.04.2026

#7

Нервный Иван сказал(а):
Подскажите пожалуйста а где найти "START.bat "

Добавил.

ALLIN

Client

18.04.2026

#8

добрый день а можете пример показать ну прикрепить к посту что оно там генерит, помтоу как елевен лаб рили топ прям не увеерн что качетво сходное будет

Scipion

Client

18.04.2026

#9

ALLIN сказал(а):
добрый день а можете пример показать ну прикрепить к посту что оно там генерит, помтоу как елевен лаб рили топ прям не увеерн что качетво сходное будет

Вот пример клонирования голоса Зайцева. Взял отрезок в 16 секунд с какого-то интервью. Ру голос иногда багует с ударениями, английский же на уровне элевена(второй версии точно)

ALLIN

Client

18.04.2026

#10

пойдет но не елевелен лабс

Реакции: Scipion

smartmail

Client

18.04.2026

#11

Годно! Спасибо. На голосовании поддержу.

Реакции: Scipion

Konrod_m

Client

19.04.2026

#12

Спасибо, действительно полезно.

Реакции: Scipion и MuscleTech

indigo666

Client

21.04.2026

#13

Годнота, спс ) С меня голос

Реакции: Scipion

Scipion

Client

21.04.2026

#14

Добавил режим "создание голоса". Результаты получаются довольно неплохие. Сделал пять версий версии одного текста(отрывки получились по +-30 секунд). Для второго голоса использовал немецкий язык и русский текст. Получился довольно забавный немецкий акцент.

Хотя промты допустимо составлять на русском языке, для достижения более качественных результатов стоит отдавать предпочтение английскому. Он предоставляет больший выбор точных акустических терминов и позволяет формулировать многосоставные детальные описания, что положительно сказывается на итоговом результате.

Для тех, кто уже скачивал: отдельно выложил файл server.py - замените его и удалите config.json. После этого запустите start.bat, и модель докачается (процесс займёт около 4 ГБ). Созданые голоса будут складываться в папку custom_voice, которая создастся автоматически при первом запуске режима.

Divisor

Client

30.04.2026

#15

Вся реальная работа в server.py, ZP в этой схеме просто красивая морда для requests.post().
Если бы автор выкатил тот же server.py + Gradio-UI на 50 строк, получилось бы функционально эквивалентно и доступно вообще всем, без покупки ZP.
Но тогда - ни конкурса, ни форумных плюшек :-)

.
P.S. Реально полезная штука (для меня).

Поиск

Режиссер Озвучки: Бесплатный конвейер студийного нейро-голоса (ZennoPoster + Qwen-TTS)

Scipion

Client

Вложения

DV_

Client

Scipion

Client

kul0n

Client

Scipion

Client

Нервный Иван

Client

Scipion

Client

ALLIN

Client

Scipion

Client

ALLIN

Client

smartmail

Client

Konrod_m

Client

indigo666

Client

Scipion

Client

Divisor

Client

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)