- Регистрация
- 03.12.2019
- Сообщения
- 117
- Благодарностей
- 85
- Баллы
- 28
Приветствую зенноводов и любителей автоматизации. После того как HeyGen прикрыл лазейку безлимитного использования сервиса ElevenLabs, пришлось экстренно искать альтернативу. Перебрав десяток вариантов, я собрал связку, которая сейчас работает как швейцарские часы.
Мне нужен был инструмент, который работает локально, абсолютно бесплатно, без лимитов и при этом выдает качество, неотличимое от живого человека. Зачем платить за то, что моя видеокарта может делать сама? Я отказался от любых сторонних сервисов и собрал собственный комбайн. Под капотом крутится независимый API-сервер на питоне, который генерирует озвучку через китайскую нейросеть Qwen-TTS, а обвязкой служит наш любимый Зеннопостер.
Что умеет шаблон?
Полная автономность (считаю это самым главным). Оплата только за электричество. Никаких ограничений на количество символов или минут.
Отличное качество. В комплекте идут современные модели на 0.6B (для быстрой озвучки и слабых систем) и 1.7B параметров (не отстает от ElevenLabs).
Qwen-TTS из коробки съедал окончание озвучки. Пришлось залезть в код и добавить паузу. Теперь к каждому аудио автоматически приклеивается незаметная пауза. Нейросеть больше никогда не оборвет фразу на полуслове, звук всегда мягкий и идеально подходит для склейки.
Генерация из таблицы. Вы просто скармливаете шаблону csv таблицу, где в одной колонке написан текст, а в другой указан нужный голос. Зенка сама прочитает сценарий, раздаст роли нейросети и аккуратно сложит готовые аудиофайлы по папкам с нужной нумерацией.
Клонирование голоса. Хотите, чтобы ваши ролики на ютубе озвучивались вашим голосом, пока вы попиваете кофеек? Пожалуйста. Или, может, захотите зазвучать на идеальном английском, хотя последний раз говорили в школе "Ландон из зе капитал оф Грейт Бритн"? Тоже не проблема!
Чтобы облегчить вам установку моделей и не прописывать десятки команд. Я всё упаковал так, чтобы запуск происходил буквально в два клика. Вам не нужно лезть в код.
1. Устанавливаем окружение.
Открываем папку с шаблоном и запускаем файл INSTALL.bat. Он сам создаст виртуальное окружение, подтянет нужные версии библиотек (PyTorch, FastAPI и т.д.) из requirements.txt и всё настроит. Просто ждем, пока консоль закроется или напишет об успешной установке.
2. Запуск сервера и скачивание нейросети
Теперь запускаем START.bat. При самом первом запуске скрипт поймет, что у вас еще нет весов самой нейросети, и заботливо предложит выбрать бандл:
1. Быстрые модели (0.6B) — если нужно генерировать тысячи файлов в сутки или у вас слабая видеокарта.
2. Студийные модели (1.7B) — максимальное качество интонаций, требует от 6 Гб видеопамяти.
3. Скачать всё сразу.
Вводите цифру, жмете Enter и идете пить кофе. Батник сам скачает нужные гигабайты моделей и сложит их в папку models. (это нужно сделать только один раз)
3. Ворк
При всех последующих запусках START.bat сервер будет стартовать за пару секунд. Как только вы увидите в консоли надпись "Application startup complete" - это значит, что наш локальный API-движок успешно поднялся, загрузил нейросеть в память и готов принимать текст от Зеннопостера.
Единственное правило: черное окно консоли закрывать нельзя, пока работает шаблон. Просто сверните его, пусть тихо шуршит в фоне и делает свою работу.
P.s. Так же если вы скачали сначала одну модель, а потом захотели сменить её, то я все продумал и собрал батник CHANGE_MODEL. Вам не нужно ничего удалять вручную, искать скрытые файлы или переустанавливать скрипт. Просто кликаете по батнику и он аккуратно сбросит старый конфиг, и при следующем старте сервера первоначальное меню выбора моделей появится снова.
Переходим ко входным настройкам.
Входные настройки ZennoPoster
Вот за что отвечает каждая настройка:
1. Режим работы (Как мы загружаем текст?)
Здесь вы выбираете формат исходников. Шаблон поддерживает три сценария:
Один TXT файл: Для быстрой разовой озвучки небольшого текста.
Папка с TXT файлами: Закидываете 50 текстовиков в папку, жмете старт, и шаблон по очереди превращает их в аудио. Идеально для массовой генерации.
Таблица Excel: Загружаете таблицу со сценарием, где можно прописать разные голоса для разных строчек.
2. Путь к тексту / папке / Excel
Просто указываете путь к вашим исходникам на компьютере, в зависимости от выбранного выше режима работы.
3. Язык и Качество нейросети
Качество модели: Выбираете Быстрая (0.6B) для скорости и потокового контента, либо Качественная (1.7B) для глубокого студийного звучания с дыханием и правильными интонациями.
Язык озвучки: Модель мультиязычная! Поддерживаются Russian, English, German, French, Spanish, Chinese и другие.
4. Настройки голоса (Встроенный или Свой)
Голос для TXT (Встроенный): В списке собраны отличные базовые голоса (aiden, serena, vivian и др.), которые звучат максимально естественно.
Путь к своему голосу (Клонирование): Если вы готовите контент для англоязычного рынка и хотите вещать на чистом американском английском, но своим собственным голосом — просто оставьте выбор встроенного диктора пустым, выберите язык English и укажите в этом поле путь к вашему .wav файлу (достаточно 5–10 секунд записи вашего голоса). Нейросеть идеально скопирует ваш тембр!
Сделаю небольшую сноску, как заполнять таблицу для озвучивания разными голосами.
Если вам нужно озвучить не просто полотно текста, а создать диалог двух персонажей или сделать так, чтобы разные части видео озвучивались разными голосами - этот режим для вас.
Шаблон работает с обычными CSV-таблицами (которые легко открываются через Excel или Google Таблицы). Структура максимально простая, в ней всего две колонки:
Немного нюансов:
Встроенные голоса: Просто вписываете имя диктора. Полный список доступен в выпадающем списке входных настроек.
Клонирование на лету: В колонку B можно вставить полный путь к вашему .wav файлу-образцу. Шаблон сам поймет, что это не имя диктора, а файл для клонирования, и подставит его в нейросеть. Это позволяет делать диалоги, где участвуют десятки разных уникальных голосов.
Пустая ячейка: Если вы оставите колонку B пустой, шаблон не упадет -он автоматически возьмет голос, который вы выбрали в "Входных настройках" как основной.
Что мы получаем на выходе?
Шаблон создаст отдельную папку для вашего сценария и сохранит туда пронумерованные файлы: 1.wav, 2.wav, 3.wav и так далее. Это сделано специально, чтобы вы могли просто закинуть их в любой видеоредактор (например, DaVinci Resolve) или авто-монтажер, и они сразу встали в правильном порядке.
Итоги: Меньше издержек, больше профита
Будем реалистами: мы занимаемся автоматизацией, чтобы резать косты и увеличивать заработок. Покупать зенку и при этом ежемесячно заносить сотни долларов сторонним сервисам за API озвучки - это математически невыгодно. Когда у тебя в работе сетка каналов, аккаунтов, и нужно ежедневно уникализировать и заливать пачки видео, тарификация за каждый сгенерированный символ откусывает слишком заметную часть дохода.
Шаблон "Режиссер Озвучки" решает эту проблему в лоб:
Генерация становится бесплатной. Вы платите только за электричество(благо оно пока у нас дешевое), которое потребляет ваш ПК.
Выход на Бурж без идеального произношения. Не нужно в совершенстве знать английский, чтобы лить трафик на США. Закидываете пару секунд своего голоса, скармливаете текст, и нейросеть выдает чистую речь с вашим тембром.
Интеграция в авто-монтаж. Файлы на выходе уже пронумерованы. Их можно пачками закидывать в DaVinci Resolve для автоматической расстановки по таймлайну или моментально клеить с видеорядом через скрипты FFmpeg.
Я собирал этот шаблон, чтобы замкнуть цикл производства контента на своем железе и полностью отвязаться от лимитов и подписок. Теперь отдаю эту связку в комьюнити.
Забирайте, тестируйте на своих объемах и экономьте бюджет. Буду рад фидбеку в комментариях, а если шаблон действительно сохранит вам деньги - жду лайк под этой темой!
Всем стабильной работы без банов и отличного профита!
Мне нужен был инструмент, который работает локально, абсолютно бесплатно, без лимитов и при этом выдает качество, неотличимое от живого человека. Зачем платить за то, что моя видеокарта может делать сама? Я отказался от любых сторонних сервисов и собрал собственный комбайн. Под капотом крутится независимый API-сервер на питоне, который генерирует озвучку через китайскую нейросеть Qwen-TTS, а обвязкой служит наш любимый Зеннопостер.
Что умеет шаблон?
Полная автономность (считаю это самым главным). Оплата только за электричество. Никаких ограничений на количество символов или минут.
Отличное качество. В комплекте идут современные модели на 0.6B (для быстрой озвучки и слабых систем) и 1.7B параметров (не отстает от ElevenLabs).
Qwen-TTS из коробки съедал окончание озвучки. Пришлось залезть в код и добавить паузу. Теперь к каждому аудио автоматически приклеивается незаметная пауза. Нейросеть больше никогда не оборвет фразу на полуслове, звук всегда мягкий и идеально подходит для склейки.
Генерация из таблицы. Вы просто скармливаете шаблону csv таблицу, где в одной колонке написан текст, а в другой указан нужный голос. Зенка сама прочитает сценарий, раздаст роли нейросети и аккуратно сложит готовые аудиофайлы по папкам с нужной нумерацией.
Клонирование голоса. Хотите, чтобы ваши ролики на ютубе озвучивались вашим голосом, пока вы попиваете кофеек? Пожалуйста. Или, может, захотите зазвучать на идеальном английском, хотя последний раз говорили в школе "Ландон из зе капитал оф Грейт Бритн"? Тоже не проблема!
Чтобы облегчить вам установку моделей и не прописывать десятки команд. Я всё упаковал так, чтобы запуск происходил буквально в два клика. Вам не нужно лезть в код.
1. Устанавливаем окружение.
Открываем папку с шаблоном и запускаем файл INSTALL.bat. Он сам создаст виртуальное окружение, подтянет нужные версии библиотек (PyTorch, FastAPI и т.д.) из requirements.txt и всё настроит. Просто ждем, пока консоль закроется или напишет об успешной установке.
2. Запуск сервера и скачивание нейросети
Теперь запускаем START.bat. При самом первом запуске скрипт поймет, что у вас еще нет весов самой нейросети, и заботливо предложит выбрать бандл:
1. Быстрые модели (0.6B) — если нужно генерировать тысячи файлов в сутки или у вас слабая видеокарта.
2. Студийные модели (1.7B) — максимальное качество интонаций, требует от 6 Гб видеопамяти.
3. Скачать всё сразу.
Вводите цифру, жмете Enter и идете пить кофе. Батник сам скачает нужные гигабайты моделей и сложит их в папку models. (это нужно сделать только один раз)
3. Ворк
При всех последующих запусках START.bat сервер будет стартовать за пару секунд. Как только вы увидите в консоли надпись "Application startup complete" - это значит, что наш локальный API-движок успешно поднялся, загрузил нейросеть в память и готов принимать текст от Зеннопостера.
Единственное правило: черное окно консоли закрывать нельзя, пока работает шаблон. Просто сверните его, пусть тихо шуршит в фоне и делает свою работу.
P.s. Так же если вы скачали сначала одну модель, а потом захотели сменить её, то я все продумал и собрал батник CHANGE_MODEL. Вам не нужно ничего удалять вручную, искать скрытые файлы или переустанавливать скрипт. Просто кликаете по батнику и он аккуратно сбросит старый конфиг, и при следующем старте сервера первоначальное меню выбора моделей появится снова.
Переходим ко входным настройкам.
Входные настройки ZennoPoster
Вот за что отвечает каждая настройка:
1. Режим работы (Как мы загружаем текст?)
Здесь вы выбираете формат исходников. Шаблон поддерживает три сценария:
Один TXT файл: Для быстрой разовой озвучки небольшого текста.
Папка с TXT файлами: Закидываете 50 текстовиков в папку, жмете старт, и шаблон по очереди превращает их в аудио. Идеально для массовой генерации.
Таблица Excel: Загружаете таблицу со сценарием, где можно прописать разные голоса для разных строчек.
2. Путь к тексту / папке / Excel
Просто указываете путь к вашим исходникам на компьютере, в зависимости от выбранного выше режима работы.
3. Язык и Качество нейросети
Качество модели: Выбираете Быстрая (0.6B) для скорости и потокового контента, либо Качественная (1.7B) для глубокого студийного звучания с дыханием и правильными интонациями.
Язык озвучки: Модель мультиязычная! Поддерживаются Russian, English, German, French, Spanish, Chinese и другие.
4. Настройки голоса (Встроенный или Свой)
Голос для TXT (Встроенный): В списке собраны отличные базовые голоса (aiden, serena, vivian и др.), которые звучат максимально естественно.
Путь к своему голосу (Клонирование): Если вы готовите контент для англоязычного рынка и хотите вещать на чистом американском английском, но своим собственным голосом — просто оставьте выбор встроенного диктора пустым, выберите язык English и укажите в этом поле путь к вашему .wav файлу (достаточно 5–10 секунд записи вашего голоса). Нейросеть идеально скопирует ваш тембр!
Сделаю небольшую сноску, как заполнять таблицу для озвучивания разными голосами.
Если вам нужно озвучить не просто полотно текста, а создать диалог двух персонажей или сделать так, чтобы разные части видео озвучивались разными голосами - этот режим для вас.
Шаблон работает с обычными CSV-таблицами (которые легко открываются через Excel или Google Таблицы). Структура максимально простая, в ней всего две колонки:
| Текст реплики (Колонка A) | Голос или путь к клону (Колонка B) |
| Привет! Это первая реплика первым голосом. | aiden |
| А я отвечаю вторым, женским голосом. | serena |
| Теперь я заговорю твоим собственным голосом! | C:\my_voices\clone.wav |
| А эта строка озвучится голосом по умолчанию. |
Немного нюансов:
Встроенные голоса: Просто вписываете имя диктора. Полный список доступен в выпадающем списке входных настроек.
Клонирование на лету: В колонку B можно вставить полный путь к вашему .wav файлу-образцу. Шаблон сам поймет, что это не имя диктора, а файл для клонирования, и подставит его в нейросеть. Это позволяет делать диалоги, где участвуют десятки разных уникальных голосов.
Пустая ячейка: Если вы оставите колонку B пустой, шаблон не упадет -он автоматически возьмет голос, который вы выбрали в "Входных настройках" как основной.
Что мы получаем на выходе?
Шаблон создаст отдельную папку для вашего сценария и сохранит туда пронумерованные файлы: 1.wav, 2.wav, 3.wav и так далее. Это сделано специально, чтобы вы могли просто закинуть их в любой видеоредактор (например, DaVinci Resolve) или авто-монтажер, и они сразу встали в правильном порядке.
Итоги: Меньше издержек, больше профита
Будем реалистами: мы занимаемся автоматизацией, чтобы резать косты и увеличивать заработок. Покупать зенку и при этом ежемесячно заносить сотни долларов сторонним сервисам за API озвучки - это математически невыгодно. Когда у тебя в работе сетка каналов, аккаунтов, и нужно ежедневно уникализировать и заливать пачки видео, тарификация за каждый сгенерированный символ откусывает слишком заметную часть дохода.
Шаблон "Режиссер Озвучки" решает эту проблему в лоб:
Генерация становится бесплатной. Вы платите только за электричество(благо оно пока у нас дешевое), которое потребляет ваш ПК.
Выход на Бурж без идеального произношения. Не нужно в совершенстве знать английский, чтобы лить трафик на США. Закидываете пару секунд своего голоса, скармливаете текст, и нейросеть выдает чистую речь с вашим тембром.
Интеграция в авто-монтаж. Файлы на выходе уже пронумерованы. Их можно пачками закидывать в DaVinci Resolve для автоматической расстановки по таймлайну или моментально клеить с видеорядом через скрипты FFmpeg.
Я собирал этот шаблон, чтобы замкнуть цикл производства контента на своем железе и полностью отвязаться от лимитов и подписок. Теперь отдаю эту связку в комьюнити.
Забирайте, тестируйте на своих объемах и экономьте бюджет. Буду рад фидбеку в комментариях, а если шаблон действительно сохранит вам деньги - жду лайк под этой темой!
Всем стабильной работы без банов и отличного профита!
Вложения
-
4,1 КБ Просмотры: 11
-
20,6 КБ Просмотры: 9
-
334 байт Просмотры: 1
Последнее редактирование:


