Озвучка текста на любой язык при помощи OpenAI TTS

Agent · 12.01.2026

Подскажите, а есть возможность подгонять длину аудио на разных языках под одно значение. Соответствующие тексты предварительно примерно адаптируются по объему. Но получается не точно. Нужно для изготовления аудио-дорожек для видео на ютуб.
P.S. Сам отвечу. Вот с таким параметром нужно запустить -y -i "{-Variable.folder-}\output.mp3" -filter:a "atempo=1.1" -c:a libmp3lame -q:a 2 "{-Variable.folder-}\output-2.mp3"

DV_ · 16.01.2026

А что там по ценам?

DV_ · 16.01.2026

А какие у вас объёмы, если не секрет?

DV_ · 16.01.2026

А в день/месяц?

Agent · 17.01.2026

Как проверить длину аудиофайла? Пробовал запустить ffprobe.exe с такими параметрами с сохранением в переменную и выводом ошибки в переменную:
-show_entries format=duration -f lavfi -i amovie="{-Variable.file}" -of csv=p=0
Действие не выполняется. В переменную с ошибкой выводится только версия ffprobe.
В логе ошибка: Выполнение программы ...\ffprobe.exe Результат: 1

Agent · 17.01.2026

Действие выполняется, в переменную ничего не записывается (галочка на "Записать STD out" стоит).
Только у меня файл mp3, в примере mp4. Путь свой поставил.
В переменную с ошибкой такое пишется:

Код:

ffmpeg version 2026-01-12-git-21a3e44fbe-full_build-www.gyan.dev Copyright (c) 2000-2026 the FFmpeg developers
  built with gcc 15.2.0 (Rev8, Built by MSYS2 project)
  configuration: --enable-gpl --enable-version3 --enable-static --disable-w32threads --disable-autodetect --enable-cairo --enable-fontconfig --enable-iconv --enable-gnutls --enable-lcms2 --enable-libxml2 --enable-gmp --enable-bzlib --enable-lzma --enable-libsnappy --enable-zlib --enable-librist --enable-libsrt --enable-libssh --enable-libzmq --enable-avisynth --enable-libbluray --enable-libcaca --enable-libdvdnav --enable-libdvdread --enable-sdl2 --enable-libaribb24 --enable-libaribcaption --enable-libdav1d --enable-libdavs2 --enable-libopenjpeg --enable-libquirc --enable-libuavs3d --enable-libxevd --enable-libzvbi --enable-liboapv --enable-libqrencode --enable-librav1e --enable-libsvtav1 --enable-libvvenc --enable-libwebp --enable-libx264 --enable-libx265 --enable-libxavs2 --enable-libxeve --enable-libxvid --enable-libaom --enable-libjxl --enable-libsvtjpegxs --enable-libvpx --enable-mediafoundation --enable-libass --enable-frei0r --enable-libfreetype --enable-libfribidi --enable-libharfbuzz --enable-liblensfun --enable-libvidstab --enable-libvmaf --enable-libzimg --enable-amf --enable-cuda-llvm --enable-cuvid --enable-dxva2 --enable-d3d11va --enable-d3d12va --enable-ffnvcodec --enable-libvpl --enable-nvdec --enable-nvenc --enable-vaapi --enable-libshaderc --enable-vulkan --enable-libplacebo --enable-opencl --enable-libcdio --enable-openal --enable-libgme --enable-libmodplug --enable-libopenmpt --enable-libopencore-amrwb --enable-libmp3lame --enable-libshine --enable-libtheora --enable-libtwolame --enable-libvo-amrwbenc --enable-libcodec2 --enable-libilbc --enable-libgsm --enable-liblc3 --enable-libopencore-amrnb --enable-libopus --enable-libspeex --enable-libvorbis --enable-ladspa --enable-libbs2b --enable-libflite --enable-libmysofa --enable-librubberband --enable-libsoxr --enable-chromaprint --enable-whisper
  libavutil      60. 23.100 / 60. 23.100
  libavcodec     62. 23.102 / 62. 23.102
  libavformat    62.  8.102 / 62.  8.102
  libavdevice    62.  2.100 / 62.  2.100
  libavfilter    11. 10.101 / 11. 10.101
  libswscale      9.  3.100 /  9.  3.100
  libswresample   6.  2.100 /  6.  2.100
Input #0, mp3, from 'C:\ЗДЕСЬ_ПУТЬ\output.mp3':
  Metadata:
    encoder         : Lavf60.16.100
  Duration: 00:01:44.21, start: 0.025057, bitrate: 129 kb/s
  Stream #0:0: Audio: mp3 (mp3float), 44100 Hz, mono, fltp, 128 kb/s, start 0.025057
Stream mapping:
  Stream #0:0 -> #0:0 (mp3 (mp3float) -> pcm_s16le (native))
Press [q] to stop, [?] for help
Output #0, null, to 'pipe:':
  Metadata:
    encoder         : Lavf62.8.102
  Stream #0:0: Audio: pcm_s16le, 44100 Hz, mono, s16, 705 kb/s
    Metadata:
      encoder         : Lavc62.23.102 pcm_s16le
[out#0/null @ 0000026fc9ccf940] video:0KiB audio:8976KiB subtitle:0KiB other streams:0KiB global headers:0KiB muxing overhead: unknown
size=N/A time=00:01:44.21 bitrate=N/A speed=1.83e+03x elapsed=0:00:00.05

P.S. Из темы по ссылке выше код на C# работает. Спасибо!

Agent · 18.01.2026

Еще возник вопрос, хотел попробовать модель tts-1-hd.
Поменял url запроса и модель. После этого запуск ffmpeg.exe не выполняется. Что еще надо подкрутить?

Вот такое в переменной с ошибкой:

Код:

ffmpeg version 2026-01-12-git-21a3e44fbe-full_build-www.gyan.dev Copyright (c) 2000-2026 the FFmpeg developers
  built with gcc 15.2.0 (Rev8, Built by MSYS2 project)
  configuration: --enable-gpl --enable-version3 --enable-static --disable-w32threads --disable-autodetect --enable-cairo --enable-fontconfig --enable-iconv --enable-gnutls --enable-lcms2 --enable-libxml2 --enable-gmp --enable-bzlib --enable-lzma --enable-libsnappy --enable-zlib --enable-librist --enable-libsrt --enable-libssh --enable-libzmq --enable-avisynth --enable-libbluray --enable-libcaca --enable-libdvdnav --enable-libdvdread --enable-sdl2 --enable-libaribb24 --enable-libaribcaption --enable-libdav1d --enable-libdavs2 --enable-libopenjpeg --enable-libquirc --enable-libuavs3d --enable-libxevd --enable-libzvbi --enable-liboapv --enable-libqrencode --enable-librav1e --enable-libsvtav1 --enable-libvvenc --enable-libwebp --enable-libx264 --enable-libx265 --enable-libxavs2 --enable-libxeve --enable-libxvid --enable-libaom --enable-libjxl --enable-libsvtjpegxs --enable-libvpx --enable-mediafoundation --enable-libass --enable-frei0r --enable-libfreetype --enable-libfribidi --enable-libharfbuzz --enable-liblensfun --enable-libvidstab --enable-libvmaf --enable-libzimg --enable-amf --enable-cuda-llvm --enable-cuvid --enable-dxva2 --enable-d3d11va --enable-d3d12va --enable-ffnvcodec --enable-libvpl --enable-nvdec --enable-nvenc --enable-vaapi --enable-libshaderc --enable-vulkan --enable-libplacebo --enable-opencl --enable-libcdio --enable-openal --enable-libgme --enable-libmodplug --enable-libopenmpt --enable-libopencore-amrwb --enable-libmp3lame --enable-libshine --enable-libtheora --enable-libtwolame --enable-libvo-amrwbenc --enable-libcodec2 --enable-libilbc --enable-libgsm --enable-liblc3 --enable-libopencore-amrnb --enable-libopus --enable-libspeex --enable-libvorbis --enable-ladspa --enable-libbs2b --enable-libflite --enable-libmysofa --enable-librubberband --enable-libsoxr --enable-chromaprint --enable-whisper
  libavutil      60. 23.100 / 60. 23.100
  libavcodec     62. 23.102 / 62. 23.102
  libavformat    62.  8.102 / 62.  8.102
  libavdevice    62.  2.100 / 62.  2.100
  libavfilter    11. 10.101 / 11. 10.101
  libswscale      9.  3.100 /  9.  3.100
  libswresample   6.  2.100 /  6.  2.100
[mp3 @ 00000175a8f18400] Format mp3 detected only with low score of 1, misdetection possible!
[mp3 @ 00000175a8f18400] Failed to find two consecutive MPEG audio frames.
[concat @ 00000175a8f17d00] Impossible to open '...OpenAi-TTS\Audio\0.mp3'
[in#0 @ 00000175a8f17a40] Error opening input: Invalid data found when processing input
Error opening input file ...OpenAi-TTS\Audio\list.txt.
Error opening input files: Invalid data found when processing input

С моделью tts-1 баг какой-то есть: самое последнее слово в предложении не озвучивает. Приходится его дублировать.

Agent · 18.01.2026

URL не надо было менять, хотя сам chat gpt сказал сначала такой поставить.

Form · 18.01.2026

Понизьте пожалуйста версию

Emmett_Red · 20.01.2026

А для 7,7,3,0 можно?

slava1975 · 12.02.2026

DrunkDeath сказал(а):
Посмотреть вложение 138778

Небольшой, но удобный шаблон для озвучки текста почти на любой язык от OpenAI. Шаблон работает как с маленькими текстами, так и с большими, разрезая их на части и потом склеивая с помощью FFMPEG. Для работы необходим токен от OpenAI, зарубежная прокся и сам текст, который нужно озвучить. На выбор несколько голосов озвучки. разделённый на мужские и женские.

Посмотреть вложение 138780 Посмотреть вложение 138779

Входные настройки:

Куда скачивать - папка куда будут скачиваться файлы
Откуда брать текст - если короткий текст, то выбираем из входных и вписываем его в текстовое поле ниже
Токен OpenAi - сам токен чата
Прокси - ну тут и ежу понятно. Прокси в формате login:pass@ip:port
Голоса - выбор голоса озвучки

Мужские голоса:

alloy — молодой, энергичный, чёткий
echo — тёплый, уверенный, немного хрипловатый
fable — мягкий, спокойный, чуть мечтательный
onyx — глубокий, грубоватый
sage — зрелый, уравновешенный, интеллигентный тон

Женские голоса:

ash — лёгкий, молодой, нейтрально-дружелюбный
ballad — тёплый, выразительный, с лёгкой эмоциональной окраской
coral — яркий, живой, немного игривый
nova — профессиональный, чёткий, подходит для новостей, озвучки
verse — мягкий, плавный, слегка мелодичный

Как работает шаблон?

Шаблон разделён на два режима: работа с коротким текстом (до 4000 символов включая пробелы и всякие точки), так и с длинными текстами, которые он будет нарезать по 500 символов и потом склеивать. Вся работоспособность зависит только от баланса вашего ключа. Если короткий текст мы пихаем в входные, то длинный в текстовый файл в корневой папке шаблона. На примере длинного текста рассмотрим работу шаблона. Шаблон берёт текст и нарезает его с помощью простого regex [\w\W]{0,500}\s и кладёт в список построчно (500 символов это затычка, резать можно спокойно до 4000 символов, достаточно поменять значение в кубике с regex). Далее берёт каждую строку и экранирует :

Экранирование:

string input = project.Variables["text"].Value; string json = JsonConvert.SerializeObject(input); return json.Substring(1, json.Length - 2);

Далее идёт простой запрос на
https://api.openai.com/v1/audio/speech
:

Посмотреть вложение 138782 Посмотреть вложение 138781

Кстати, кому нужно дороже, но лучше качеством, можно использовать другую модель tts-1-hd вместо tts-1.

Далее перемещает и задаёт имя по счётчику. После завершения скачивания получает все пути файлов и создаёт список для ffmpeg для склейки и выполняет простую команду -f concat -safe 0 -i "{-Variable.folder-}list.txt" -c copy "{-Variable.folder-}output.mp3".

PS: файл ffmpeg слишком жирный и не влез в прикреплённые файлы. Скачайте отдельно последнюю (а по идее любую) версию и киньте в папку с шаблоном

На выходе получаем готовый файл с озвучкой вашего текста. Надеюсь шаблон окажется вам полезен. Всем спасибо.

В ChatGPT «токена чата» не существует

Озвучка текста на любой язык при помощи OpenAI TTS

Client

Вложения

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Вложения

Client

Client

Client

Client

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)