Модели и настройки

Справочник по работе с озвучкой в Sonora: доступные модели синтеза речи, параметры голоса, принцип работы Voice Changer и расчёт стоимости генерации в токенах.

~12 минут · Озвучка

Возможности раздела озвучки

В разделе озвучки доступны две связанные функции:

  • Text to Speech (TTS) — синтез речи из текста. Пользователь выбирает голос, вводит текст или прикрепляет файл .txt, на выходе получает аудиозапись.
  • Voice Changer — замена голоса в готовом аудио или видео. Содержание речи, интонация и тайминг сохраняются, изменяется только тембр говорящего.

Под обеими функциями работают нейросетевые модели. От выбора модели и значений параметров зависят качество звучания, время генерации и стоимость операции в токенах.

Рекомендации по выбору модели

Краткие ориентиры:

  • Эмоциональная подача (озвучка персонажей, реклама, короткие ролики) — Sonora V3.
  • Длинный текст с ровной дикторской подачей (аудиокниги, лекции, обзоры) — Multilingual V2: стабильное звучание, 29 языков, до 10 000 символов за запрос.
  • Минимальная задержка и максимальная экономия (чат-боты, стримы, большие объёмы) — Flash V2.5: задержка около 75 мс, до 25 000 символов за запрос.

Модели TTS

В Sonora доступны четыре модели: одна флагманская, одна универсальная и две быстрых.

Sonora V3

Flagship

Максимальная эмоциональная выразительность, диалоги, акценты.

Лимит символов
3 000
Языков
70+

Multilingual V2

Баланс качества и стабильности. Универсальная модель для длинных текстов.

Лимит символов
10 000
Языков
29

Flash V2.5

Низкая задержка (~75 мс) и сниженная стоимость генерации.

Лимит символов
25 000
Языков
32
Latency
~75 мс

Turbo V2.5

Скорость и стоимость как у Flash V2.5, более естественная интонация.

Лимит символов
25 000
Языков
32
Latency
~75 мс

Сравнительная таблица

Модель Лимит символов Языков Особенность Назначение
Sonora V3 3 000 70+ Эмоциональность, диалоги Реклама, персонажи, ролики до 3 минут
Multilingual V2 10 000 29 Стабильный голос на длинном тексте Аудиокниги, лекции, дикторская подача
Flash V2.5 25 000 32 Низкая задержка, низкая стоимость Чат-боты, стримы, большие объёмы
Turbo V2.5 25 000 32 Баланс скорости и качества Альтернатива Flash V2.5 при недостаточном качестве звучания

Sonora V3

Флагманская модель с наиболее выраженной эмоциональной подачей и контролем интонации через текст. Поддерживает многоголосые диалоги в одном запросе и сохраняет акценты.

Ключевые особенности:

  • 70+ языков — самая широкая локализация среди доступных моделей.
  • Выразительная подача — пригодна для рекламы, кино, игр, контента, требующего актёрской интонации.
  • Многоголосые диалоги — модель различает реплики разных персонажей и сохраняет интонационную целостность.

Ограничения:

  • До 3 000 символов в одном запросе (около 3 минут аудио). Для длинных текстов используйте Multilingual V2 либо разделите текст на части.
  • Повышенная стоимость генерации — модель требует больше времени на обработку.

Multilingual V2

Универсальная модель с ровным, естественным звучанием и умеренной эмоциональной окраской. Подходит для контента, где требуется стабильная дикторская подача: аудиокниги, лекции, обзоры, видео для YouTube.

  • 10 000 символов в одном запросе (около 10 минут аудио).
  • 29 языков, включая русский, английский, испанский, французский, немецкий, итальянский, португальский, польский, японский, китайский, корейский и другие.
  • Сохраняет тембр при переключении между языками в пределах одного запроса.

Flash V2.5

Самая быстрая модель в линейке. Эмоциональная выразительность ниже, чем у Sonora V3 и Multilingual V2, что компенсируется минимальной задержкой и сниженной стоимостью. Рекомендуется для интерактивных сценариев и массовой генерации.

  • ~75 мс задержки на стороне модели (без учёта сетевой задержки).
  • До 25 000 символов в одном запросе.
  • 32 языка.
  • Множитель ×1 — минимальная стоимость в линейке.

Turbo V2.5

Альтернатива Flash V2.5 с той же задержкой и стоимостью, но более естественной интонацией. Рекомендуется в случаях, когда Flash V2.5 звучит недостаточно естественно, а переход на Multilingual V2 нежелателен из-за времени генерации.

  • ~75 мс задержки.
  • До 25 000 символов в одном запросе.
  • 32 языка.
  • Множитель ×1, как у Flash V2.5.

Параметры голоса

После выбора модели и голоса доступны пять параметров. Параметры взаимосвязаны: задание крайних значений одного из них влияет на стабильность остальных.

Стабильность
stability · 0.0 – 1.0 · по умолч. 0.5

Определяет равномерность интонации. Низкие значения дают больше эмоциональной вариативности. Высокие — приближают подачу к монотонной и размеренной.

Высокие значения (0.65–0.75): аудиокниги, длинные нарративы, ровная дикторская подача. Используйте, если интонация на низком значении нестабильна между фрагментами длинного текста.

Низкие значения (0.3–0.5): реклама, реплики персонажей, эмоциональные сцены.

Сходство (similarity)
similarity_boost · 0.0 – 1.0 · по умолч. 0.75

Степень соответствия результата исходному голосу. Высокие значения точнее воспроизводят тембр и манеру, однако увеличивают вероятность переноса дефектов референсной записи (шумы, заминки).

Высокие значения: когда требуется максимально узнаваемое звучание клонированного голоса.

Низкие значения: при наличии шумов или дефектов в исходной записи модель получает больше свободы для их нейтрализации.

Стиль (style)
style · 0.0 – 1.0 · по умолч. 0.0

Степень усиления характерной манеры речи. При нулевом значении модель использует нейтральную подачу; при высоких значениях подчёркивает акценты, паузы и эмоциональные перепады.

0.3–0.5: заметно более выразительное звучание.

0.7 и выше: предельно выразительная подача. Возможны артефакты, особенно на коротких репликах. Время генерации увеличивается.

Скорость речи
speed · 0.7 – 1.2 · по умолч. 1.0

Темп подачи. Значение 1.0 соответствует естественной скорости голоса.

Рекомендуемый рабочий диапазон — 0.9–1.1. Крайние значения (0.7 и 1.2) дают заметно замедленную или ускоренную речь и подходят для специальных сценариев.

Усиление спикера
speaker_boost · вкл / выкл · по умолч. выкл

Дополнительный механизм точного воспроизведения референсного голоса. Применяется при работе с клонированными голосами в случаях, когда значение сходства 0.75 и выше не обеспечивает требуемой узнаваемости.

Время генерации при включённом параметре незначительно увеличивается.

Voice Changer

Voice Changer выполняет замену голоса в готовом аудио или видео. Содержание речи, интонационный рисунок и тайминги сохраняются, изменяется только тембр говорящего.

Поддерживаемые форматы

Принимаются любые медиафайлы из Telegram: видео, аудиофайлы, голосовые сообщения, видеосообщения. Результат возвращается в формате, близком к исходному.

Что сохраняется и что изменяется

  • Сохраняется: текст речи, интонационный рисунок, паузы, эмоции, тайминги, изменения темпа.
  • Изменяется: тембр голоса — звучит как другой человек, при этом эмоции и манера подачи воспроизводятся исходные.

Стоимость Voice Changer и TTS

Стоимость Voice Changer зависит только от длительности исходного аудио и выбранного голоса; модель синтеза в этой операции не участвует. Стоимость TTS определяется моделью, объёмом текста и выбранным голосом. Следствия:

  • Стоимость Voice Changer рассчитывается прямолинейно: 2000 × минуты × множитель голоса.
  • Стоимость TTS можно оптимизировать выбором модели: Flash V2.5 и Turbo V2.5 экономичнее Sonora V3 и Multilingual V2 при том же объёме текста.

Файлы и лимиты

Текстовые файлы для TTS

Для длинных текстов поддерживается загрузка файлов .txt вместо ввода в чат. Максимальный размер — 1 МБ (около 500 000 символов чистого текста).

На содержимое файла действуют те же ограничения по объёму, что и при ручном вводе: текст длиннее лимита выбранной модели не будет обработан. Автоматическое разбиение текста не выполняется — если объём превышает лимит, бот предложит сократить текст или сменить модель.

Цена в токенах

TTS

Базовая стоимость определяется моделью:

  • Sonora V3, Multilingual V2: около 2 токенов на символ текста (множитель модели ×2).
  • Flash V2.5, Turbo V2.5: около 1 токена на символ (множитель ×1, экономичные модели).

Пробелы и знаки препинания учитываются как обычные символы. Минута итогового аудио на быстрых моделях стоит около 2000 токенов, на премиальных — около 4000.

Voice Changer

Стоимость рассчитывается по длительности исходного аудио: 2000 токенов × минуты. Длительность определяется по фактической продолжительности файла.

Множители голосов

Часть голосов из каталога имеют индивидуальный множитель стоимости (×2, ×3 и выше). Множитель применяется и к TTS, и к Voice Changer поверх базовой стоимости и отображается на экране выбора голоса.

  • Клонированные голоса — множитель ×1.
  • Голоса, созданные по промпту — множитель ×1.
  • Премиум-голоса из каталога — множитель ×2, ×3 или выше.

Подробности о клонировании и создании голоса по описанию — в статье «Создание голоса».

FAQ

Какая модель оптимальна для русского языка?

Multilingual V2 обеспечивает наиболее стабильное звучание на русском, в том числе на длинных текстах. Sonora V3 даёт более выраженную эмоциональную подачу, однако в редких словах возможны ошибки в ударении. Flash V2.5 пригодна для большинства задач, но звучит менее выразительно.

Доступно ли клонирование голоса?

Да, функция клонирования доступна в разделе «Создание голоса». Клонированный голос пригоден для всех TTS-моделей и для Voice Changer. Подробности — в статье «Создание голоса».

Почему в результате слышен фоновый шум?

Наиболее частая причина — высокое значение параметра сходства при работе с клонированным голосом, исходная запись которого содержала шум. Снизьте значение сходства до 0.6 или запишите референс в более тихом помещении.

Можно ли озвучить текст длиннее лимита модели?

Автоматическое разбиение текста не предусмотрено. При превышении лимита бот предложит сократить текст или сменить модель. Альтернативный вариант — разделить текст вручную на части в пределах лимита и склеить полученные фрагменты во внешнем редакторе.

Что происходит с токенами при ошибке генерации?

При неуспешной генерации токены не списываются. Sonora резервирует их до начала операции и автоматически возвращает на баланс, если произошла ошибка либо операция была отменена.