Модели и настройки

Справочник по работе с озвучкой в Sonora: доступные модели синтеза речи, параметры голоса, принцип работы Voice Changer и расчёт стоимости генерации в токенах.

~12 минут · Озвучка

Возможности раздела озвучки

В разделе озвучки доступны две связанные функции:

Text to Speech (TTS) — синтез речи из текста. Пользователь выбирает голос, вводит текст или прикрепляет файл .txt, на выходе получает аудиозапись.
Voice Changer — замена голоса в готовом аудио или видео. Содержание речи, интонация и тайминг сохраняются, изменяется только тембр говорящего.

Под обеими функциями работают нейросетевые модели. От выбора модели и значений параметров зависят качество звучания, время генерации и стоимость операции в токенах.

Модели TTS

В Sonora доступны четыре модели: одна флагманская, одна универсальная и две быстрых.

Sonora V3

Flagship

Максимальная эмоциональная выразительность, диалоги, акценты.

Лимит символов: 3 000
Языков: 70+

Multilingual V2

Баланс качества и стабильности. Универсальная модель для длинных текстов.

Лимит символов: 10 000
Языков: 29

Flash V2.5

Низкая задержка (~75 мс) и сниженная стоимость генерации.

Лимит символов: 25 000
Языков: 32
Latency: ~75 мс

Turbo V2.5

Скорость и стоимость как у Flash V2.5, более естественная интонация.

Лимит символов: 25 000
Языков: 32
Latency: ~75 мс

Сравнительная таблица

Модель	Лимит символов	Языков	Особенность	Назначение
Sonora V3	3 000	70+	Эмоциональность, диалоги	Реклама, персонажи, ролики до 3 минут
Multilingual V2	10 000	29	Стабильный голос на длинном тексте	Аудиокниги, лекции, дикторская подача
Flash V2.5	25 000	32	Низкая задержка, низкая стоимость	Чат-боты, стримы, большие объёмы
Turbo V2.5	25 000	32	Баланс скорости и качества	Альтернатива Flash V2.5 при недостаточном качестве звучания

Sonora V3

Флагманская модель с наиболее выраженной эмоциональной подачей и контролем интонации через текст. Поддерживает многоголосые диалоги в одном запросе и сохраняет акценты.

Ключевые особенности:

70+ языков — самая широкая локализация среди доступных моделей.
Выразительная подача — пригодна для рекламы, кино, игр, контента, требующего актёрской интонации.
Многоголосые диалоги — модель различает реплики разных персонажей и сохраняет интонационную целостность.

Ограничения:

До 3 000 символов в одном запросе (около 3 минут аудио). Для длинных текстов используйте Multilingual V2 либо разделите текст на части.
Повышенная стоимость генерации — модель требует больше времени на обработку.

Multilingual V2

Универсальная модель с ровным, естественным звучанием и умеренной эмоциональной окраской. Подходит для контента, где требуется стабильная дикторская подача: аудиокниги, лекции, обзоры, видео для YouTube.

10 000 символов в одном запросе (около 10 минут аудио).
29 языков, включая русский, английский, испанский, французский, немецкий, итальянский, португальский, польский, японский, китайский, корейский и другие.
Сохраняет тембр при переключении между языками в пределах одного запроса.

Flash V2.5

Самая быстрая модель в линейке. Эмоциональная выразительность ниже, чем у Sonora V3 и Multilingual V2, что компенсируется минимальной задержкой и сниженной стоимостью. Рекомендуется для интерактивных сценариев и массовой генерации.

~75 мс задержки на стороне модели (без учёта сетевой задержки).
До 25 000 символов в одном запросе.
32 языка.
Множитель ×1 — минимальная стоимость в линейке.

Turbo V2.5

Альтернатива Flash V2.5 с той же задержкой и стоимостью, но более естественной интонацией. Рекомендуется в случаях, когда Flash V2.5 звучит недостаточно естественно, а переход на Multilingual V2 нежелателен из-за времени генерации.

~75 мс задержки.
До 25 000 символов в одном запросе.
32 языка.
Множитель ×1, как у Flash V2.5.

Параметры голоса

После выбора модели и голоса доступны пять параметров. Параметры взаимосвязаны: задание крайних значений одного из них влияет на стабильность остальных.

Стабильность

stability · 0.0 – 1.0 · по умолч. 0.5

Определяет равномерность интонации. Низкие значения дают больше эмоциональной вариативности. Высокие — приближают подачу к монотонной и размеренной.

Высокие значения (0.65–0.75): аудиокниги, длинные нарративы, ровная дикторская подача. Используйте, если интонация на низком значении нестабильна между фрагментами длинного текста.

Низкие значения (0.3–0.5): реклама, реплики персонажей, эмоциональные сцены.

Сходство (similarity)

similarity_boost · 0.0 – 1.0 · по умолч. 0.75

Степень соответствия результата исходному голосу. Высокие значения точнее воспроизводят тембр и манеру, однако увеличивают вероятность переноса дефектов референсной записи (шумы, заминки).

Высокие значения: когда требуется максимально узнаваемое звучание клонированного голоса.

Низкие значения: при наличии шумов или дефектов в исходной записи модель получает больше свободы для их нейтрализации.

Стиль (style)

style · 0.0 – 1.0 · по умолч. 0.0

Степень усиления характерной манеры речи. При нулевом значении модель использует нейтральную подачу; при высоких значениях подчёркивает акценты, паузы и эмоциональные перепады.

0.3–0.5: заметно более выразительное звучание.

0.7 и выше: предельно выразительная подача. Возможны артефакты, особенно на коротких репликах. Время генерации увеличивается.

Скорость речи

speed · 0.7 – 1.2 · по умолч. 1.0

Темп подачи. Значение 1.0 соответствует естественной скорости голоса.

Рекомендуемый рабочий диапазон — 0.9–1.1. Крайние значения (0.7 и 1.2) дают заметно замедленную или ускоренную речь и подходят для специальных сценариев.

Усиление спикера

speaker_boost · вкл / выкл · по умолч. выкл

Дополнительный механизм точного воспроизведения референсного голоса. Применяется при работе с клонированными голосами в случаях, когда значение сходства 0.75 и выше не обеспечивает требуемой узнаваемости.

Время генерации при включённом параметре незначительно увеличивается.

Voice Changer

Voice Changer выполняет замену голоса в готовом аудио или видео. Содержание речи, интонационный рисунок и тайминги сохраняются, изменяется только тембр говорящего.

Поддерживаемые форматы

Принимаются любые медиафайлы из Telegram: видео, аудиофайлы, голосовые сообщения, видеосообщения. Результат возвращается в формате, близком к исходному.

Что сохраняется и что изменяется

Сохраняется: текст речи, интонационный рисунок, паузы, эмоции, тайминги, изменения темпа.
Изменяется: тембр голоса — звучит как другой человек, при этом эмоции и манера подачи воспроизводятся исходные.

Стоимость Voice Changer и TTS

Стоимость Voice Changer зависит только от длительности исходного аудио и выбранного голоса; модель синтеза в этой операции не участвует. Стоимость TTS определяется моделью, объёмом текста и выбранным голосом. Следствия:

Стоимость Voice Changer рассчитывается прямолинейно: 2000 × минуты × множитель голоса.
Стоимость TTS можно оптимизировать выбором модели: Flash V2.5 и Turbo V2.5 экономичнее Sonora V3 и Multilingual V2 при том же объёме текста.

Файлы и лимиты

Текстовые файлы для TTS

Для длинных текстов поддерживается загрузка файлов .txt вместо ввода в чат. Максимальный размер — 1 МБ (около 500 000 символов чистого текста).

На содержимое файла действуют те же ограничения по объёму, что и при ручном вводе: текст длиннее лимита выбранной модели не будет обработан. Автоматическое разбиение текста не выполняется — если объём превышает лимит, бот предложит сократить текст или сменить модель.

Цена в токенах

TTS

Базовая стоимость определяется моделью:

Sonora V3, Multilingual V2: около 2 токенов на символ текста (множитель модели ×2).
Flash V2.5, Turbo V2.5: около 1 токена на символ (множитель ×1, экономичные модели).

Пробелы и знаки препинания учитываются как обычные символы. Минута итогового аудио на быстрых моделях стоит около 2000 токенов, на премиальных — около 4000.

Voice Changer

Стоимость рассчитывается по длительности исходного аудио: 2000 токенов × минуты. Длительность определяется по фактической продолжительности файла.

Множители голосов

Часть голосов из каталога имеют индивидуальный множитель стоимости (×2, ×3 и выше). Множитель применяется и к TTS, и к Voice Changer поверх базовой стоимости и отображается на экране выбора голоса.

Клонированные голоса — множитель ×1.
Голоса, созданные по промпту — множитель ×1.
Премиум-голоса из каталога — множитель ×2, ×3 или выше.

Подробности о клонировании и создании голоса по описанию — в статье «Создание голоса».

FAQ

Какая модель оптимальна для русского языка?

Multilingual V2 обеспечивает наиболее стабильное звучание на русском, в том числе на длинных текстах. Sonora V3 даёт более выраженную эмоциональную подачу, однако в редких словах возможны ошибки в ударении. Flash V2.5 пригодна для большинства задач, но звучит менее выразительно.

Доступно ли клонирование голоса?

Да, функция клонирования доступна в разделе «Создание голоса». Клонированный голос пригоден для всех TTS-моделей и для Voice Changer. Подробности — в статье «Создание голоса».

Почему в результате слышен фоновый шум?

Наиболее частая причина — высокое значение параметра сходства при работе с клонированным голосом, исходная запись которого содержала шум. Снизьте значение сходства до 0.6 или запишите референс в более тихом помещении.

Можно ли озвучить текст длиннее лимита модели?

Автоматическое разбиение текста не предусмотрено. При превышении лимита бот предложит сократить текст или сменить модель. Альтернативный вариант — разделить текст вручную на части в пределах лимита и склеить полученные фрагменты во внешнем редакторе.

Что происходит с токенами при ошибке генерации?

При неуспешной генерации токены не списываются. Sonora резервирует их до начала операции и автоматически возвращает на баланс, если произошла ошибка либо операция была отменена.

Модели и настройки

Возможности раздела озвучки

Рекомендации по выбору модели

Модели TTS

Сравнительная таблица

Sonora V3

Multilingual V2

Flash V2.5

Turbo V2.5

Параметры голоса

Voice Changer

Поддерживаемые форматы

Что сохраняется и что изменяется

Стоимость Voice Changer и TTS

Файлы и лимиты

Текстовые файлы для TTS

Цена в токенах

TTS

Voice Changer

Множители голосов

FAQ

Какая модель оптимальна для русского языка?

Доступно ли клонирование голоса?

Почему в результате слышен фоновый шум?

Можно ли озвучить текст длиннее лимита модели?

Что происходит с токенами при ошибке генерации?