Модели и настройки
Справочник по работе с озвучкой в Sonora: доступные модели синтеза речи, параметры голоса, принцип работы Voice Changer и расчёт стоимости генерации в токенах.
Возможности раздела озвучки
В разделе озвучки доступны две связанные функции:
- Text to Speech (TTS) — синтез речи из текста.
Пользователь выбирает голос, вводит текст или прикрепляет файл
.txt, на выходе получает аудиозапись. - Voice Changer — замена голоса в готовом аудио или видео. Содержание речи, интонация и тайминг сохраняются, изменяется только тембр говорящего.
Под обеими функциями работают нейросетевые модели. От выбора модели и значений параметров зависят качество звучания, время генерации и стоимость операции в токенах.
Рекомендации по выбору модели
Краткие ориентиры:
- Эмоциональная подача (озвучка персонажей, реклама, короткие ролики) — Sonora V3.
- Длинный текст с ровной дикторской подачей (аудиокниги, лекции, обзоры) — Multilingual V2: стабильное звучание, 29 языков, до 10 000 символов за запрос.
- Минимальная задержка и максимальная экономия (чат-боты, стримы, большие объёмы) — Flash V2.5: задержка около 75 мс, до 25 000 символов за запрос.
Модели TTS
В Sonora доступны четыре модели: одна флагманская, одна универсальная и две быстрых.
Sonora V3
FlagshipМаксимальная эмоциональная выразительность, диалоги, акценты.
- Лимит символов
- 3 000
- Языков
- 70+
Multilingual V2
Баланс качества и стабильности. Универсальная модель для длинных текстов.
- Лимит символов
- 10 000
- Языков
- 29
Flash V2.5
Низкая задержка (~75 мс) и сниженная стоимость генерации.
- Лимит символов
- 25 000
- Языков
- 32
- Latency
- ~75 мс
Turbo V2.5
Скорость и стоимость как у Flash V2.5, более естественная интонация.
- Лимит символов
- 25 000
- Языков
- 32
- Latency
- ~75 мс
Сравнительная таблица
| Модель | Лимит символов | Языков | Особенность | Назначение |
|---|---|---|---|---|
| Sonora V3 | 3 000 | 70+ | Эмоциональность, диалоги | Реклама, персонажи, ролики до 3 минут |
| Multilingual V2 | 10 000 | 29 | Стабильный голос на длинном тексте | Аудиокниги, лекции, дикторская подача |
| Flash V2.5 | 25 000 | 32 | Низкая задержка, низкая стоимость | Чат-боты, стримы, большие объёмы |
| Turbo V2.5 | 25 000 | 32 | Баланс скорости и качества | Альтернатива Flash V2.5 при недостаточном качестве звучания |
Sonora V3
Флагманская модель с наиболее выраженной эмоциональной подачей и контролем интонации через текст. Поддерживает многоголосые диалоги в одном запросе и сохраняет акценты.
Ключевые особенности:
- 70+ языков — самая широкая локализация среди доступных моделей.
- Выразительная подача — пригодна для рекламы, кино, игр, контента, требующего актёрской интонации.
- Многоголосые диалоги — модель различает реплики разных персонажей и сохраняет интонационную целостность.
Ограничения:
- До 3 000 символов в одном запросе (около 3 минут аудио). Для длинных текстов используйте Multilingual V2 либо разделите текст на части.
- Повышенная стоимость генерации — модель требует больше времени на обработку.
Multilingual V2
Универсальная модель с ровным, естественным звучанием и умеренной эмоциональной окраской. Подходит для контента, где требуется стабильная дикторская подача: аудиокниги, лекции, обзоры, видео для YouTube.
- 10 000 символов в одном запросе (около 10 минут аудио).
- 29 языков, включая русский, английский, испанский, французский, немецкий, итальянский, португальский, польский, японский, китайский, корейский и другие.
- Сохраняет тембр при переключении между языками в пределах одного запроса.
Flash V2.5
Самая быстрая модель в линейке. Эмоциональная выразительность ниже, чем у Sonora V3 и Multilingual V2, что компенсируется минимальной задержкой и сниженной стоимостью. Рекомендуется для интерактивных сценариев и массовой генерации.
- ~75 мс задержки на стороне модели (без учёта сетевой задержки).
- До 25 000 символов в одном запросе.
- 32 языка.
- Множитель ×1 — минимальная стоимость в линейке.
Turbo V2.5
Альтернатива Flash V2.5 с той же задержкой и стоимостью, но более естественной интонацией. Рекомендуется в случаях, когда Flash V2.5 звучит недостаточно естественно, а переход на Multilingual V2 нежелателен из-за времени генерации.
- ~75 мс задержки.
- До 25 000 символов в одном запросе.
- 32 языка.
- Множитель ×1, как у Flash V2.5.
Параметры голоса
После выбора модели и голоса доступны пять параметров. Параметры взаимосвязаны: задание крайних значений одного из них влияет на стабильность остальных.
Определяет равномерность интонации. Низкие значения дают больше эмоциональной вариативности. Высокие — приближают подачу к монотонной и размеренной.
Высокие значения (0.65–0.75): аудиокниги, длинные нарративы, ровная дикторская подача. Используйте, если интонация на низком значении нестабильна между фрагментами длинного текста.
Низкие значения (0.3–0.5): реклама, реплики персонажей, эмоциональные сцены.
Степень соответствия результата исходному голосу. Высокие значения точнее воспроизводят тембр и манеру, однако увеличивают вероятность переноса дефектов референсной записи (шумы, заминки).
Высокие значения: когда требуется максимально узнаваемое звучание клонированного голоса.
Низкие значения: при наличии шумов или дефектов в исходной записи модель получает больше свободы для их нейтрализации.
Степень усиления характерной манеры речи. При нулевом значении модель использует нейтральную подачу; при высоких значениях подчёркивает акценты, паузы и эмоциональные перепады.
0.3–0.5: заметно более выразительное звучание.
0.7 и выше: предельно выразительная подача. Возможны артефакты, особенно на коротких репликах. Время генерации увеличивается.
Темп подачи. Значение 1.0 соответствует естественной скорости голоса.
Рекомендуемый рабочий диапазон — 0.9–1.1. Крайние значения (0.7 и 1.2) дают заметно замедленную или ускоренную речь и подходят для специальных сценариев.
Дополнительный механизм точного воспроизведения референсного голоса. Применяется при работе с клонированными голосами в случаях, когда значение сходства 0.75 и выше не обеспечивает требуемой узнаваемости.
Время генерации при включённом параметре незначительно увеличивается.
Voice Changer
Voice Changer выполняет замену голоса в готовом аудио или видео. Содержание речи, интонационный рисунок и тайминги сохраняются, изменяется только тембр говорящего.
Поддерживаемые форматы
Принимаются любые медиафайлы из Telegram: видео, аудиофайлы, голосовые сообщения, видеосообщения. Результат возвращается в формате, близком к исходному.
Что сохраняется и что изменяется
- Сохраняется: текст речи, интонационный рисунок, паузы, эмоции, тайминги, изменения темпа.
- Изменяется: тембр голоса — звучит как другой человек, при этом эмоции и манера подачи воспроизводятся исходные.
Стоимость Voice Changer и TTS
Стоимость Voice Changer зависит только от длительности исходного аудио и выбранного голоса; модель синтеза в этой операции не участвует. Стоимость TTS определяется моделью, объёмом текста и выбранным голосом. Следствия:
- Стоимость Voice Changer рассчитывается прямолинейно: 2000 × минуты × множитель голоса.
- Стоимость TTS можно оптимизировать выбором модели: Flash V2.5 и Turbo V2.5 экономичнее Sonora V3 и Multilingual V2 при том же объёме текста.
Файлы и лимиты
Текстовые файлы для TTS
Для длинных текстов поддерживается загрузка файлов .txt
вместо ввода в чат. Максимальный размер — 1 МБ (около
500 000 символов чистого текста).
На содержимое файла действуют те же ограничения по объёму, что и при ручном вводе: текст длиннее лимита выбранной модели не будет обработан. Автоматическое разбиение текста не выполняется — если объём превышает лимит, бот предложит сократить текст или сменить модель.
Цена в токенах
TTS
Базовая стоимость определяется моделью:
- Sonora V3, Multilingual V2: около 2 токенов на символ текста (множитель модели ×2).
- Flash V2.5, Turbo V2.5: около 1 токена на символ (множитель ×1, экономичные модели).
Пробелы и знаки препинания учитываются как обычные символы. Минута итогового аудио на быстрых моделях стоит около 2000 токенов, на премиальных — около 4000.
Voice Changer
Стоимость рассчитывается по длительности исходного аудио: 2000 токенов × минуты. Длительность определяется по фактической продолжительности файла.
Множители голосов
Часть голосов из каталога имеют индивидуальный множитель стоимости (×2, ×3 и выше). Множитель применяется и к TTS, и к Voice Changer поверх базовой стоимости и отображается на экране выбора голоса.
- Клонированные голоса — множитель ×1.
- Голоса, созданные по промпту — множитель ×1.
- Премиум-голоса из каталога — множитель ×2, ×3 или выше.
Подробности о клонировании и создании голоса по описанию — в статье «Создание голоса».
FAQ
Какая модель оптимальна для русского языка?
Multilingual V2 обеспечивает наиболее стабильное звучание на русском, в том числе на длинных текстах. Sonora V3 даёт более выраженную эмоциональную подачу, однако в редких словах возможны ошибки в ударении. Flash V2.5 пригодна для большинства задач, но звучит менее выразительно.
Доступно ли клонирование голоса?
Да, функция клонирования доступна в разделе «Создание голоса». Клонированный голос пригоден для всех TTS-моделей и для Voice Changer. Подробности — в статье «Создание голоса».
Почему в результате слышен фоновый шум?
Наиболее частая причина — высокое значение параметра сходства при работе с клонированным голосом, исходная запись которого содержала шум. Снизьте значение сходства до 0.6 или запишите референс в более тихом помещении.
Можно ли озвучить текст длиннее лимита модели?
Автоматическое разбиение текста не предусмотрено. При превышении лимита бот предложит сократить текст или сменить модель. Альтернативный вариант — разделить текст вручную на части в пределах лимита и склеить полученные фрагменты во внешнем редакторе.
Что происходит с токенами при ошибке генерации?
При неуспешной генерации токены не списываются. Sonora резервирует их до начала операции и автоматически возвращает на баланс, если произошла ошибка либо операция была отменена.