Создание голоса: клонирование и генерация по описанию
Помимо каталога предустановленных голосов Sonora поддерживает два способа создания собственного голоса: клонирование из аудиозаписи и генерация по текстовому описанию. Готовый голос доступен во всех функциях — TTS и Voice Changer.
Два способа создать голос
Sonora предоставляет две функции для добавления собственного голоса в личную библиотеку:
- Клонирование (Voice Cloning) — создание копии существующего голоса по аудиозаписи. Сохраняются тембр, манера речи, индивидуальные особенности произношения.
- Генерация по описанию (Voice Design) — создание нового голоса по текстовому описанию характеристик.
Оба варианта создают голос со множителем стоимости ×1 — использование собственного голоса в TTS и Voice Changer оплачивается по базовой цене модели без дополнительных надбавок.
Клонирование голоса
Функция доступна на платных тарифах. Пользователь загружает одну или несколько аудиозаписей, Sonora сохраняет идентификатор полученного голоса в личной библиотеке.
Требования к аудиозаписям
- Количество файлов: до 5 за один запрос.
- Размер файла: до 10 МБ.
- Длительность каждой записи: от 5 секунд до 10 минут.
- Рекомендуемая общая длительность: от 5 минут чистого голоса целевого спикера.
- Форматы: MP3, WAV, OGG, M4A и другие аудиоформаты.
Качество записи
Качество клонированного голоса напрямую зависит от качества исходных записей. Рекомендации:
- Запись производится в тихом помещении с минимальным эхом.
- Один спикер в кадре — записи с несколькими голосами не подходят.
- Желательны эмоционально насыщенные фрагменты речи и характерные интонации — это сохраняется в модели.
- Музыка и фоновый шум автоматически удаляются, но сильный шум всё равно снижает точность клона.
Лимиты по тарифам
| Тариф | Голосов в библиотеке |
|---|---|
| CREATOR | 1 голос |
| PRO | до 3 голосов |
| VIP | до 5 голосов |
При достижении лимита для добавления нового голоса требуется удалить один из имеющихся клонов через настройки или повысить тариф.
Стоимость и кулдаун
- Стоимость: 600 токенов за один клон.
- Кулдаун: 60 секунд между попытками клонирования.
Генерация голоса по описанию
Альтернатива клонированию: голос создаётся по текстовому описанию его характеристик. Подходит для случаев, когда нужен оригинальный голос под конкретный образ — без живой записи.
Как это работает
- Пользователь указывает название будущего голоса и пишет промпт-описание (до 500 символов).
- Sonora генерирует несколько вариантов превью на основе описания.
- Пользователь прослушивает варианты и выбирает наиболее подходящий.
- Выбранный вариант сохраняется в личную библиотеку и становится доступен в TTS и Voice Changer.
Промпт-описание голоса
Описание задаётся свободным текстом. Полезно указывать:
- Возраст и пол: «молодой мужской голос», «зрелая женщина около 40 лет».
- Тембр и характер звучания: «низкий бархатистый», «тёплый дружелюбный», «жёсткий, прокуренный».
- Эмоциональная окраска: «спокойный и размеренный», «энергичный и быстрый», «уверенный, убедительный».
- Контекст использования: «для обучающих видео», «для рекламных роликов», «для аудиокниги в жанре триллер».
Молодой мужской голос с тёплым тембром,
дружелюбный и энергичный,
подходящий для озвучивания обучающих видео.
Текст превью
Sonora озвучивает каждый сгенерированный вариант коротким примером. Текст для примера может быть:
- Сгенерирован автоматически на основе описания голоса — это вариант по умолчанию.
- Задан вручную — текст до 500 символов, переданный пользователем. Удобно для сравнения вариантов на реальной целевой фразе.
Стоимость
- Генерация превью: 700 токенов за один запрос (несколько вариантов в одном результате).
- Сохранение выбранного варианта в библиотеку: бесплатно.
Каждая повторная генерация с новым описанием — отдельный запрос и отдельное списание. Перед сохранением имеет смысл прослушать все варианты текущей генерации, чтобы не тратить токены на повторы.
Когда какой способ выбрать
| Критерий | Клонирование | Генерация по описанию |
|---|---|---|
| Источник | Аудиозапись существующего голоса | Текстовое описание |
| Стоимость | 600 токенов | 700 токенов за пакет превью |
| Точность | Максимальная — копия конкретного голоса | Соответствует описанию, но не воспроизводит реальный голос |
| Подходит для | Собственного голоса, голоса диктора, конкретного спикера | Оригинальных персонажей, брендовых голосов |
| Требования | До 5 файлов, от 5 минут чистого аудио рекомендовано | Промпт до 500 символов |
FAQ
Где находится функция в боте?
Раздел «Создание голоса» открывается из меню бота или командой
/clone. На странице создания доступны обе вкладки —
клонирование и генерация по описанию.
Как использовать созданный голос?
Голос автоматически добавляется в личную библиотеку и появляется в списке голосов в TTS и Voice Changer. Выберите его так же, как любой голос из каталога Sonora.
Каков множитель стоимости?
Клонированные голоса и голоса, созданные по описанию, имеют множитель ×1. Это означает, что генерация TTS и Voice Changer с их использованием оплачивается по базовой цене модели без надбавок. Премиум-голоса из каталога имеют множители ×2, ×3 и выше — подробности в статье «Модели и настройки».
Как удалить созданный голос?
Удаление выполняется в настройках бота или в списке клонированных голосов. После удаления освобождается слот в библиотеке, и можно добавить новый голос.
Голос звучит неестественно. Что делать?
Для клонированного голоса наиболее частые причины: фоновый шум в исходных записях, недостаточный объём материала, низкое качество звукозаписи. Перезапишите референс в более тихом помещении или добавьте больше аудио — общий объём от 5 минут заметно повышает качество.
Для голоса, созданного по описанию: попробуйте другой промпт, указав конкретные характеристики тембра и эмоциональной окраски, или сгенерируйте новый набор вариантов.