Создание голоса: клонирование и генерация по описанию

Помимо каталога предустановленных голосов Sonora поддерживает два способа создания собственного голоса: клонирование из аудиозаписи и генерация по текстовому описанию. Готовый голос доступен во всех функциях — TTS и Voice Changer.

~8 минут · Голоса

Два способа создать голос

Sonora предоставляет две функции для добавления собственного голоса в личную библиотеку:

  • Клонирование (Voice Cloning) — создание копии существующего голоса по аудиозаписи. Сохраняются тембр, манера речи, индивидуальные особенности произношения.
  • Генерация по описанию (Voice Design) — создание нового голоса по текстовому описанию характеристик.

Оба варианта создают голос со множителем стоимости ×1 — использование собственного голоса в TTS и Voice Changer оплачивается по базовой цене модели без дополнительных надбавок.

Клонирование голоса

Функция доступна на платных тарифах. Пользователь загружает одну или несколько аудиозаписей, Sonora сохраняет идентификатор полученного голоса в личной библиотеке.

Требования к аудиозаписям

  • Количество файлов: до 5 за один запрос.
  • Размер файла: до 10 МБ.
  • Длительность каждой записи: от 5 секунд до 10 минут.
  • Рекомендуемая общая длительность: от 5 минут чистого голоса целевого спикера.
  • Форматы: MP3, WAV, OGG, M4A и другие аудиоформаты.

Качество записи

Качество клонированного голоса напрямую зависит от качества исходных записей. Рекомендации:

  • Запись производится в тихом помещении с минимальным эхом.
  • Один спикер в кадре — записи с несколькими голосами не подходят.
  • Желательны эмоционально насыщенные фрагменты речи и характерные интонации — это сохраняется в модели.
  • Музыка и фоновый шум автоматически удаляются, но сильный шум всё равно снижает точность клона.

Лимиты по тарифам

Тариф Голосов в библиотеке
CREATOR 1 голос
PRO до 3 голосов
VIP до 5 голосов

При достижении лимита для добавления нового голоса требуется удалить один из имеющихся клонов через настройки или повысить тариф.

Стоимость и кулдаун

  • Стоимость: 600 токенов за один клон.
  • Кулдаун: 60 секунд между попытками клонирования.

Генерация голоса по описанию

Альтернатива клонированию: голос создаётся по текстовому описанию его характеристик. Подходит для случаев, когда нужен оригинальный голос под конкретный образ — без живой записи.

Как это работает

  1. Пользователь указывает название будущего голоса и пишет промпт-описание (до 500 символов).
  2. Sonora генерирует несколько вариантов превью на основе описания.
  3. Пользователь прослушивает варианты и выбирает наиболее подходящий.
  4. Выбранный вариант сохраняется в личную библиотеку и становится доступен в TTS и Voice Changer.

Промпт-описание голоса

Описание задаётся свободным текстом. Полезно указывать:

  • Возраст и пол: «молодой мужской голос», «зрелая женщина около 40 лет».
  • Тембр и характер звучания: «низкий бархатистый», «тёплый дружелюбный», «жёсткий, прокуренный».
  • Эмоциональная окраска: «спокойный и размеренный», «энергичный и быстрый», «уверенный, убедительный».
  • Контекст использования: «для обучающих видео», «для рекламных роликов», «для аудиокниги в жанре триллер».
Молодой мужской голос с тёплым тембром,
дружелюбный и энергичный,
подходящий для озвучивания обучающих видео.

Текст превью

Sonora озвучивает каждый сгенерированный вариант коротким примером. Текст для примера может быть:

  • Сгенерирован автоматически на основе описания голоса — это вариант по умолчанию.
  • Задан вручную — текст до 500 символов, переданный пользователем. Удобно для сравнения вариантов на реальной целевой фразе.

Стоимость

  • Генерация превью: 700 токенов за один запрос (несколько вариантов в одном результате).
  • Сохранение выбранного варианта в библиотеку: бесплатно.

Каждая повторная генерация с новым описанием — отдельный запрос и отдельное списание. Перед сохранением имеет смысл прослушать все варианты текущей генерации, чтобы не тратить токены на повторы.

Когда какой способ выбрать

Критерий Клонирование Генерация по описанию
Источник Аудиозапись существующего голоса Текстовое описание
Стоимость 600 токенов 700 токенов за пакет превью
Точность Максимальная — копия конкретного голоса Соответствует описанию, но не воспроизводит реальный голос
Подходит для Собственного голоса, голоса диктора, конкретного спикера Оригинальных персонажей, брендовых голосов
Требования До 5 файлов, от 5 минут чистого аудио рекомендовано Промпт до 500 символов

FAQ

Где находится функция в боте?

Раздел «Создание голоса» открывается из меню бота или командой /clone. На странице создания доступны обе вкладки — клонирование и генерация по описанию.

Как использовать созданный голос?

Голос автоматически добавляется в личную библиотеку и появляется в списке голосов в TTS и Voice Changer. Выберите его так же, как любой голос из каталога Sonora.

Каков множитель стоимости?

Клонированные голоса и голоса, созданные по описанию, имеют множитель ×1. Это означает, что генерация TTS и Voice Changer с их использованием оплачивается по базовой цене модели без надбавок. Премиум-голоса из каталога имеют множители ×2, ×3 и выше — подробности в статье «Модели и настройки».

Как удалить созданный голос?

Удаление выполняется в настройках бота или в списке клонированных голосов. После удаления освобождается слот в библиотеке, и можно добавить новый голос.

Голос звучит неестественно. Что делать?

Для клонированного голоса наиболее частые причины: фоновый шум в исходных записях, недостаточный объём материала, низкое качество звукозаписи. Перезапишите референс в более тихом помещении или добавьте больше аудио — общий объём от 5 минут заметно повышает качество.

Для голоса, созданного по описанию: попробуйте другой промпт, указав конкретные характеристики тембра и эмоциональной окраски, или сгенерируйте новый набор вариантов.