В предыдущей части мы поговорили о двух подходах к решению задачи Text-to-Speech: Конкатенативном и Параметрическом. Сейчас мы посмотрим на гибридный подход и поговорим о том, из каких этапов состоит реализующая его система.
Напомню, что в основе параметрического метода лежит идея о построении вероятностной модели, которая оценивает распределение акустических признаков заданного текста. Давайте посмотрим на гибридный подход, который во многом опирается на параметрический, но также включает методы глубокого обучения.
Hybrid (Deep Learning) synthesis
Подход, основанный на DNN (глубокой нейронной сети), является еще одним вариантом подходов к статистическому синтезу, который используется для преодоления неэффективности деревьев решений, используемых в скрытых марковских моделях для моделирования сложных контекстных зависимостей. Шагом вперед и возможным прорывом стало предоставление машинам возможностей проектирования признаков без вмешательства человека. Признаки, разработанные людьми, основаны на нашем понимании речи, но это не всегда применимо для компьютеров. В методах DNN взаимосвязь между входными текстами и их акустическими реализациями моделируется DNN. Акустические характеристики создаются с использованием генерации параметров максимального правдоподобия. Характеристики, полученные с помощью глубокого обучения, не читаются человеком, но они читаются компьютером и представляют данные, необходимые для модели.
Достоинства
- Огромное улучшение как с точки зрения разборчивости, так и естественности;
- Не требуют обширной предварительной обработки человеком и разработки функций
Недостатки
- Как недавняя разработка, методы синтеза речи с глубоким обучением все еще требуют исследований.
Система синтеза речи
Процесс генерации речи в параметрическом/гибридном синтезе можно разделить на следующие этапы:
- Предобработка - получение на выходе контекстно-зависимых лингвистических признаков:
- Нормализация текста - перевод различных небуквенных символов в словесные интерпретации, удаление некоторых символов и т.д.
- Извлечение лингвистических признаков из нормализованного текста: фонемное представление, ударения, части речи и так далее.
- Применение Duration model - предсказание длительности фонем.
- Применение Акустической модели - восстановление распределения акустических признаков на основе лингвистических. К таким признакам относятся значения фундаментальной частоты, спектральное представление сигнала и так далее.
- Применение Вокодера - трансляция акустических признаков в звуковую волну.
Для того, чтобы обучить duration модель могут применяться как Марковские модели (классический параметрический подход), так и глубокие нейронные сети.
В свою очередь вокодер, как правило, представляет собой алгоритм, применяющий source-filter модели, что предполагает речь как результат применения линейного фильтра шума к начальному сигналу. В целом, качество речи традиционных параметрических методов является достаточно низким из-за большого количества независимых предположений об устройстве процесса генерации звука.
Но вместе с повсеместным распространением глубокого обучения слово возможным создавать end-to-end модели. Они в свою очередь предсказывают акустические признаки по буквам. Примерами таких сетей являются Tacotron [1] и Tacotron 2 [2], которые принимаю последовательность букв, а на выходе возвращают мел-спектрограмму.
На изображении ниже можно увидеть архитектуру Tacotron 2, которая позволяет получать достаточно чистое звучание.
Еще одним фактором, который позитивно повлиял на качество синтезированной речи, стало внедрение нейросетевых вокодеров, которые заменили алгоритмы цифровой обработки сигналов. Примером такого вокодера является нейронная сеть WaveNet [3], которая последовательно предсказывает значение амплитуды звуковой волны.
Ввиду использования большого количества сверхточных слоев, применения пропусков и skip connections для захвата большего контекста, архитектуре удалось в среднем на 10% обойти unit selection модель. На изображении ниже можно увидеть архитектуру сети WaveNet.
Как итог, применение такой модели позволяет достичь крайне высоких показателей оценки MOS: 4,4-4,5 [4, 5]. Таким образом, при наличии должных вычислительных мощностей, такой подход помогает достичь сразу нескольких целей:
- естественного звучания при использовании end-to-end подхода,
- большого разнообразие в интонациях,
- использования меньшего объема данных по сравнению с конкатенативными моделями.