Различные подходы к решению задачи Text-to-Speech (Часть 2)

В предыдущей части мы поговорили о двух подходах к решению задачи Text-to-Speech: Конкатенативном и Параметрическом. Сейчас мы посмотрим на гибридный подход и поговорим о том, из каких этапов состоит реализующая его система.

Напомню, что в основе параметрического метода лежит идея о построении вероятностной модели, которая оценивает распределение акустических признаков заданного текста. Давайте посмотрим на гибридный подход, который во многом опирается на параметрический, но также включает методы глубокого обучения.

Hybrid (Deep Learning) synthesis

Подход, основанный на DNN (глубокой нейронной сети), является еще одним вариантом подходов к статистическому синтезу, который используется для преодоления неэффективности деревьев решений, используемых в скрытых марковских моделях для моделирования сложных контекстных зависимостей. Шагом вперед и возможным прорывом стало предоставление машинам возможностей проектирования признаков без вмешательства человека. Признаки, разработанные людьми, основаны на нашем понимании речи, но это не всегда применимо для компьютеров. В методах DNN взаимосвязь между входными текстами и их акустическими реализациями моделируется DNN. Акустические характеристики создаются с использованием генерации параметров максимального правдоподобия. Характеристики, полученные с помощью глубокого обучения, не читаются человеком, но они читаются компьютером и представляют данные, необходимые для модели.


Достоинства

  • Огромное улучшение как с точки зрения разборчивости, так и естественности;
  • Не требуют обширной предварительной обработки человеком и разработки функций

Недостатки

  • Как недавняя разработка, методы синтеза речи с глубоким обучением все еще требуют исследований.

Система синтеза речи

Процесс генерации речи в параметрическом/гибридном синтезе можно разделить на следующие этапы:

  1. Предобработка - получение на выходе контекстно-зависимых лингвистических признаков:
    • Нормализация текста - перевод различных небуквенных символов в словесные интерпретации, удаление некоторых символов и т.д.
    • Извлечение лингвистических признаков из нормализованного текста: фонемное представление, ударения, части речи и так далее.
  2. Применение Duration model - предсказание длительности фонем.
  3. Применение Акустической модели - восстановление распределения акустических признаков на основе лингвистических. К таким признакам относятся значения фундаментальной частоты, спектральное представление сигнала и так далее.
  4. Применение Вокодера - трансляция акустических признаков в звуковую волну.

Для того, чтобы обучить duration модель могут применяться как Марковские модели (классический параметрический подход), так и глубокие нейронные сети.

В свою очередь вокодер, как правило, представляет собой алгоритм, применяющий source-filter модели, что предполагает речь как результат применения линейного фильтра шума к начальному сигналу. В целом, качество речи традиционных параметрических методов является достаточно низким из-за большого количества независимых предположений об устройстве процесса генерации звука.

Но вместе с повсеместным распространением глубокого обучения слово возможным создавать end-to-end модели. Они в свою очередь предсказывают акустические признаки по буквам. Примерами таких сетей являются Tacotron [1] и Tacotron 2 [2], которые принимаю последовательность букв, а на выходе возвращают мел-спектрограмму.

На изображении ниже можно увидеть архитектуру Tacotron 2, которая позволяет получать достаточно чистое звучание.


Еще одним фактором, который позитивно повлиял на качество синтезированной речи, стало внедрение нейросетевых вокодеров, которые заменили алгоритмы цифровой обработки сигналов. Примером такого вокодера является нейронная сеть WaveNet [3], которая последовательно предсказывает значение амплитуды звуковой волны.

Ввиду использования большого количества сверхточных слоев, применения пропусков и skip connections для захвата большего контекста, архитектуре удалось в среднем на 10% обойти unit selection модель. На изображении ниже можно увидеть архитектуру сети WaveNet.



Как итог, применение такой модели позволяет достичь крайне высоких показателей оценки MOS: 4,4-4,5 [4, 5]. Таким образом, при наличии должных вычислительных мощностей, такой подход помогает достичь сразу нескольких целей:

  • естественного звучания при использовании end-to-end подхода,
  • большого разнообразие в интонациях,
  • использования меньшего объема данных по сравнению с конкатенативными моделями.
Литература:
[1] Yuxuan Wang, RJ Skerry-Ryan, Daisy Stanton, Yonghui Wu, Ron J. Weiss, Navdeep Jaitly, Zongheng Yang, Ying Xiao, Zhifeng Chen, Samy Bengio, Quoc Le, Yannis Agiomyrgiannakis, Rob Clark, Rif A. Saurous. Tacotron: Towards End-to-End Speech Synthesis.
[2] Jonathan Shen, Ruoming Pang, Ron J. Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, RJ Skerry-Ryan, Rif A. Saurous, Yannis Agiomyrgiannakis, Yonghui Wu. Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions.
[3] Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, Koray Kavukcuoglu. WaveNet: A Generative Model for Raw Audio.
[4] Jonathan Shen, Ruoming Pang, Ron J. Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, RJ Skerry-Ryan, Rif A. Saurous, Yannis Agiomyrgiannakis, Yonghui Wu. Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions.
[5] Wei Ping Kainan Peng Jitong Chen. ClariNet: Parallel Wave Generation in End-to-End Text-to-Speech.