Различные подходы к решению задачи Text-to-Speech (Часть 1)

Еще совсем недавно синтез речи представлял собой механических голос, который запинался о запятые и говорил со странным акцентом. Тем не менее, это казалось чудом.

Но в настоящий момент целью технологии Text-to-Speech стало не просто научить машины говорить, а заставить их звучать как люди разного возраста и пола. В перспективе мы сможем слушать аудиокниги с машинным голосом, смотреть новости по телевизору или общаться с помощниками, не замечая разницы.

В этой статье я бы хотел кратко осветить технологии, которые помогаю воплощать эту идею в жизнь.

Оценивание

С постановкой задачи все просто- мы хотим создавать звуки на основе текста. Но прежде, чем говорить подходах, стоит определиться, как же оценивать качество синтезированной речи.

Как правило, оценка производится с разных сторон, включая разборчивость, естественность и предпочтительность синтетической речи, а также факторы человеческого восприятия, такие как понятность [1].

  • Разборчивость: качество создаваемого звука или произнесения слов в предложении.
  • Естественность: качество речи, создаваемой с точки зрения ее временной структуры, произношения и передачи эмоций.
  • Предпочтения: выбор слушателями лучшего синтезатора, как правило зависит от качества сигнала и голоса.
  • Понятность: степень понимания полученных сообщений.

В основном оценка выставляется по шкале от 1 до 5, где 1 означает вовсе неправдоподобное звучание, а 5- речь, неотличимую от человеческой.

Text-to-Speech

Сегодня решение задачи преобразования текста в голос не сводится к какому-то конкретному методу. Достижения в области информатики и искусственного интеллекта повлияли и на подходы к синтезу речи, которые развивались на протяжении многих лет в ответ на последние тенденции и новые возможности в области сбора и обработки данных.

Длительное время двумя основными методами преобразования текста в речь являлись конкатенативный метод и параметрический метод, но революция в области глубокого обучения добавила новый взгляд на проблему синтеза речи, сместив акцент с разработанных человеком признаков речи на полностью полученные машиной параметры [2, 3].

В этой статье рассмотрим 2 консервативных подхода.

Concatenative synthesis


Конкатенативный подход опирается на высококачественные аудиозаписи, которые затем объединяются вместе для формирования речи.

На первом этапе актеры записывают речь, произнося целый ряд речевых единиц: от целых предложений до слогов, которые далее помечаются и сегментируются лингвистическими единицами, образующими огромную базу данных. Во время синтеза речи механизм преобразования текста в речь ищет в такой базе данных речевые единицы, соответствующие входному тексту, объединяет их вместе и создает аудиофайл.

Достоинства:

  • Высокое качество звука с точки зрения разборчивости;
  • Возможность сохранить оригинальный голос актера;

Недостатки:

  • Такие системы очень трудоемки, потому что они требуют огромных баз данных и жесткого кодирования комбинации для формирования этих слов;
  • Получившаяся речь может звучать менее естественно, потому что практически невозможно получить аудиозаписи всех возможных слов, произнесенных во всех возможных сочетаниях эмоций, ударений и т.д.

Statistical Parametric synthesis

Для устранения ограничений конкатенативного синтеза был разработан другой метод, называемый параметрическим синтезом речи. Его суть состоит в построении вероятностной модели, предсказывающей акустические свойства аудио сигнала для данного текста.

Параметрический метод объединяет параметры, включая основную частоту, спектр магнитуд и т.д., и обрабатывает их для генерации речи. На первом этапе текст обрабатывается для извлечения лингвистических признаков, таких как фонемы или длительность. Второй шаг требует извлечения функций вокодера, таких как кепстр, спектрограмма, основная частота и т.д., которые представляют некоторые неотъемлемые характеристики человеческой речи и используются при обработке звука.

Эти признаки выработаны вручную и вместе с лингвистическими признаками вводятся в математическую модель, называемую вокодером.

Достоинства:

  • Повышенная естественность звука. К сожалению, технология создания эмоциональных голосов еще не доведена до совершенства, но это то, на что способна параметрическая модель.
  • Гибкость: проще изменить эмоциональный окрас или другие характеристики голоса;
  • Более низкая стоимость разработки: для этого требуется всего 2-3 часа времени записи голоса, что приводит к меньшему количеству записей, меньшей базе данных и меньшей обработке данных.

Недостатки:

  • Более низкое качество звука с точки зрения разборчивости: существует множество артефактов, приводящих к приглушенной речи, с постоянно присутствующим жужжащим звуком, шумным звуком;
  • Голос может звучать роботизировано: в синтезаторе, основанном на статистической модели, приглушенный звук делает голос стабильным, но менее естественным.
  • Низкая скорость работы по сравнению с unit selection.
  • Большая вычислительная сложность.

Таким образом, конкатенативный подход имеет высокое качество, но в то же время низкую вариативность и требует большого объема данных для обучения. В свою очередь при тренировке параметрических моделей нужно намного меньше данных, они генерируют более разнообразные интонации, но на выходе генерируют более низкое качество звука по сравнению с конкатенативный  подходом.


Однако с развитием технологий глубокого обучения модели параметрического синтеза смогли достичь кратного прироста по всем метрикам качества и теперь могут создавать речь, практически неотличимую от человеческой. Об этом поговорим во второй части статьи.



Литература:
1. Pisoni, D. B. et al., “Perception of synthetic speech generated by rule,” in Proceedings of the IEEE, 1985, pp. 1665–1676.
2. King, Simon. “A beginners ’ guide to statistical parametric speech synthesis.” (2010).
3. Kuligowska, K, Kisielewicz, P. and Wlodarz, A. (2018) Speech synthesis systems: disadvantages and limitations, International Journal of Engineering & Technology, [S.l.], v. 7, n. 2.28, p. 234–239.