Генеративные нейронные сети. Генерация изображений

 Генеративные нейронные сети. Генерация изображений


    Генеративно-состязательные нейронные сети – алгоритм машинного обучения без учителя, построенный на комбинации из двух нейронных сетей, одна из которых генерирует образцыа другая старается отличить правильные («подлинные») образцы от неправильных. Рассмотрим подробнее эту технологию в рамках вопроса генерации изображений.

Целью данной работы является изучение технологий генерации изображений с помощью предобученной генеративно-состязательной нейронной сети StyledGAN2, тренировочные данные которой представляют из себя датасет человеческих лиц. Необходимо рассмотреть возможности дообучения ее дочерних моделей на различных областях и особенности согласования дочерней и родительской модели.

Мы будем говорить, что две модели согласованы, если они реализуют общую архитектуру, и одна из них (дочерняя модель) получена из другой (родительской) с помощью тонкой дообучения на определенную специфическую задачу. Такой подход называют Transfer learning.

Исследование влияния компонентов родительской модели на результаты дочерней модели

В качестве предобученной модели выбрана нейронная сеть StyleGAN2 и рассмотрены такие ее компоненты, как функция сопоставления (на основе вектора шума z получаем вектор стиля w), аффинные преобразования вектора стиля, а также параметры сверточного слоя (веса свертки). В показанных примерах (Рисунок 1) мы дообучили родительскую модель на датасете с мультяшками и на датасете с собаками, затем сгенерировали изображения. По очереди заменяя каждый указанный выше компонент дочерней нейронной сети на родительский, заметим, что больше всего на полученный результат влияют веса свертки. Отметим, что собака гораздо более чувствительна к сбросу специфических дочерних настроек по причине того, что StyleGAN2 обучена на лицах людей (а лица людей ближе к мультяшкам, чем к собакам).





Рисунок 1

Изображения, полученные слиянием двух изображений из различных областей

Рассмотрим одно из приложений согласованных генеративных моделей, которое заключается в генерации изображений, полученных путем слияния двух объектов из разных областей (классов).  При интерполяции весов признаков модели (идем по столбцу) мы наблюдаем плавный переход между областями, сохраняя основную стилистику (позу, цветовую гамму, цвет шерстки похож на цвет волос и т.д.), а интерполируя скрытые вектора из расширенного пространства векторов стилей, получаем плавное изменение в рамках одной области (девушка остается девушкой, но у нее меняется цвет волос, поза и т.д.). Выполняя эти преобразования одновременно, получаем матрицу плавного слияния двух объектов разных классов.

 

Анализ полученных результатов

Мы рассмотрели процесс согласования моделей, уделяя особое внимание StyleGAN2. Было установлено, что скрытые пространства (latent spaces) дочерней модели семантически совпадают с пространствами родительской, наследуя семантику даже для удаленных областей данных, таких как люди и животные.

Было описано полностью автоматическое межобластное преобразование изображений. Главным результатом является вывод о том, что подход дообучения на специфических данных не требует сложной реализации, но при этом дает впечатляющие результаты.