Распознавание эмоций человеческих
Распознавание эмоций играет важную роль в
видеонаблюдении для захвата подозреваемых; например, в случае человека,
которого боятся, может помочь система, поднимающая тревогу. Системы
распознавания эмоций могут использоваться в качестве подмодуля различных
приложений, таких как воспроизведение музыки и различные системы
видеонаблюдения. Эта статья представляет собой введение в область, известную
как Распознавание выражения лица (FER).
Классификация изображений как эмоций
Распознавание выражения — лица-это проблема
классификации изображений, расположенная в более широком поле компьютерного
зрения. Проблемы классификации изображений-это те, в которых изображениям
необходимо алгоритмически назначить метку из дискретного набора
категорий. В частности, в системах FER изображения-это человеческие лица,
а категории-это набор эмоций.
Для всех подходов к машинному обучению
требуется набор обучающих примеров изображений, каждый из которых помечен одной
категорией эмоций. Часто используется стандартный набор из семи
классификаций эмоций:
1. Гнев
2. Отвращение
3. Страх
4. Счастье
5. Печаль
6. Сюрприз
7. Нейтральный
Классификация изображения на основе его
изображения может быть сложной задачей для машин. Людям просто смотреть на
изображение велосипеда и знать, что это велосипед, или смотреть на лицо
человека и знать, что он улыбается и счастлив.
Рисунок 1 –
набор помеченных изображений для анализа выражений
Когда компьютеры смотрят на изображение, то,
что они "видят", - это просто матрица значений пикселей. Чтобы
классифицировать изображение, компьютер должен обнаружить и классифицировать
числовые шаблоны в матрице изображений.
Выражения эмоций каждого человека могут быть
весьма своеобразными, с особыми причудами и выражениями лица. На
фотографиях, подлежащих классификации, может быть большое разнообразие
различных ориентаций и положений голов людей.
По этим типам причин FER сложнее, чем
большинство других задач классификации изображений. Однако хорошо
спроектированные системы могут достигать точных результатов, когда при
разработке учитываются ограничения.
Компоненты анализа общих выражений
Как и большинство систем классификации
изображений, системы FER обычно используют предварительную обработку изображений и извлечение объектов с
последующим обучением на выбранных учебных
архитектурах. Конечным результатом обучения является создание модели, способной присваивать
категории эмоций вновь предоставленным примерам изображений.
Рисунок 2 – компоненты анализа
Выводы
В случае FER можно использовать нейронные
сети, которые были предварительно обучены на большом количестве изображений для
решения общих задач классификации изображений, таких как модель Google
Inception-V3. Эта модель обучается на наборе данных ImageNet, содержащем около
80 000 изображений 1000 классов, таких как “зебра”, “далмация” и “посудомоечная
машина”, с использованием CNN.
Тем не менее, существует много возможностей
для совершенствования моделей обучения передаче для FER, поскольку таким
моделям очень трудно обобщать данные по наборам данных. Модель, обученная на
одном наборе данных, может работать плохо при использовании для классификации
изображений из второго набора данных.
Другой подход заключается в использовании
увеличения данных для искусственного увеличения размера наборов данных. Этот
подход создает копии оригинальных изображений с измененным освещением,
применяемыми поворотами и зеркальным отображением, а также другими
преобразованиями. Этот подход может повысить точность нейронных сетей за счет
увеличения диапазона состояний, в которых исходные функции встречаются во время
обучения.
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
1.
А.Н.Васильев,
Д.А.Тархов. Нейростевое моделирование. Принципы. Алгоритмы. Приложения. СПб.:
Изд-во Политехн. Ун-та, 2009. ISBN 978-5-7422-2272-9
2.
С.А.Шумский.
Машинный интеллект. Очерки по теории машинного обучения и искусственного
интеллекта. М., РИОР, 2019. DOI: 10.29039/02011-1
3.
З.М.Шибзухов.
Некоторые вопросы теоретической нейроинформатики. В кн.: XIII Всероссийская
научно-техническая конференция "Нейроинформатика-2011". Лекции по
нейроинформатике. М., НИЯУ МИФИ, 2010. С.44-72.