Введение
При работе с информационными моделями иногда возникает потребность визуализировать результат или промежуточные результаты их работы. Но, как правило, количество исследуемых признаков\маркеров\параметров больше двух или трёх, соответственно, если отобразить на экране множество таких векторов то понять что-либо по полученному результату будет очень сложно, если не невозможно. Одним из самых распространённых решений в такой ситуации будет уменьшение размерности данных.
Principal Component Analysis
Применим Метод главных компонент (principal component analysis, PCA) на примере с моделью из пятимерных векторов, которую нужно отобразить на двухмерной плоскости (каждый вектор - точка на графике).
При использовании PCA из облака значений будут выделяться математическое ожидание, как «центр массы» облака, и дисперсия значений в качестве «размеров облака». Для облегчения вычислений линейно сдвинем выборку так, чтобы средние значения признаков стали равны 0. Для многомерных векторов параметров мат. ожидания и дисперсии недостаточно для представления формы облака значений и формирования главных компонент (рис.1):
Рисунок 1. Пример трёх выборок значений. |
Поэтому для описания формы случайного вектора используется ковариационная матрица – матрица, в которой (i, j) элемент является ковариацией i-го и j-го признаков. После вычисления матрицы, благодаря её свойствам, по основной диагонали (i = j) будут располагаться дисперсии признаков, а в остальных ячейках – ковариации соответствующих пар признаков. Требуемое количество признаков после применения Метода главных компонент – 2, поэтому требуются 2 вектора, относительно которых будут откладываться первая и вторая главная компонента. Для этого найдём в облаке пару векторов с минимальной и максимальной дисперсией, которые станут новыми осями координат, от которых будут зависеть новые двумерные координаты векторов-состояний на плоскости (рис. 2):
Рисунок 2. Пример векторов с максимальной и минимальной дисперсией признаков в облаке |
Далее полученные вектора нормируются для получения базиса, после чего производится уменьшение размерности данных путём проецирования на «оси», которые в итоге и соответствуют главным компонентам.
В итоге мы получили отражение пятимерной модели на двумерную плоскость, достоверность которого будет колебаться от 91 до 98 процентов от оригинала в зависимости от точности вычислений.