Interested Article - Поиск наилучшей проекции

Поиском наилучшей проекции ( англ. Projection Pursuit ) называется статистический метод, состоящий в нахождении такой проекции многомерных данных, для которой достигает максимума некоторая функция качества проекции.

Область применения

Хотя люди хорошо визуально воспринимают информацию, они способны анализировать картинки только малых размерностей . При анализе многомерных данных образное восприятие работает не так хорошо. Эту проблему решают, рассматривая проекции данных размерности два или три. Для визуализации проекций данных используют обычные приёмы: диаграммы рассеяния , гистограммы , ящиковые диаграммы и так далее.

Идея метода

Надо решить, какая проекция будет наиболее «интересной». Один из подходов к автоматизации выбора наиболее «интересной» проекции основывается на следующих соображениях (для наглядности будем рассматривать проекцию на прямую). Проекцию данных будем считать «неинтересной», если гистограмма имеет нормальную плотность распределения , как на рисунке 1.

Проекции с двухвершинным распределением, как на рисунке 2, будем считать «интересными».

Двухвершинное (бимодальное) распределение считаем более интересным, так как оно указывает на возможное присутствие двух кластеров в данных.

Индекс проекции

Для автоматизации поиска наиболее «интересной» проекции используют специально подобранную функцию качества, которую часто называют индексом. Наилучшей объявляют ту проекцию, для которой функция качества максимальна. Поиск проекции многомерных данных, основанный на максимизации некоторой функции качества проекции называется поиском наилучшей проекции (Projection Pursuit). Выбор индекса определяет, насколько полезен будет результат. Опишем несколько вариантов функции качества проекции.

Поиск одномерной проекции

Введем обозначения. Пусть $X$ — $p$ -мерный случайный вектор , далее будем предполагать, что вектор центрирован, то есть $E(X)=0$ .

Обозначим $a$ — $p$ -мерный числовой вектор, нахождение этого вектора составляет задачу поиска наилучшей проекции, которая будет иметь вид $a^{T}X$ .

В данном случае матрица данных имеет размерность $p\times 1$ , вектор $X$ и есть матрица данных.

Тогда индекс $I(a)$ определяется как дисперсия линейной комбинации $a^{T}X$ , при дополнительном условии нормировки $a^{T}a=1$ .

Распространённые индексы проекции

Подход Фридмана и Тьюки

Джером Фридман и Джон Тьюки (1974) измеряли, насколько «интересно» многомерное распределение $X$ , рассматривая индекс

$I_{FT,\;h}(a)=n^{-1}\sum _{j=1}^{n}{\hat {f}}_{h,\;a}^{2}(a^{T}X_{i})$ ,

где ${\hat {f}}_{h,\;a}$ обозначает ядерную оценку плотности , полученную по спроектированным данным,

${\hat {f}}_{h,\;a}(z)=n^{-1}\sum _{j=1}^{n}K_{h}(z-a^{T}X_{j})$ .

Если многомерная случайная величина $X$ имеет нормальное распределение, то каждая проекция $z=a^{T}X$ имеет стандартное нормальное распределение, пока $\|a\|=1$ и $X$ центрировано. Изменения в $I_{FT,\;h}(a)$ относительно $a$ указывают отклонения от нормальности.

Подход Ходжеса и Лемана

Индекс проекции определяется как $\int (f')^{2}$ , где $f$ — плотность распределения многомерной случайной величины $X$ , которая является матрицей данных. Очень часто плотность нельзя посчитать явно или гораздо удобнее вместо плотности использовать её оценку.

и (1956) показали, что, если $E(X)=0$ и $D(X)=1$ , то минимум $\int (f')^{2}$ достигается на плотности Епанечникова, которая имеет вид $f(z)=\max {\{0,\;c(b^{2}-z^{2})\}}$ , где $c={\frac {3}{20{\sqrt {5}}}}$ и $b={\sqrt {5}}$ . Это — параболическая функция плотности, которая равна нолю вне интервала $(-{\sqrt {5}},\;{\sqrt {5}})$ . Таким образом, при использовании такого индекса наименее интересной будет являться плотность Епанечникова. Большое значение индекса указывает большое отклонение от параболической формы.

Альтернативный индекс Ходжеса — Лемана основан на максимизации энтропии , то есть $\int (-f\log f)$ .

Если $E(X)=0$ и $D(X)=1$ , то минимум индекса $\int (f\log f)$ достигается на стандартной нормальной плотности. Это свойство является достоинством индекса, по сравнению с предыдущим вариантом.

Действительно, интуитивно кажется, что нормальное распределение «менее интересно», чем распределение Епанечникова. Таким образом, используя индекс $\int (f\log f)$ , мы измеряем отклонение распределения от нормального.

Подход Фишера

В качестве ещё одного индекса можно рассмотреть информацию Фишера , $\int (f')^{2}/f$ .

Вычисляя индекс энтропии, мы встречаемся с большими вычислительными сложностями, при выполнении которых приходится затрачивать много времени, что, конечно же, не очень удобно.

Подход Джонеса и Сибсона

Джонес (Jones) и Сибсон (Sibson) (1987) предложили рассмотреть отклонения от нормальной плотности как $f(x)=\varphi (x)\{1+\varepsilon (x)\}$ , где функция $\varepsilon$ удовлетворяет условиям

$\int \varphi (u)\varepsilon (u)u^{-r}du=0$ , при $r=0,\;1,\;2.$

Чтобы упростить вычисление индекса Джонеса — Сибсона, удобно перейти к кумулянтам $\kappa _{3}=\mu _{3}=E(X^{3})$ , $\kappa _{4}=\mu _{4}=E(X^{4})-3$ .

Поскольку стандартная нормальная плотность удовлетворяет условию $\kappa _{3}=\kappa _{4}=0$ , индекс должен, по крайней мере, включить информацию до уровня симметрических отклонений ( $\kappa _{3}$ или $\kappa _{4}$ — не ноль) от нормальности. Самые простые из таких индексов — положительная определённая квадратичная форма от $\kappa _{3}$ и $\kappa _{4}$ . При этом должна присутствовать инвариантность при замене знака данных, начиная с $a^{T}X$ и $-a^{T}X$ , мы должны получить тот же самый вид отклонения от нормальности. Заметим, что $\kappa _{3}$ — нечётно, то есть $\kappa _{3}(a^{T}X)=-\kappa _{3}(-a^{T}X)$ . А $\kappa _{4}$ — чётно, то есть $\kappa _{4}(a^{T}X)=\kappa _{4}(-a^{T}X)$ . Квадратичная форма от $\kappa _{3}$ и $\kappa _{4}$ , измеряющая отклонение от нормальности, не включает смешанный коэффициент $\kappa _{3}\kappa _{4}$ .

Следовательно, индекс, предложенный Джонсом и Сибсоном — это

$I_{JS}(a)=\{\kappa _{3}^{2}(a^{T}X)+\kappa _{4}^{2}(a^{T}X)/4\}/12$ .

Этот индекс фактически измеряет различие $\int f\log f-\int \varphi \log \varphi$ .

Проблемы реализации

Метод поиска наилучшей проекции может давать интересные результаты, однако в его реализации существует много недостатков. Во-первых, трудно придумать правильную интерпретацию полученных результатов. Во-вторых, реализация метода может выполняться длительное время и требовать достаточно большого количества оперативной памяти компьютера. Кроме того, до сих пор остаются различия между человеческим визуальным представлением о наилучшей проекции и решением полученным при поиске наилучшей проекции. Эти проблемы пока не разрешены, «канонического» варианта метода нет, идут активные исследования.

Литература

Peter J. Huber , Projection Pursuit (Invited paper), Harvard University, The Annalas of Statistics, 13, No. 2 (1985), 435—475.
Jerome H. Friedman , Exploratory projection pursuit. J. Amer. Statist. Assoc., 82 (1987) 249—266. .