Дискриминантный анализ
- 1 year ago
- 0
- 0
Линейный дискриминантный анализ ( ЛДА , англ. Linear Discriminant Analysis , LDA ), нормальный дискриминантный анализ ( англ. Normal Discriminant Analysis , NDA) или анализ дискриминантных функций ( англ. Discriminant Function Analysis ) является обобщением линейного дискриминанта Фишера , метода, используемого в статистике , распознавании образов и машинном обучении для поиска линейной комбинации признаков , которая описывает или разделяет два или более классов или событий. Получившаяся комбинация может быть использована как линейный классификатор , или, более часто, для снижения размерности перед классификацией .
ЛДА тесно связан с дисперсионным анализом ( англ. ANalyse Of Variance =ANOVA) и регрессионным анализом , которые также пытаются выразить одну зависимую переменную в виде линейной комбинации других признаков или измерений . Однако дисперсионный анализ использует качественные независимые переменные и зависимую переменную , в то время как дискриминантный анализ имеет непрерывные независимые переменные и качественную зависимую переменную ( то есть метку класса) . Логистическая регрессия и пробит-регрессия больше похожи на ЛДА, чем дисперсионный анализ, так как они так же объясняют качественную переменную через непрерывные независимые переменные. Эти другие методы более предпочтительны в приложениях, в которых нет резона предполагать, что независимые переменные нормально распределены, что является фундаментальным предположением метода ЛДА.
ЛДА тесно связан также c методом главных компонент (МГК, англ. Principal Component Analysis , PCA) и факторным анализом тем, что они ищут линейные комбинации переменных, которые лучшим образом объясняют данные . ЛДА явным образом пытается моделировать разницу между классами данных. МГК, с другой стороны, не принимает во внимание какую-либо разницу в классах, а факторный анализ строит комбинации признаков, опираясь скорее на различия, а не на сходства. Дискриминантный анализ отличается также от факторного анализа тем, что не является независимой техникой — для его работы должно быть определено различие между независимыми переменными и зависимыми переменными (последние называются также критериальными переменными).
ЛДА работает, когда измерения, сделанные на независимых переменных для каждого наблюдения, являются непрерывными величинами. Когда имеем дело с качественными независимыми переменными, эквивалентной техникой является дискриминантный анализ соответствий .
Дискриминантный анализ используется, когда группы известны априори (в отличие от кластерного анализа ). Каждый случай должен иметь значение в одной или нескольких мерах количественного предсказания и значение на групповой мере . Выражаясь простыми терминами, анализ дискриминантных функций является классификацией, разбивающей объекты на группы, классы или категории некоторого типа.
Оригинальный дихотомический дискриминантный анализ разработал сэр Роналд Фишер в 1936 . Он отличается от дисперсионного анализа или , которые используются для предсказания одной (дисперсионный анализ) или нескольких (многофакторный дисперсионный анализ) непрерывных зависимых переменных по одной или более независимой качественной переменной. Анализ дискриминантных функций полезен для определения, является ли множество переменных эффективным в предсказании принадлежности категории .
Рассмотрим множество наблюдений (называемых также признаками, атрибутами, переменными или измерениями) для каждого образца объекта или события с известным классом . Это множество образцов называется . Задача классификации тогда заключается в поиске хорошего предсказателя для класса любого представителя того же распределения (не обязательно из тренировочного множества), заданного только наблюдением .
ЛДА подходит к задаче с предположением, что условные плотности распределения вероятности и распределены нормально со средним и параметрами ковариации и соответственно. При таких предположениях байесово оптимальное решение предсказывает, что точка принадлежит второму классу, если отношение правдоподобия превосходит некоторое (пороговое) значение T, так что:
Без каких-либо дальнейших предположений получающийся классификатор называют КДА ( , англ. Quadratic Discriminant Analysis , QDA).
Вместо этого ЛДА делает дополнительное упрощающее предположение гомоскедастичности ( то есть что классы ковариации идентичны, так что ) и что ковариации имеют полный ранг. В этом случае несколько членов исключаются:
для некоторой пороговой константы c , где
Это означает, что критерий для входного вхождения в класс является функцией только от этой линейной комбинации известных наблюдений.
Часто полезно видеть это заключение в терминах геометрии: критерий входного содержаться в классе является функцией от проекции точки многомерного пространства на вектор (мы рассматриваем только направление вектора). Другими словами, наблюдение принадлежит , если соответствующий расположен на определённое стороне от гиперплоскости, перпендикулярной . Положение плоскости определяется пороговым значением c.
Предположения дискриминантного анализа являются теми же, что и для многофакторного дисперсионного анализа. Анализ весьма чувствителен к выбросам и размер наименьшей группы должен быть больше, чем число предикторных (независимых) переменных .
Предполагается, что дискриминантный анализ относительно устойчив относительно небольших нарушений этих предположений . Было показано, что дискриминантный анализ может оставаться правдоподобным при применении дихотомических случайных величин (когда многомерная нормальность часто нарушается) .
Дискриминантный анализ работает путём создания одной или более линейной комбинаций предикторов, получая новую скрытую переменную для каждой функции. Эти функции называются дискриминантными функциями . Число возможных функций равно либо Ng -1, где Ng =числу групп, либо p (числу предикторов), в зависимости от того, какое из чисел меньше. Первая созданная функция максимизирует разницу между группами по этой функции. Вторая функция максимизирует разницу по этой функции, но не должна коррелировать с предыдущей функцией. Процесс продолжается созданием последовательности функций с требованием, чтобы новая функция не коррелировала со всеми предыдущими.
Если дана группа с множествами выборочного пространства, есть дискриминантное правило, такое, что, если , то . Дискриминантный анализ тогда находит «хорошие» области множеств для минимизации ошибки классификации, потому приводит к высокому проценту классификации .
Каждая функция сопровождается дискриминантной оценкой для определения, насколько хорошо она предсказывает принадлежность группе.
Собственное значение в дискриминантном анализе — это собственное значение для каждой функции [ Что такое собственное значение для функции? ] . Оно показывает, насколько функция разделяет группы. Чем больше собственное значение, тем лучше функция разделяет . Здесь, однако, нужно быть осторожным, поскольку собственные значения не имеют верхнего предела . Собственное значение можно рассматривать как отношение SS между и SS внутри как в дисперсионном анализе, когда зависимая переменная является дискриминантной функцией, а группы являются уровнями IV . Это означает, что наибольшее собственное значение ассоциировано с первой функцией, второе по величине ассоциировано со второй и т. д..
Некоторые предлагают использовать собственные значения как меру , однако в общем случае это не поддерживается . Вместо этого предпочтительнее в качестве меры эффекта использовать каноническую корреляцию . Она подобна собственному значению, но является квадратным корнем отношения SS между и SS полное . Она равна корреляции между группами и функцией .
Другая популярная мера размера эффекта — процент дисперсии [ прояснить ] для каждой функции. Её можно вычислить по формуле: , где является собственным значением для функции, а является суммой всех собственных значений. Величина указывает нам, насколько точно предсказание, даваемое конкретной функцией по сравнению с другими функциями .
Процент правильной классификации может быть проанализирован как размер эффекта .
Канонический дискриминантный анализ ( англ. Canonical discriminant analysis , CDA) находит оси ( k − 1 канонических координат , где k — число классов), которые лучшим образом разделяют категории. Эти линейные функции не коррелируют и определяют, в результате, оптимальное k − 1 мерное пространство через n -мерное облако данных, которые лучшим образом разделяют k групп. См. « » ниже.
Термины линейный дискриминант Фишера и ЛДА часто используют как равнозначные, хотя исходная статья Фишера в действительности описывает немного другой дискриминант, который не делает таких предположений, какие делает ЛДА, например, нормальное распределение классов или одинаковость ковариации классов.
Предположим, что два класса наблюдений имеют средние и ковариации . Тогда линейная комбинация признаков будет иметь средние и дисперсии для . Фишер определял разделение между этими двумя распределениями как отношение дисперсии между классами и дисперсии внутри классов:
Эта мера является, в некотором смысле, мерой отношения сигнал/шум для разметки класса. Можно показать, что максимальное разделение будет, когда
Если предположения ЛДА выполняются, вышеприведённое равенство эквивалентно ЛДА.
Заметьте, что вектор является нормалью дискриминантной гиперплоскости . В качестве примера, в двумерной задаче прямая, наилучшим образом разделяющая две группы, является перпендикуляром к .
В общем случае точки данных, которые разделяют, проектируются на . Затем выбирается пороговое значение, которое наилучшим образом разделяет данные, исходя из одномерного распределения. Не существует общего правила для выбора порога. Однако, если проекции точек из обоих классов проявляют примерно то же самое распределение, хорошим выбором будет гиперплоскость между проекциями двух средних, и . В этом случае параметр c в пороговом условии может быть найден явно:
Метод Оцу связан с линейным дискриминантом Фишера и был создан для бинаризации гистограммы пикселей в монохромном изображении путём оптимального выбора порога чёрное/белое, который минимизирует дисперсии внутри классов и максимизирует дисперсии между классами.
В случае, когда имеется более двух классов, анализ, используемый в получении дискриминанта Фишера, может быть расширен до получения подпространства , которое содержит все вариации классов . Это обобщение принадлежит К. Р. Рао . Предположим, что каждый из C классов имеет среднее и ту же ковариацию . Тогда разброс вариации классов можно определить как выборочную ковариацию средних класса
где является средним средних для классов. Отделитель класса в направлении в этом случае будет задаваться величиной
Это означает, что когда является собственным вектором , величина для отделения будет равна соответствующему собственному значению .
Если диагонализируема, вариативность между признаками будет содержаться в подпространстве, натянутом на собственные вектора, соответствующие C − 1 наибольшим собственным значениям (поскольку ранг не превосходит C − 1). Эти собственные вектора главным образом используются в отборе признаков, как в МГК. Собственные вектора, соответствующие меньшим собственным значениям, очень чувствительны к точному выбору тренировочных данных и часто необходимо применение регуляризации , как описано в следующей секции.
Если требуется классификация, имеется много альтернативных подходов, которые можно использовать вместо снижения размерности . Например, классы могут быть разбиты и может быть использован стандартный дискриминант Фишера или ЛДА для классификации каждой части. Общим примером такого подхода является «один против остальных», когда точки одного класса укладываются в одну группу, а всё остальное укладывается в другую группу, затем применяется ЛДА. Это даёт C классификаторов, результаты которых комбинируются. Другой общий метод — попарная классификация, когда создаётся новый классификатор для каждой пары классов (что даёт в общей сложности C ( C − 1)/2 классификаторов), и индивидуальные классификаторы комбинируются для получения конечной классификации.
Типичная имплементация техники ЛДА требует, чтобы все пробы были доступны сразу. Однако существуют ситуации, когда весь набор данных недоступен и входные данные получаются в виде потока. В этом случае желательно для выделения признаков ЛДА иметь возможность обновлять вычисленные признаки ЛДА путём просмотра новых проб без прогона всего алгоритма на полном наборе данных. Например, во многих приложениях реального времени, таких как мобильная робототехника или распознавание лиц, важно обновлять выделенные признаки ЛДА, как только новое наблюдение становится доступным. Техника ЛДА выделения признаков, которая может обновлять признаки ЛДА просто путём обработки новых образцов, называется инкрементальным алгоритммом ЛДА , и эта идея интенсивно изучается последние два десятилетия . Каттерджи и Ройчаудхари предложили инкрементальный самоорганизующийся алгоритм ЛДА для обновления признаков ЛДА . В другом труде Демир и Озмехмет предложили алгоритмы онлайнового локального обучения для обновления признаков ЛДА инкрементально, используя коррекцию ошибок и правила обучения Хебба . Позднее Алияри, Руджич и Могаддам разработали быстрый инкрементальный алгоритм для обновления признаков ЛДА путём наблюдения новых образцов .
На практике средние и ковариации классов неизвестны. Они могут, однако, быть оценены по тренировочному набору. Может быть использован либо метод максимального правдоподобия , либо метод оценки апостериорного максимума вместо точного значения в обоих равенствах. Хотя оценки ковариации могут в некотором смысле считаться оптимальными, это не значит, что дискриминант, полученный подстановкой этих значений, оптимален в любом смысле, даже если предположение о нормальном распределении классов верно.
Другая трудность в применении ЛДА и дискриминантного метода Фишера к вещественным данным появляется, когда число измерений на каждой выборке (то есть размерность каждого вектора данных) достигает числа проб в каждом классе . В этом случае оценки ковариации не имеют полного ранга и не могут быть обращены. Есть несколько путей обойти это. Один из путей — использование псевдообратной матрицы вместо обычной обратной в вышеприведённых формулах. Однако лучшая числовая устойчивость может быть достигнута путём проекции задачи в подпространство, натянутое на . Другая стратегия работы с малыми размерами выборки заключается в использовании матрицы ковариации, которая может быть математически представлена как
где является единичной матрицей, а является интенсивностью сжатия или параметром регуляризации . Это приводит к понятию регулярного дискриминантного анализа или дискриминантного анализа со сжатием .
Также во многих практических случаях линейные дискриминанты не подходят. ЛДА и дискриминант Фишера можно расширить для применения в нелинейной классификации c помощью ядерного трюка . Здесь исходные наблюдения эффективно отображаются в нелинейное пространство большей размерности. Линейная классификация в этом нелинейном пространстве тогда эквивалентна нелинейной классификации в исходном пространстве. Наиболее часто применяемым примером такого подхода является .
ЛДА можно обобщить до , в котором c становится качественной переменной с N возможными состояниями, а не двумя. Аналогично, если плотности распределения для классов нормальны и имеют одинаковые ковариации, достаточные статистики для являются значениями N проекций, которые являются подпространством , натянутым на N средних, аффинно спроецированных с помощью обратной ковариационной матрицы. Эти проекции можно найти путём решения обобщённой задачи собственных значений , где числитель является ковариационной матрицей, образованной трактовкой средних как выборки, а знаменатель является общей ковариационной матрицей. См. « » выше.
Вдобавок к примерам, данным ниже, ЛДА применяется в позиционировании и управлении продуктом .
В , основанном на учётных показателях и других финансовых переменных, линейный дискриминантный анализ был первым статистическим методом, применённым для систематического объяснения, какие фирмы обанкротятся или выживут. Несмотря на ограничения, включая известное неверность для учётных показателей предположения о нормальном распределении для ЛДА, модель 1968 года Эдварда Альтмана остаётся лидирующей моделью в практических приложениях.
В компьютеризированной системе распознавания лиц каждое лицо представлено большим числом значений пикселов. Линейный дискриминантный анализ применяется здесь главным образом для сокращения числа признаков к более управляемому числу перед попыткой классификации. Каждая из новых размерностей является линейной комбинацией значений пикселов, образуя шаблон. Линейные комбинации, полученные использованием линейного дискриминанта Фишера, называются лицами Фишера , в то время как комбинации, полученные с помощью метода главных компонент , называются .
В маркетинге дискриминантный анализ часто использовался для определения факторов, которые отличают различные типы пользователей и/или продуктов на основе опросов или других форм сбора данных. Ныне для этих целей обычно применяется логистическая регрессия или другие методы. Использование дискриминантного анализа в маркетинге можно описать в виде следующих шагов:
Основным приложением дискриминантного анализа в медицине является оценка тяжести состояния пациента и прогноз течения болезни. Например, в течение ретроспективного анализа пациенты делятся на группы согласно тяжести болезни — лёгкая, средняя и тяжёлая формы. Затем изучаются результаты клинического и лабораторного анализов, чтобы обнаружить переменные, которые достаточно отличаются в изучаемых группах. На основе этих переменных строятся дискриминантные функции, которые помогают объективно классифицировать течение болезни у пациентов в будущем, будет ли она протекать в лёгкой, средней или тяжёлой форме.
В биологии используются похожие принципы с целью классифицировать и определить группы различных биологических объектов, например, определить фаготип сальмонеллёзного энтерита, основываясь на преобразовании Фурье инфракрасного спектра , определить источник кишечной палочки изучая её вирулентные факторы и т. д..
Этот метод можно использовать для разделения зон гидротермальных изменений. Например, когда доступны различные данные из различных зон, дискриминантный анализ может найти структуры в данных и эффективно их классифицировать .
Дискриминационный функциональный анализ очень похож на логистическую регрессию , и оба метода могут быть использованы для ответа на некоторые вопросы исследователей . Логистическая регрессия не имеет столько допущений, как дискриминантный анализ. Однако, если допущения дискриминантного анализа выполняются, он является более мощным средством по сравнению с логистической регрессией . В отличие от логистической регрессии, дискриминантный анализ может быть использован для малых размеров выборок. Было показано, что когда размеры выборок одинаковы и имеет место гомогенность дисперсии/ковариации, дискриминантный анализ более точен . Учитывая всё это, логистическая регрессия выбирается чаще, поскольку предположения дискриминантного анализа выполняются редко .