Interested Article - Вероятностный классификатор

Вероятностный классификатор классификатор , который способен предсказывать, если на входе заданы наблюдения, распределение вероятностей над множеством классов, а не только вывод наиболее подходящего класса, к которому наблюдения принадлежат. Вероятностные классификаторы обеспечивают классификацию, которая может быть полезна сама по себе или когда классификаторы собираются в ансамбли .

Типы классификации

Формально, «обычный» классификатор — это некоторое правило или функция , которая назначает наблюдению x класс меток ŷ :

Наблюдения берутся из некоторого множества X (например, множество всех документов , или множество всех изображений ), в то время класс меток образует конечное множество Y , определённое до тренировки классификатора.

Вероятностные классификаторы обобщают понятие классификаторов — вместо функций они являются условными вероятностями , что значит, что для данного классификатор назначает вероятности для всех (и сумма этих вероятностей равна единице). «Жёсткая» классификация может затем быть осуществлена с помощью правила принятия оптимальных решений .

то есть предсказанный класс — это класс с наибольшей вероятностью.

Бинарные вероятностные классификаторы называются в статистике также моделями. В эконометрике вероятностный классификатор в общем случае называется дискретным выбором .

Некоторые классификационные модели, такие как наивный байесовский классификатор, логистическая регрессия и многослойные перцептроны (когда они тренируются с подходящими функциями потерь ) естественным образом являются вероятностными. Другие модели, такие как методы опорных векторов , вероятностными не являются, но , превращающие их в вероятностные классификаторы.

Порождающая и условная тренировки

Некоторые модели, такие как модель логистической регрессии тренируются условно — они оптимизируют условную вероятность непосредственно на тренировочном наборе ( минимизация эмпирического риска ). Другие классификаторы, такие как наивный байесовский классификатор, являются тренированными классификаторами — во время тренировки находятся условное по классам распределение и априорный класс , а условное распределение получают с помощью байесовского правила .

Калибрация вероятности

Не все модели классификации естественным образом вероятностны, а те, которые вероятностны по своей природе, в частности, наивные байесовские классификаторы, деревья решений и методы бустинга , дают искажённые распределения вероятностей . В случае деревьев решений , когда Pr( y | x ) является пропорцией тренировочных выборок с меткой y в листе, которым x заканчивается, это искажение распределения возникает ввиду того, что обучающие алгоритмы, такие как C4.5 или деревья классификации и регрессии ( англ. Classification and regression trees , CART) в явном виде стремятся получить однородные листья (давая вероятности, близкие к нулю или единице, а потому сильное смещение ), в то время как для оценки пропорции используется лишь несколько экземпляров (высокая дисперсия ) .

Пример калибровочного графика

Может быть определено масштабирование с помощью калибровочного графика (называемого также диаграммой надёжности ). Калибровочный график показывает пропорцию элементов в каждом классе для дорожек предсказанной вероятности или показателя (такого как искривлённое распределение вероятностей или «расстояния до гиперплоскости » (со знаком) в методе опорных векторов). Отклонения о тождественной функции указывают на плохо калиброванный классификатор, для которого предсказанные вероятности или показатели не могут быть использованы в качестве вероятностей. В этом случае можно использовать метод превращения этих показателей в должным образом класс вероятностей.

Для двоичного случая общим подходом является применение , который обучает модель логистической регрессии по показателям . Альтернативный метод с использованием обычно лучше метода Платта, если доступен достаточно большой набор тренировлчных данных .

В случае можно использовать сведение к двоичным задачам с последующей одномерной калибровкой по алгоритму, как описано выше, а потом применением алгоритма попарного объединения Гесте и Тибширани .

Вычисление вероятностной классификации

Обычно используемые функции потерь для вероятностной классификации — логистическая функция потерь и между предсказанным и истинным распределением вероятностей. Первая из этих функций обычно используется для тренировки логистических моделей.

Метод, используемый для назначения показателей парам предсказанных вероятностей и актуальных дискретных исходов, так что различные методы предсказания можно было бы сравнить, называется .

Примечания

  1. , с. 348.
  2. , с. 39–40.
  3. , с. 43.
  4. .
  5. , с. 609–616.
  6. , с. 61–74.
  7. , с. 694–699.
  8. , с. 451–471.

Литература

  • Trevor Hastie, Robert Tibshirani, Jerome Friedman. . — 2009. от 26 января 2015 на Wayback Machine
    • В 219 выйдет перевод книги «Основы статистического обучения: интеллектуальный анализ данных, логический вывод и прогнозирование», Тревор Хасти, Роберт Тибширани, Джером Фридман, издательство «ДИАЛЕКТИКА»
  • Christopher M. Pattern Recognition and Machine Learning. — Springer, 2006. — (Information Science and Statistic).
    • Книга «Распознавание образов и машинное обучение», Кристофер М. Бишоп, будет издана издательством «ДИАЛЕКТИКА» в 2019
  • Alexandru Niculescu-Mizil, Rich Caruana. Predicting good probabilities with supervised learning // . — 2005. — ISBN 0-387-31073-8 . — doi : .
  • Bianca Zadrozny, Charles Elkan. Obtaining calibrated probability estimates from decision trees and naive Bayesian classifiers // . — San Francisco, CA: Morgan Kaufmann, 2001.
  • John Platt. // Advances in large margin classifiers. — 1999. — Т. 10 , вып. 3 .
  • Bianca Zadrozny, Charles Elkan. Transforming classifier scores into accurate multiclass probability estimates // . — 2002. — ISBN 1-58113-567-X . — doi : .
  • Trevor Hastie, Robert Tibshirani. Classification by pairwise coupling // . — 1998. — Т. 26 , вып. 2 . — doi : .
Источник —

Same as Вероятностный классификатор