Interested Article - Вероятностный классификатор
- 2020-07-29
- 1
Вероятностный классификатор — классификатор , который способен предсказывать, если на входе заданы наблюдения, распределение вероятностей над множеством классов, а не только вывод наиболее подходящего класса, к которому наблюдения принадлежат. Вероятностные классификаторы обеспечивают классификацию, которая может быть полезна сама по себе или когда классификаторы собираются в ансамбли .
Типы классификации
Формально, «обычный» классификатор — это некоторое правило или функция , которая назначает наблюдению x класс меток ŷ :
Наблюдения берутся из некоторого множества X (например, множество всех документов , или множество всех изображений ), в то время класс меток образует конечное множество Y , определённое до тренировки классификатора.
Вероятностные классификаторы обобщают понятие классификаторов — вместо функций они являются условными вероятностями , что значит, что для данного классификатор назначает вероятности для всех (и сумма этих вероятностей равна единице). «Жёсткая» классификация может затем быть осуществлена с помощью правила принятия оптимальных решений .
то есть предсказанный класс — это класс с наибольшей вероятностью.
Бинарные вероятностные классификаторы называются в статистике также моделями. В эконометрике вероятностный классификатор в общем случае называется дискретным выбором .
Некоторые классификационные модели, такие как наивный байесовский классификатор, логистическая регрессия и многослойные перцептроны (когда они тренируются с подходящими функциями потерь ) естественным образом являются вероятностными. Другие модели, такие как методы опорных векторов , вероятностными не являются, но , превращающие их в вероятностные классификаторы.
Порождающая и условная тренировки
Некоторые модели, такие как модель логистической регрессии тренируются условно — они оптимизируют условную вероятность непосредственно на тренировочном наборе ( минимизация эмпирического риска ). Другие классификаторы, такие как наивный байесовский классификатор, являются тренированными классификаторами — во время тренировки находятся условное по классам распределение и априорный класс , а условное распределение получают с помощью байесовского правила .
Калибрация вероятности
Не все модели классификации естественным образом вероятностны, а те, которые вероятностны по своей природе, в частности, наивные байесовские классификаторы, деревья решений и методы бустинга , дают искажённые распределения вероятностей . В случае деревьев решений , когда Pr( y | x ) является пропорцией тренировочных выборок с меткой y в листе, которым x заканчивается, это искажение распределения возникает ввиду того, что обучающие алгоритмы, такие как C4.5 или деревья классификации и регрессии ( англ. Classification and regression trees , CART) в явном виде стремятся получить однородные листья (давая вероятности, близкие к нулю или единице, а потому сильное смещение ), в то время как для оценки пропорции используется лишь несколько экземпляров (высокая дисперсия ) .
Может быть определено масштабирование с помощью калибровочного графика (называемого также диаграммой надёжности ). Калибровочный график показывает пропорцию элементов в каждом классе для дорожек предсказанной вероятности или показателя (такого как искривлённое распределение вероятностей или «расстояния до гиперплоскости » (со знаком) в методе опорных векторов). Отклонения о тождественной функции указывают на плохо калиброванный классификатор, для которого предсказанные вероятности или показатели не могут быть использованы в качестве вероятностей. В этом случае можно использовать метод превращения этих показателей в должным образом класс вероятностей.
Для двоичного случая общим подходом является применение , который обучает модель логистической регрессии по показателям . Альтернативный метод с использованием обычно лучше метода Платта, если доступен достаточно большой набор тренировлчных данных .
В случае можно использовать сведение к двоичным задачам с последующей одномерной калибровкой по алгоритму, как описано выше, а потом применением алгоритма попарного объединения Гесте и Тибширани .
Вычисление вероятностной классификации
Обычно используемые функции потерь для вероятностной классификации — логистическая функция потерь и между предсказанным и истинным распределением вероятностей. Первая из этих функций обычно используется для тренировки логистических моделей.
Метод, используемый для назначения показателей парам предсказанных вероятностей и актуальных дискретных исходов, так что различные методы предсказания можно было бы сравнить, называется .
Примечания
- , с. 348.
- , с. 39–40.
- , с. 43.
- ↑ .
- , с. 609–616.
- , с. 61–74.
- , с. 694–699.
- , с. 451–471.
Литература
-
Trevor Hastie, Robert Tibshirani, Jerome Friedman.
. — 2009.
от 26 января 2015 на
Wayback Machine
- В 219 выйдет перевод книги «Основы статистического обучения: интеллектуальный анализ данных, логический вывод и прогнозирование», Тревор Хасти, Роберт Тибширани, Джером Фридман, издательство «ДИАЛЕКТИКА»
-
Christopher M.
Pattern Recognition and Machine Learning. — Springer, 2006. — (Information Science and Statistic).
- Книга «Распознавание образов и машинное обучение», Кристофер М. Бишоп, будет издана издательством «ДИАЛЕКТИКА» в 2019
- Alexandru Niculescu-Mizil, Rich Caruana. Predicting good probabilities with supervised learning // . — 2005. — ISBN 0-387-31073-8 . — doi : .
- Bianca Zadrozny, Charles Elkan. Obtaining calibrated probability estimates from decision trees and naive Bayesian classifiers // . — San Francisco, CA: Morgan Kaufmann, 2001.
- John Platt. // Advances in large margin classifiers. — 1999. — Т. 10 , вып. 3 .
- Bianca Zadrozny, Charles Elkan. Transforming classifier scores into accurate multiclass probability estimates // . — 2002. — ISBN 1-58113-567-X . — doi : .
- Trevor Hastie, Robert Tibshirani. Classification by pairwise coupling // . — 1998. — Т. 26 , вып. 2 . — doi : .
- 2020-07-29
- 1