Interested Article - Минимизация эмпирического риска

Минимизация эмпирического риска (МЭР, англ. Empirical risk minimization , ERM) — это принцип статистической теории обучения , который определяет семейство обучающихся алгоритмов и который задаёт теоретические границы результативности.

Основания

Рассмотрим следующую ситуацию, которая является основной установкой многих задач контролируемого обучения . Мы имеем два пространства объектов и и хотели бы натренировать функцию (часто именуемую гипотезой ), которая ставит объект в соответствие объекту . Для этого мы имеем в распоряжении тренировочный набор из экземпляров , где является входом, а является соответствующим ответом, который мы хотим получить от .

Выражаясь более формально, предположим, что существует совместное распределение над и , и что тренировочный набор состоит из экземпляров , выбранных из независимых случайно распределённых величин из . Заметим, что допущение о совместном распределении позволяет симулировать неопределённость в предсказании (например, из-за шума в данных), поскольку не является детерминированной функцией от , а скорее случайной величиной с условным распределением для фиксированного .

Предположим также, что нам дана неотрицательная вещественнозначная функция потери , которая измеряет то, насколько отличается предсказание гипотезы от истинного выхода , ассоциированный с гипотезой , определяется тогда как математическое ожидание функции потери:

Часто в качестве функции потери в теории используется 0-1 функция потери : , где означает индикатор .

Высшей целью обучающегося алгоритма является отыскание гипотезы в фиксированном классе функций , для которых риск минимален:

Минимизация эмпирического риска

В общем случае риск не может быть вычислен, поскольку распределение неизвестно для обучающего алгоритма (эта ситуация называется агностическим обучением ). Однако мы можем вычислить аппроксимацию , именуемую эмпирическим риском , путём усреднения функции потери на тренировочном наборе:

Принцип минимизации эмпирического риска (МЭР) утверждает, что обучающийся алгоритм должен выбирать гипотезу , которая минимизирует риск:

Тогда обучающийся алгоритм, определённый принципом МЭР состоит в решении вышеуказанной задачи оптимизации .

Свойства

Вычислительная сложность

Известно, что минимизация эмпирического риска для задачи классификации с 0-1 функцией потери является NP-трудной даже для такого относительно простого класса функций задач, как линейные классификаторы . Хотя она может быть эффективно решена, когда минимальный эмпирический риск равен нулю, то есть данные линейно сепарабельны .

На практике автоматически обучающиеся алгоритмы справляются с этим либо путём выпуклой аппроксимации до 0-1 функции потери (подобно для машин опорных элементов ), которую проще оптимизировать, либо выдвижением допущения о распределении (а тогда обучающийся алгоритм перестаёт быть агностическим).

См. также

Примечания

  1. , с. 831–838.
  2. , pp. 1558-1590.

Литература

  • Vapnik V. // Advances in neural information processing systems. — 1992.
  • Feldman V., Guruswami V., Raghavendra P., Yi Wu. // SIAM Journal on Computing. — 2012. — Т. 41 , вып. 6 . — С. 1558—1590 . — doi : .

Литература для дальнейшего чтения

  • Vapnik V. The Nature of Statistical Learning Theory. — 2000. — (Information Science and Statistics). — ISBN 978-0-387-98780-4 .
Источник —

Same as Минимизация эмпирического риска