Минимизация ДКА
- 1 year ago
- 0
- 0
Минимизация эмпирического риска (МЭР, англ. Empirical risk minimization , ERM) — это принцип статистической теории обучения , который определяет семейство обучающихся алгоритмов и который задаёт теоретические границы результативности.
Рассмотрим следующую ситуацию, которая является основной установкой многих задач контролируемого обучения . Мы имеем два пространства объектов и и хотели бы натренировать функцию (часто именуемую гипотезой ), которая ставит объект в соответствие объекту . Для этого мы имеем в распоряжении тренировочный набор из экземпляров , где является входом, а является соответствующим ответом, который мы хотим получить от .
Выражаясь более формально, предположим, что существует совместное распределение над и , и что тренировочный набор состоит из экземпляров , выбранных из независимых случайно распределённых величин из . Заметим, что допущение о совместном распределении позволяет симулировать неопределённость в предсказании (например, из-за шума в данных), поскольку не является детерминированной функцией от , а скорее случайной величиной с условным распределением для фиксированного .
Предположим также, что нам дана неотрицательная вещественнозначная функция потери , которая измеряет то, насколько отличается предсказание гипотезы от истинного выхода , ассоциированный с гипотезой , определяется тогда как математическое ожидание функции потери:
Часто в качестве функции потери в теории используется 0-1 функция потери : , где означает индикатор .
Высшей целью обучающегося алгоритма является отыскание гипотезы в фиксированном классе функций , для которых риск минимален:
В общем случае риск не может быть вычислен, поскольку распределение неизвестно для обучающего алгоритма (эта ситуация называется агностическим обучением ). Однако мы можем вычислить аппроксимацию , именуемую эмпирическим риском , путём усреднения функции потери на тренировочном наборе:
Принцип минимизации эмпирического риска (МЭР) утверждает, что обучающийся алгоритм должен выбирать гипотезу , которая минимизирует риск:
Тогда обучающийся алгоритм, определённый принципом МЭР состоит в решении вышеуказанной задачи оптимизации .
Известно, что минимизация эмпирического риска для задачи классификации с 0-1 функцией потери является NP-трудной даже для такого относительно простого класса функций задач, как линейные классификаторы . Хотя она может быть эффективно решена, когда минимальный эмпирический риск равен нулю, то есть данные линейно сепарабельны .
На практике автоматически обучающиеся алгоритмы справляются с этим либо путём выпуклой аппроксимации до 0-1 функции потери (подобно для машин опорных элементов ), которую проще оптимизировать, либо выдвижением допущения о распределении (а тогда обучающийся алгоритм перестаёт быть агностическим).