Interested Article - Ранняя остановка

В машинном обучении , ранняя остановка — форма регуляризации , используемая для избежания переобучения при обучении модели с помощью итеративного метода, например, такого, как градиентный спуск . При использовании подобных методов модель обновляется после каждой итерации для того, чтобы лучше соответствовать обучающим данным и до определенного момента это улучшает производительность модели также и на данных, не входящих в обучающий набор, но после этого момента улучшение соответствия модели обучающим данным происходит за счёт увеличения . Правила ранней остановки являются руководством по определению того, как много итераций может пройти, перед переобучением модели и они используются во множестве методов машинного обучения.

Базовые концепции машинного обучения

Некоторые базовые концепции машинного обучения, необходимые для описания методов ранней остановки.

Переобучение

На данном изображении представлена проблема переобучения в машинном обучении. Красными точками показан обучающий набор данных. Зеленой линией показан настоящее функциональное отношение, а синей линией показана функция обучения, которая стала жертвой переобучения.

Алгоритмы машинного обучения обучают модель, основываясь на конечном множестве обучающих данных. Во время обучения производительность модели оценивается согласно тому, как хорошо она прогнозирует наблюдения, содержащиеся в обучающем наборе. В общем целью машинного обучения является создание модели, которая прогнозирует ранее не видимые наблюдения. Переобучение происходит, когда модель хорошо соответствует данным в обучающем наборе, a начинает расти.

Регуляризация

Регуляризация в контексте машинного обучения обозначает процесс изменения алгоритма обучения для предотвращения процесса переобучения. Обычно этот процесс использует некоторый вид плавного ограничения обучаемой модели. Гладкость может быть достигнута явно, с использованием фиксированного числа параметров модели, или дополнением модели функцией потерь, как в методе регуляризации Тихонова . Регуляризация Тихонова, вместе с и множеством других схем регуляризации, находятся в одной группе спектральной регуляризации — регуляризации с использованием фильтра. Ранняя остановка также принадлежит этому классу методов.

Методы градиентного спуска

Методы градиентного спуска являются итеративными методами оптимизации первого порядка. Каждая итерация обновляет приближенное решение для проблемы оптимизации делая шаг в направлении отрицательного градиента целевой функции. Соответствующим образом выбирая размер шага, так что метод может стать сводимым к локальному минимуму целевой функции. При использовании градиентного спуска в машинном обучении функция потерь отражает ошибку модели на обучающем наборе и затем минимизирует эту функцию.

Ранняя остановка основанная на аналитическом результате

Ранняя остановка в статистической теории обучения

Ранняя остановка может быть использована для регуляризации проблем , встречающихся в машинном обучении. Для данного входного пространства $X$ , выходного пространства $Y$ и экземпляров, полученных с помощью неизвестной вероятностной меры $\rho$ , при $Z=X\times Y$ , необходимо аппроксимировать регрессионную функцию $f_{\rho }$ ,

f_{\rho }(x)=\int _{Y}y\,d\rho (y\mid x),\,x\in X,

где $\rho (y\mid x)$ является условным распределением $x$ вызванным $\rho$ . Одним из распространенных подходов для аппроксимации регрессионной функции является использование функций . Эти пространства могут быть бесконечномерными, в том смысле, что они могут предоставить решения, которые переобучат обучающие наборы любого размера. Регуляризация, таким образом, особенно важна для этих методов. Одним из подходов регуляризации проблем непараметрической регрессии является применение правила ранней остановки к итеративной процедуре, например, такой как градиентный спуск.

Правила ранней остановки, предлагаемые для этих проблем, основаны на анализе верхней границы ошибки обобщения как функции числа итераций. Они дают предписания для количества необходимых итераций, которое может быть вычислено перед запуском процесса поиска решения .

Пример: Метод наименьших квадратов

(Адаптировано из Yao, Rosasco and Caponnetto, 2007 )

Пусть $X\subseteq \mathbb {R} ^{n}$ и $Y=\mathbb {R} .$ Учитывая множество экземпляров

\mathbf {z} =\left\{(x_{i},y_{i})\in X\times Y:i=1,\dots ,m\right\}\in Z^{m},

взятых независимо из $\rho$ , необходимо минимизировать функционал

{\mathcal {E}}(f)=\int _{X\times Y}(f(x)-y)^{2}\,d\rho

где $f$ — это член гильбертова пространства с воспроизводящим ядром ${\mathcal {H}}$ . То есть, необходимо минимизировать ожидаемый риск для функции потерь наименьших квадратов. Так как ${\mathcal {E}}$ зависит от неизвестной вероятностной меры $\rho$ , он не может быть использован для вычисления. Вместо этого, рассмотрим следующий эмпирический риск

{\mathcal {E}}_{\mathbf {z} }(f)={\frac {1}{m}}\sum _{i=1}^{m}\left(f(x_{i})-y_{i}\right)^{2}.

Пусть $f_{t}$ и $f_{t}^{\mathbf {z} }$ являются t повторами градиентного спуска примененного к ожидаемым и эмпирическим рискам, соответственно, в случае, когда обе итерации инициализированы в начале координат и используют размер шага $\gamma _{t}$ . $f_{t}$ формирует итерацию совокупленности , которая сходится к $f_{\rho }$ , но не может быть использована в вычислениях, пока $f_{t}^{\mathbf {z} }$ формирует итерацию выборки , которая обычно сходится к переобучаемому решению.

Мы хотим контролировать разницу между ожидаемым риском итерации выборки и минимальным ожидаемым риском, то есть, ожидаемым риском функции регрессии:

{\mathcal {E}}(f_{t}^{\mathbf {z} })-{\mathcal {E}}(f_{\rho })

Разница может быть перезаписана как сумма двух терминов: разница в ожидаемом риске между итерациями выборки и совокупности, и разница между итерацией совокупности и функцией регрессии:

{\mathcal {E}}(f_{t}^{\mathbf {z} })-{\mathcal {E}}(f_{\rho })=\left[{\mathcal {E}}(f_{t}^{\mathbf {z} })-{\mathcal {E}}(f_{t})\right]+\left[{\mathcal {E}}(f_{t})-{\mathcal {E}}(f_{\rho })\right]

Это уравнение представляет дилемму смещения-дисперсии , которая затем решается для нахождения оптимального правила остановки, которое может зависеть от неизвестного вероятностного распределения. Это правило связано с вероятностными границами ошибки обобщения. Анализ,приводящий к определению правила и границам ранней остановки описан в первоначальной статье. На практике для получения адаптивного правила остановки, могут быть использованы различные методы управляемые данными, например такие, как перекрестная сверка.

Ранняя остановка в бустинге

Бустингом называется семейство алгоритмов, в которых множество слабых моделей (моделей, слабо описывающих истинный процесс) комбинируются для создания сильной модели . Было показано, что для некоторых алгоритмов бустинга (включаюших AdaBoost ), регуляризация с помощью ранней остановки может предоставить гарантии , то есть, того, что результат алгоритма будет достигать истинного решения по при стремлении количества выборок к бесконечности.

L ₂ -бустинг

Методы бустинга, имеющие тесные связи с методами ранней остановки для непараметрической регрессии с помощью градиентного спуска можно считать методом бустинга основанного на функции потерь $L_{2}$ : L ₂ Boost .

Ранняя остановка, основанная на проверке

Данные правила ранней остановки работают при разделении первоначального обучающего набора на новый обучающий набор и проверочный набор. Ошибка на проверочном наборе используется вместо для определения момента, в который началось переобучение. Правила наиболее часто используются в обучении искусственных нейронных сетей . Пречелт дает следующее обобщение реализации ранней остановки, основанной на :

Разделить обучающий набор данных на обучающий набор и проверочный набор, например в пропорции два к одному.

Обучить только с использованием обучающего набора, иногда оценивая ошибки поэкземлярно с помощью проверочного набора, например после каждой пятой эпохи.

Остановить обучение, после того как ошибка на проверочном наборе станет больше, чем она была во время последней проверки.

Использовать веса сети из предыдущего шага в качестве результата обучения.
— Lutz Prechelt, Early Stopping – But When?

Более сложные формы используют перекрёстную проверку — многократное разделение данных на обучающий и проверочный наборы, вместо одногократного разделения. Но даже эта простая процедура осложняется на практике тем фактом, что ошибка пожет колебаться во время обучения, создавая множество локальных минимумов. Это осложнение привело к созданию множества правил для определения истинного начала переобучения.

См. также

Переобучение , ранняя остановка является одним из методов, используемых для предотвращения переобучения
Регуляризация (математика)
Статистическая теория обучения
Бустинг
Перекрёстная проверка
Нейронная сеть

Примечания

Girosi, Federico; Michael Jones; Tomaso Poggio (1995-03-01). . Neural Computation . 7 (2): 219—269. CiteSeerX . doi : . ISSN . S2CID .
↑ Smale, Steve; Ding-Xuan Zhou (2007-08-01). "Learning Theory Estimates via Integral Operators and Their Approximations". Constructive Approximation . 26 (2): 153—172. CiteSeerX . doi : . ISSN . S2CID .
↑ Yao, Yuan; Lorenzo Rosasco; Andrea Caponnetto (2007-08-01). "On Early Stopping in Gradient Descent Learning". Constructive Approximation . 26 (2): 289—315. CiteSeerX . doi : . ISSN . S2CID .
Raskutti, G.; M.J. Wainwright; Bin Yu (2011). "Early stopping for non-parametric regression: An optimal data-dependent stopping rule". 2011 49th Annual Allerton Conference on Communication, Control, and Computing (Allerton) . 2011 49th Annual Allerton Conference on Communication, Control, and Computing (Allerton). pp. 1318—1325. doi : .
Wenxin Jiang (February 2004). . The Annals of Statistics . 32 (1): 13—29. doi : . ISSN .
Bühlmann, Peter; Bin Yu (2003-06-01). . Journal of the American Statistical Association . 98 (462): 324—339. doi : . ISSN . JSTOR . S2CID .
Tong Zhang; Bin Yu (2005-08-01). . The Annals of Statistics . 33 (4): 1538—1579. arXiv : . Bibcode : . doi : . ISSN . JSTOR . S2CID .
↑ Prechelt, Lutz. Early Stopping — But When? // / Lutz Prechelt, Geneviève B. Orr. — Springer Berlin Heidelberg, 2012-01-01. — P. –67. — ISBN 978-3-642-35289-8 . — doi : .