Interested Article - Статистическая теория обучения

Статистическая теория обучения — это модель для машинного обучения на основе статистики и функционального анализа . Статистическая теория обучения имеет дело с задачами нахождения функции предсказывания, основанной на данных. Статистическая теория обучения привела к успешным приложениям в таких областях, как компьютерное зрение , распознавание речи и биоинформатика .

Введение

Целью обучения является понимание и предвидение. Обучение распадается на несколько категорий, включая обучение с учителем , обучение без учителя , онлайновое обучение и обучение с подкреплением . С точки зрения статистической теории обучения обучение с учителем является наиболее понятным . Обучение с учителем вовлекает обучение с помощью данных. Любой момент тренировки является парой вход/выход, где входное значение отображается в выходное. Задача обучения состоит в реконструкции функции, которая отображает входные значения в выходные так, что функция может быть использована для предсказания вывода при будущих вводах.

В зависимости от типа вывода, задачи обучения с учителем либо являются задачами регрессии , либо задачами классификации . Если вывод может принимать непрерывную область значений, это задача регрессии. Используя закон Ома в качестве примера, регрессия могла бы брать напряжение в качестве входа и выдавать ток как выход. Регрессия могла бы найти связь напряжения и тока как ${\frac {1}{R}}$ , так что

I={\frac {1}{R}}V

Задачи классификации — это те, для которых выводом будет элемент из набора меток. Классификация очень обычна для приложений машинного обучения. В системе распознавания лиц , например, изображение лица будет входом, а выходом может быть фамилия человека. Вход может быть представлен как большой многомерный вектор, элементы которого представляют пиксели в изображении.

После обучения функция, основанная на тренировочном наборе данных, это функция проверяется на тестовом наборе данных, которые не появляются в тренировочном наборе.

Формальное описание

Пусть $X$ будет векторным пространством всех возможных входных данных, а $Y$ — векторным пространством всех возможных выходов. Статистическая теория обучения предполагает, что имеется некоторое неизвестное распределение вероятности над произведением пространств $Z=X\times Y$ , то есть существует некоторая неизвестная $p(z)=p({\vec {x}},y)$ . Тренировочное множество состоит из $n$ экземпляров этого распределения вероятности и обозначается

S=\{({\vec {x}}_{1},y_{1}),\dots ,({\vec {x}}_{n},y_{n})\}=\{{\vec {z}}_{1},\dots ,{\vec {z}}_{n}\}

Каждый ${\vec {x}}_{i}$ является входным вектором из тренировочных данных, а $y_{i}$ является выходом, соответствующим этому входному вектору.

В такой формализации задача вывода состоит в нахождении функции $f:X\to Y$ , такой что $f({\vec {x}})\sim y$ . Пусть ${\mathcal {H}}$ — пространство функций $f:X\to Y$ , которое называется пространством гипотез. Пространство гипотез — это пространство, которое алгоритм будет просматривать. Пусть $V(f({\vec {x}}),y)$ будет функцией потерь , метрикой разницы между предсказанным значением $f({\vec {x}})$ и истинным значением $y$ . Ожидаемый риск определяется как

I[f]=\displaystyle \int _{X\times Y}V(f({\vec {x}}),y)\,p({\vec {x}},y)\,d{\vec {x}}\,dy

Целевая функция, лучшая функция $f$ , которая может быть выбрана, это функция, удовлетворяющая условию

I[f]=\inf _{h\in {\mathcal {H}}}I[h]

Поскольку распределение вероятности $p({\vec {x}},y)$ неизвестно, должны быть использованы косвенные показатели ожидаемого риска. Эти показатели основываются на тренировочном множестве, выборке из этого неизвестного распределения вероятности. Такой показатель называется эмпирическим риском: $I[f]={\frac {1}{n}}\displaystyle \sum _{i=1}^{n}V(f({\vec {x}}_{i}),y_{i})$ . Алгоритм обучения, который выбирает функцию $f$ , минимизирующую эмпирический риск, называется .

Функции потерь

Выбор функции потерь — это определение определяющего фактора для функции $f_{S}$ , которая будет выбрана обучающим алгоритмом. Функция потерь влияет также на скорость сходимости алгоритма. Важно, чтобы функции потерь была выпуклой .

Используются разные функции потерь в зависимости от того, является задача регрессией или классификацией.

Регрессия

Наиболее употребительной функцией потерь для регрессии является квадратичная функция потерь (известная также как L2-норма ). Эта знакомая функция потерь используется в . Формула:

V(f({\vec {x}}),y)=(y-f({\vec {x}}))^{2}

Абсолютная величина потери (известная также как L1-норма ) также иногда используется:

V(f({\vec {x}}),y)=|y-f({\vec {x}})|

Классификация

В некотором смысле 0-1 индикаторная функция является наиболее естественной функцией потерь для задач классификации. Функция принимает значение 0, если предсказанный результат совпадает с верным значением и значение 1, если предсказанный результат не совпадает с верным значением. Для двоичной классификации $Y=\{-1,1\}$ это будет:

V(f({\vec {x}}),y)=\theta (-yf({\vec {x}}))

где $\theta$ — функция Хевисайда .

Рисунок показывает пример переобучения при машинном обучении. Красные точки представляют тренировочные данные. Зелёная линия представляет истинную функциональную зависимость, в то время как синяя линия показывает функцию — результат обучения, ставшую жертвой переобучения.

Регуляризация

В задачах машинного обучения главной проблемой становится переобучение . Поскольку обучение является задачей предсказания, целью является не поиск функции, которая наиболее близко подходит для (предварительно просмотренных) данных, а поиск функции, которая будет наиболее точно предсказывать выход из будущих входных данных. Минимизация эмпирического риска попадает в этот риск переобучения — нахождение функции, которая соответствует в точности данным, но не в состоянии предсказать будущее.

Переобучение является симптомом нестабильных решений — малые изменения в тренировочном наборе могут вызвать большие вариации в функции обучения. Можно показать, что стабильность решения может быть гарантирована . Регуляризация может решить проблему переобучения и обеспечить стабильность.

Регуляризация может быть осуществлена путём ограничения пространства гипотез ${\mathcal {H}}$ . Можно ограничить, например, ${\mathcal {H}}$ линейными функциями — это можно рассматривать как ограничение до стандартной задачи линейной регрессии . ${\mathcal {H}}$ можно ограничить до многочленов степени $p$ , экспонент или ограниченных функций на L1 . Ограничение на пространстве гипотез исключает переобучение ограничением вида потенциальных функций, что не даёт выбирать функции, дающие эмпирический риск произвольно близким нулю.

Одним из примеров регуляризации является регуляризация Тихонова . Она состоит в минимизации

{\frac {1}{n}}\displaystyle \sum _{i=1}^{n}V(f({\vec {x}}_{i},y_{i}))+\gamma \|f\|_{\mathcal {H}}^{2}

,

где $\gamma$ фиксированный положительный параметр. Метод регуляризации Тихонова обеспечивает существование, единственность и стабильность решения .

Примечания

.
.
Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications , 2012, от 16 сентября 2012 на Wayback Machine
, с. 1063—1076.
, с. 264—280.
, с. 161—193.
Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications , 2012, от 16 августа 2016 на Wayback Machine

Литература

Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical Learning. — Springer-Verlag, 2009. — ISBN 978-0-387-84857-0 .
Mehryar Mohri, Afshin Rostamizadeh, Ameet Talwalkar. Foundations of Machine Learning.. — USA, Massachusetts: MIT Press., 2012. — ISBN 9780262018258 .
Gagan Sidhu, Brian Caffo. Exploiting pitcher decision-making using Reinforcement Learning // Annals of Applied Statistics. — 2014. — Т. 8 , вып. 2 . — doi : .
Rosasco L., Vito E.D., Caponnetto A., Fiana M., Verri A. Are loss functions all the same? // Neural computation. — 2004. — Т. 16 .
Vapnik V. N. , Chervonenkis A. Y. // Theory of Probability and its Applications. — 1971. — Т. 16 .
Mukherjee S., Niyogi P., Poggio T., Rifkin R. Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization // Advances in Computational Mathematics. — 2006. — Т. 25 .

[_2f5f8a5736a19ba1-1] .

[_c96aae220ded1ab1-2] .

[3] Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications , 2012, от 16 сентября 2012 на Wayback Machine

[_201343e2349b349b-4] , с. 1063—1076.

[_5d298b6a3fb48abb-5] , с. 264—280.

[_f5a1869f271c48c7-6] , с. 161—193.

[7] Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications , 2012, от 16 августа 2016 на Wayback Machine

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k-ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамблевое обучение Бэггинг Бустинг Random forest Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель
Выявление аномалий	Метод k-ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение
Теория	Теория Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning
Журналы и конференции	JMLR

Interested Article - Статистическая теория обучения

Содержание

Введение

Формальное описание

Функции потерь

Регрессия

Классификация

Регуляризация

Примечания

Литература

Лекционно-семинарская система обучения

Same as Статистическая теория обучения

Статистическая теория поля

Электроника/Словники/По книге Перова Статистическая теория радиотехнических систем. Учебник для ВУЗов 2003

Статистическая теория поля

Теория вычислительного обучения

Статистическая служба Канады

Метод реплик (статистическая физика)

Статистическая значимость

Статистическая сумма

Статистическая сумма

Статистическая комиссия ООН

Лекционно-семинарская система обучения

Статистическая физика

Статистическая значимость

Национальная статистическая служба Великобритании

Проект обучения молодых аниматоров

Виртуальная среда обучения

Технология обучения

Заслуженный мастер производственного обучения Российской Федерации

Мастера производственного обучения России

Лабораторно-бригадный метод обучения

The title for the last searches