Interested Article - Оккамово обучение

Оккамово обучение в теории вычислительного обучения является моделью , где целью обучения является получение сжатого представления имеющихся тренировочных данных. Метод тесно связан с почти корректным обучением (ВПК-обучение, англ. Probably Approximately Correct learning , PAC learning), где учитель оценивает прогнозирующую способность тестового набора.

Оккамова обучаемость влечёт ПК обучение и для широкого класса понятий обратное тоже верно — ПК обучаемость влечёт оккамову обучаемость.

Введение

Оккамово обучение названо по термину « бритва Оккама », который является принципом, утверждающим, что при предположении отсутствия дополнительных сущностей короткому объяснению наблюдений следует давать предпочтение по сравнению с более длинным объяснением (кратко: «Не следует множить сущее без необходимости»). Теория оккамова обучения является формальным и математическим уточнением этого принципа. Блюмер с соавторами первыми показали , что оккамово обучение влечёт ПК обучение, которое является стандартной моделью обучения в теории вычислительного обучения. Другими словами, бережливость (выходной гипотезы) влечёт прогнозирующую способность .

Определение оккамова обучения

Лаконичность понятия $c$ в классе понятий ${\mathcal {C}}$ можно выразить как длину $size(c)$ самой короткой строки бит, которая может представить понятие $c$ в классе ${\mathcal {C}}$ . Оккамово обучение соединяет лаконичность выхода алгоритма обучения с его прогнозирующей способностью.

Пусть ${\mathcal {C}}$ и ${\mathcal {H}}$ являются классами понятий, содержащих целевые понятия и гипотезы соответственно. Тогда, для констант $\alpha \geqslant 0$ и $0\leqslant \beta <1$ алгоритм обучения $L$ является $(\alpha ,\beta )$ -оккамовым алгоритмом для ${\mathcal {C}}$ по гипотезам ${\mathcal {H}}$ тогда и только тогда, когда, если дано множество $S=\{x\}$ , содержащее $m$ экземпляров, помеченных согласно понятию $c(x)\in {\mathcal {C}}$ , выходом алгоритма $L$ является гипотеза $h\in {\mathcal {H}}$ , такая, что

$h$ согласуется с $c$ на $S$ (то есть $h(x)=c(x),\forall x\in S$ )
$size(h)\leqslant (n\cdot size(c))^{\alpha }m^{\beta }$

где $n$ является максимальной длиной любого экземпляра $x\in S$ . Алгоритм Оккама называется эффективным , если работает за полиномиальное от $n$ , $m$ и $size(c)$ время. Мы говорим, что класс понятий ${\mathcal {C}}$ оккамово обучаем по отношению к классу гипотез ${\mathcal {H}}$ , если существует эффективный алгоритм Оккама для ${\mathcal {C}}$ по гипотезам ${\mathcal {H}}.$

Связь между оккамовым обучением и ПК обучением

Оккамова обучаемость влечёт ПК обучаемость, как показывает теорема Блюмера с соавторами :

Теорема ( Оккамово обучение влечёт ПК обучение )

Пусть $L$ является эффективным $(\alpha ,\beta )$ -оккамовым алгоритмом для ${\mathcal {C}}$ по гипотезам ${\mathcal {H}}$ . Тогда существует константа $a>0$ , такая что для любых $0<\epsilon ,\delta <1$ для любого распределения ${\mathcal {D}}$ , если дано $m\geqslant a\left({\frac {1}{\epsilon }}\log {\frac {1}{\delta }}+\left({\frac {(n\cdot size(c))^{\alpha })}{\epsilon }}\right)^{\frac {1}{1-\beta }}\right)$ экземпляров, извлечённых из ${\mathcal {D}}$ и помеченных согласно понятию $c\in {\mathcal {C}}$ каждый $n$ битами, алгоритм $L$ даст гипотезу $h\in {\mathcal {H}}$ , такую что $error(h)\leqslant \epsilon$ с вероятностью по меньшей мере $1-\delta$

. Здесь $error(h)$ учитывает понятие $c$ и распределение ${\mathcal {D}}$ . Отсюда следует, что алгоритм $L$ является ПК учителем класса понятий ${\mathcal {C}}$ при классе гипотез ${\mathcal {H}}$ . Слегка более общая формулировка:

Теорема ( Оккамово обучение влечёт ПК обучение, версия с длиной )

Пусть $0<\epsilon ,\delta <1$ . Пусть $L$ будет алгоритмом, таким что при заданном наборе из $m$ экземпляров, извлечённых из фиксированного, но неизвестного распределения ${\mathcal {D}}$ и помеченных согласно понятия $c\in {\mathcal {C}}$ строкой бит длиной $n$ каждый, выходом будет гипотеза $h\in {\mathcal {H}}_{n,m}$ , согласующаяся с помеченными экзмеплярами. Тогда существует константа $b$ , такая что в случае $\log |{\mathcal {H}}_{n,m}|\leqslant b\epsilon m-\log {\frac {1}{\delta }}$ $L$ гарантированно даёт гипотезу $h\in {\mathcal {H}}_{n,m}$ , такую что $error(h)\leqslant \epsilon$ с вероятностью по меньшей мере $1-\delta$ .

Хотя приведённые теоремы показввают, что оккамово обучение достаточно для ПК обучения, они ничего не говорят о необходимости . Боард и Питт показали, что для широкого класс понятий оккамово обучение является необходимым для ПК обучения . Они показали, что для любого класса понятий, который полиномиально замкнут по спискам исключений , ПК обучаемость влечёт существование оккамова алгоритма для этого класса понятий. Классы понятий, полиномиально замкнутые по спискам исключений, включают булевские формулы, суммирующие цепи, детерминированные конечные автоматы , списки решений, деревья решений и другие классы понятий на геометрической основе.

Класс понятий ${\mathcal {C}}$ полиномиально замкнут по спискам исключений, если существует алгоритм полиномиального времени выполнения $A$ , такой, что, если задано представление понятия $c\in {\mathcal {C}}$ и конечный список $E$ исключений , выходом алгоритма будет представление понятия $c'\in {\mathcal {C}}$ , такое, что понятия $c$ и $c'$ согласуются за исключение элементов множества $E$ .

Доказательство, что оккамово обучение влечёт ПК обучение

Мы сначала докажем версию с длиной. Назовём гипотезу $h\in {\mathcal {H}}$ плохой , если $error(h)\geqslant \epsilon$ , где снова $error(h)$ учитывает истинное понятие $c$ и распределение ${\mathcal {D}}$ . Вероятность, что множество $S$ согласуется с $h$ , не превосходит $(1-\epsilon )^{m}$ , согласно независимости выборок. Для полного множества вероятность, что существует плохая гипотеза в ${\mathcal {H}}_{n,m}$ , не превосходит $|{\mathcal {H}}_{n,m}|(1-\epsilon )^{m}$ , что меньше, чем $\delta$ , если $\log |{\mathcal {H}}_{n,m}|\leqslant O(\epsilon m)-\log {\frac {1}{\delta }}$ . Это завершает доказательство второй теоремы.

Используя вторую теорему, мы докажем первую. Поскольку мы имеем $(\alpha ,\beta )$ -оккамов алгоритм, это означает, любая выходная гипотеза алгоритма $L$ может быть представлена не более чем $(n\cdot size(c))^{\alpha }m^{\beta }$ битами, а тогда $\log |{\mathcal {H}}_{n,m}|\leqslant (n\cdot size(c))^{\alpha }m^{\beta }$ . Это меньше, чем $O(\epsilon m)-\log {\frac {1}{\delta }}$ , если мы положим $m\geqslant a\left({\frac {1}{\epsilon }}\log {\frac {1}{\delta }}+\left({\frac {(n\cdot size(c))^{\alpha })}{\epsilon }}\right)^{\frac {1}{1-\beta }}\right)$ для некоторой константы $a>0$ . Тогда, по версии теоремы с длиной, $L$ даст согласованную гипотезу $h$ с вероятностью не менее $1-\delta$ . Это завершает доказательство первой теоремы.

Улучшение сложности выборки для общих задач

Хотя оккамова обучаемость и ПК обучаемость эквивалентны, алгоритм Оккама может быть использован для получения более тесных границ сложности выборки для классических задач, включая логические умозаключения , умозаключения с несколькими переменными и списки решений .

Расширения

Оккамовы алгоримы, как было показано, успешно работают для ПК обучения в присутствии ошибок , обучения вероятностных понятий , обучения функций и марковских примерах с отсутствием независимости .

См. также

Теория вычислительного обучения

Примечания

↑ , с. 377—380.
↑ .
, с. 54—63.
, с. 177—221.
, с. 229—246.
, с. 343—370.
, с. 807—837.
, с. 382—391.
, с. 370—376.
, с. 392—396.

Литература

Kearns M. J., Vazirani U. V. chapter 2 // An introduction to computational learning theory. — MIT press, 1994. — ISBN 9780262111935 .
Blumer A., Ehrenfeucht A., Haussler D., Warmuth M. K. . — 1987. — Т. 24 , вып. 6 . — doi : .
Board R., Pitt L. On the necessity of Occam algorithms // Proceedings of the twenty-second annual ACM symposium on Theory of computing. — ACM, 1990.
Haussler D. // Artificial intelligence. — 1988. — Т. 36 , вып. 2 . 12 апреля 2013 года.
Rivest R. L. // Machine learning. — 1987. — Т. 2 , вып. 3 .
Angluin D., Laird P. Learning from noisy examples // Machine Learning. — 1988. — Т. 2 , вып. 4 .
Kearns M., Li M. Learning in the presence of malicious errors // SIAM Journal on Computing,. — 1993. — Т. 22 , вып. 4 .
Kearns M. J., Schapire R. E. Efficient distribution-free learning of probabilistic concepts // . — Los Alamitos, CA,: IEEE Computer Society Press, 1990.
- Kearns M. J., Schapire R. E. Foundations of Computer Science, 1990. Proceedings., 31st Annual Symposium // JOURNAL OF COMPUTER AND SYSTEM SCIENCES. — 1994. — Вып. 48 . — С. 464—497 .
Natarajan B. K. Occam's razor for functions // Proceedings of the sixth annual conference on Computational learning theory. — ACM, 1993.
Aldous D., Vazirani U. A Markovian extension of Valiant's learning model // Foundations of Computer Science, 1990. Proceedings., 31st Annual Symposium. — IEEE, 1990.

[_d6ed1fe19cefdf65-1] , с. 377—380.

[_db1d3ad0a2e8e758-2] .

[_098976df46b040b1-3] , с. 54—63.

[_dfab554802996ad4-4] , с. 177—221.

[_644b92b8416e4cea-5] , с. 229—246.

[_b73d3c81d4f16d1d-6] , с. 343—370.

[_c9ae18d06a87f117-7] , с. 807—837.

[_95f541dcd06810db-8] , с. 382—391.

[_feabdc2d4a5a3b87-9] , с. 370—376.

[_794ece398530548a-10] , с. 392—396.

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k-ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамблевое обучение Бэггинг Бустинг Random forest Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель
Выявление аномалий	Метод k-ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение
Теория	Теория Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска PAC learning Статистическая теория обучения
Журналы и конференции	JMLR

Interested Article - Оккамово обучение

Содержание

Введение

Определение оккамова обучения

Связь между оккамовым обучением и ПК обучением

Теорема ( Оккамово обучение влечёт ПК обучение )

Теорема ( Оккамово обучение влечёт ПК обучение, версия с длиной )

Доказательство, что оккамово обучение влечёт ПК обучение

Улучшение сложности выборки для общих задач

Расширения

См. также

Примечания

Литература

Same as Оккамово обучение

Домашнее обучение

Опережающее обучение

Дистанционное обучение

Кооперативное обучение

Машинное обучение

Электронное обучение

Машинное обучение

Домашнее обучение

Пиринговое обучение

Гиперпараметр (машинное обучение)

The title for the last searches