Interested Article - Бутстрэп (статистика)

Бутстрэп ( англ. bootstrap ) в статистике — практический компьютерный метод исследования распределения статистик вероятностных распределений , основанный на многократной генерации выборок методом Монте-Карло на базе имеющейся выборки . Позволяет просто и быстро оценивать самые разные статистики ( доверительные интервалы , дисперсию , корреляцию и так далее) для сложных моделей.

Понятие введено в 1977 году Брэдли Эфроном (первая публикация относится к 1979 году ). Суть метода состоит в том, чтобы по имеющейся выборке построить эмпирическое распределение . Используя это распределение как теоретическое распределение вероятностей, можно с помощью датчика псевдослучайных чисел сгенерировать практически неограниченное количество псевдовыборок произвольного размера, например, того же, как у исходной. На множестве псевдовыборок можно оценить не только анализируемые статистические характеристики, но и изучить их вероятностные распределения. Таким образом, например, оказывается возможным оценить дисперсию или квантили любой статистики независимо от её сложности. Данный метод является методом непараметрической статистики .

Наряду с методами «складного ножа» , перекрёстной проверки и ( англ. ) составляет класс методов ( англ. ).

Этимология

У стоящего ботинка виден торчащий ремешок ( англ. bootstrap )

Слово происходит от выражения: «To pull oneself over a fence by one’s bootstraps.» (дословно — «перебраться через ограду, потянув за ремешки на ботинках» (см. фото справа). Для русскоязычных людей ближе будет история барона Мюнхгаузена , который, потянув себя за волосы, вытащил себя и свою лошадь из болота.

Сам англицизм «бутстрап» используется во многих областях знаний, где нужно передать смысл того, что вы получаете что-то «бесплатно» или магическим образом из ничего получаете нечто стоящее. В области статистики ближайший по этимологии аналог термина — «самовытягивание».

Вводный пример

Пусть имеется два наблюдения:

Предположим, что нам необходимо оценить параметр в регрессии y на x :

Оценка параметра, полученная методом наименьших квадратов , будет равна

Эмпирическая функция распределения при этом равна

При этом данные из двух наблюдений относительно эмпирического распределения будут распределены так:

Это и есть бутстрэповское распределение. Далее можем найти распределение МНК-оценки:

Применение

Бутстрэп используется для корректировки смещения, тестирования гипотез, построения доверительных интервалов.

Бутстрэповский доверительный интервал: алгоритм

Пусть дана выборка из генеральной совокупности , и требуется оценить параметр . Необходимо выбрать количество псевдовыборок, которые будут формироваться из элементов исходной выборки с возвращением. Для каждой из псевдовыборок вычисляется псевдостатистика .

Псевдостатистики сортируются от меньшей к большей. Квантилями принимаются значения . С их помощью строится доверительный интервал.

Примечания

  1. Также бутстрап , бутстреп , бутстрэппинг , бутстрапирование .
  2. . Дата обращения: 23 марта 2007. 12 июля 2012 года.
  3. .

Литература

Ссылки

  • (недоступная ссылка с 13-05-2013 [3916 дней] — ) : Tutorial from a signal processing perspective
  • (недоступная ссылка с 13-05-2013 [3916 дней] — ) by Yihui Xie using the R
Источник —

Same as Бутстрэп (статистика)