Interested Article - Правило Стёрджеса

Правило Стёрджеса — эмпирическое правило определения оптимального количества интервалов, на которые разбивается наблюдаемый диапазон изменения случайной величины при построении гистограммы плотности её распределения. Названо по имени американского статистика Герберта Стёрджеса ( Herbert Arthur Sturges , 1882—1958).

Количество интервалов определяется как:

,

где — общее число наблюдений величины, — логарифм по основанию 2, — обозначает целую часть числа .

Часто встречается записанным через десятичный логарифм:

,

Основанием для него служит оценка количества событий с разными вероятностями в схеме испытаний Бернулли длительностью в этап. Если имеются серии испытаний с 2 альтернативными исходами с постоянной вероятностью каждого, то число видов серий, где в составе имеется исходов, принимающих первое из альтернативных значений, и, соответственно, — принимающих второе, равно: (от до ), а общее число серий .

Если аппроксимировать значения наблюдаемой случайной величины результатами сложения случайно выпадающих в серии испытаний значений двух чисел и (например и ), соответствующих исходам схемы Бернулли, то каждой серии испытаний содержащей исходов с результатом и исходов с результатом будет соответствовать сумма . Количество различных значений (в рассматриваемом случае: , для пары ) будет равно количеству последовательностей с различным числом исходов . Т.о., если ставить задачу, чтобы на каждый интервал между и приходилось в среднем не меньше одного значения суммы, а значит и не меньше одной серии испытаний, моделирующей получение случайной величины, то число этапов в серии, равное числу интервалов, на которые разбивается диапазон изменения наблюдаемых значений, должно быть не больше, чем

Распределение получившихся величин ( распределение Бернулли ) аппроксимируется при больших нормальным распределением согласно теореме Муавра — Лапласа , что дает основания при предположении о близости распределения исследуемой величины к нормальному и, соответственно, к аппроксимируемому им биномиальному применять оценку количества интервалов разбиения соответственно количеству ожидаемых дискретных значений для распределения Бернулли, что приводит к правилу Стёрджеса.

Литература

  • Sturges H. (1926). The choice of a class-interval. J. Amer. Statist. Assoc., 21, 65-66.

Ссылки

Источник —

Same as Правило Стёрджеса