Гиндин, Александр Шефтельевич
- 1 year ago
- 0
- 0
Правило Стёрджеса — эмпирическое правило определения оптимального количества интервалов, на которые разбивается наблюдаемый диапазон изменения случайной величины при построении гистограммы плотности её распределения. Названо по имени американского статистика Герберта Стёрджеса ( Herbert Arthur Sturges , 1882—1958).
Количество интервалов определяется как:
где — общее число наблюдений величины, — логарифм по основанию 2, — обозначает целую часть числа .
Часто встречается записанным через десятичный логарифм:
Основанием для него служит оценка количества событий с разными вероятностями в схеме испытаний Бернулли длительностью в этап. Если имеются серии испытаний с 2 альтернативными исходами с постоянной вероятностью каждого, то число видов серий, где в составе имеется исходов, принимающих первое из альтернативных значений, и, соответственно, — принимающих второе, равно: (от до ), а общее число серий .
Если аппроксимировать значения наблюдаемой случайной величины результатами сложения случайно выпадающих в серии испытаний значений двух чисел и (например и ), соответствующих исходам схемы Бернулли, то каждой серии испытаний содержащей исходов с результатом и исходов с результатом будет соответствовать сумма . Количество различных значений (в рассматриваемом случае: , для пары — ) будет равно количеству последовательностей с различным числом исходов . Т.о., если ставить задачу, чтобы на каждый интервал между и приходилось в среднем не меньше одного значения суммы, а значит и не меньше одной серии испытаний, моделирующей получение случайной величины, то число этапов в серии, равное числу интервалов, на которые разбивается диапазон изменения наблюдаемых значений, должно быть не больше, чем
Распределение получившихся величин ( распределение Бернулли ) аппроксимируется при больших нормальным распределением согласно теореме Муавра — Лапласа , что дает основания при предположении о близости распределения исследуемой величины к нормальному и, соответственно, к аппроксимируемому им биномиальному применять оценку количества интервалов разбиения соответственно количеству ожидаемых дискретных значений для распределения Бернулли, что приводит к правилу Стёрджеса.