Interested Article - Выброс (статистика)

На диаграмме « ящик с усами » выбросы рисуют точками выше и ниже «усов».

Выброс ( англ. outlier ), промах — в статистике результат измерения , выделяющийся из общей выборки .

Статистический метод , способный действовать в условиях выбросов, называется робастным . Медиана является робастной характеристикой, а выборочное среднее — нет. Существует пример ( квартет Энскомба ), демонстрирующий, насколько неробастные методы обработки статистических данных способны «врать», даже если выброс всего один на 10 «обычных» результатов.

Причины выбросов

  • Из-за ошибки измерения.
  • Из-за необычной природы входных данных. Например, если наугад измерять температуру предметов в комнате, получим цифры от 18 до 22 °C, но радиатор отопления будет иметь температуру в 70°.
  • Выбросы могут быть и частью распределения — так, в нормальном распределении каждое 22-е измерение будет выходить из « двух сигм », и каждое 370-е — из трёх.

Определение выбросов

Поскольку множество статистических методов «буксуют» на выборках с выбросами, выбросы приходится обнаруживать (желательно — автоматически) и исключать из выборки. Простейшие способы основаны на межквартильном расстоянии — например, всё, что не попадает в диапазон

,

считается выбросами.

Более тонкие критерии — (англ.) , критерий Граббса , (англ.) , (англ.) .

См. также

Примечания

  1. Зайдель А.Н. Элементарные оценки ошибок измерений. — Москва: Наука, 1965.
Источник —

Same as Выброс (статистика)