Википедия:Интерес:Статистика
- 1 year ago
- 0
- 0
Гистогра́мма в математической статистике — это один из графических методов исследования рядов распределения значений случайной величины.
Среди графических методов исследования рядов распределения указаны следующие:
Ступенчатые многоугольники и многоугольники частот носят общее название многоугольников распределения . В качестве наиболее удобных указаны точечная диаграмма, ступенчатый многоугольник и многоугольник частот.
Для двумерного случая вместо ряда распределения строится таблица распределения, и ей соответствующее графическое построение называют призмограммой .
ГОСТ Р 50779.10-2000 предлагал следующие определения:
2.17 гистограмма
Графическое представление распределения частот для количественного признака, образуемое соприкасающимися прямоугольниками, основаниями которых служат интервалы классов, а площади пропорциональны частотам этих классов
2.18 столбиковая диаграмма
Графическое представление распределения частот для дискретной случайной величины, образуемое набором столбцов равной ширины, высоты которых пропорциональны частотам
Пусть — выборка из некоторого распределения . Определим разбиение числовой прямой . Пусть
— число элементов выборки, попавших в -й интервал. Тогда кусочно-постоянная функция , имеющая вид:
Пусть распределение случайных величин абсолютно непрерывно и задаётся плотностью вероятности . Тогда
При выполнении чертежа по способу прямоугольников горизонтальная ось разбивается на равные отрезки, соответствующие разрядам ; на этих отрезках, как на основаниях, строятся прямоугольники с высотой, пропорциональной частоте данного разряда.
Опишем эту процедуру более детально. Сначала множество значений, которое может принимать элемент выборки, разбивается на несколько разрядов (bins). Чаще всего эти интервалы берут одинаковыми, но это не является строгим требованием. Эти интервалы откладываются на горизонтальной оси, затем над каждым рисуется прямоугольник. Если все интервалы были одинаковыми, то высота каждого прямоугольника пропорциональна числу элементов выборки, попадающих в соответствующий интервал. Если интервалы разные, то высота прямоугольника выбирается таким образом, чтобы его площадь была пропорциональна числу элементов выборки, которые попали в этот интервал.
Существенным для построения гистограммы является выбор оптимального разбиения, поскольку при увеличении интервалов снижается детализация оценки плотности распределения, а при уменьшении падает точность её значения. Для выбора оптимального количества интервалов часто применяется правило Стёрджеса
где — общее число наблюдений величины, — логарифм по основанию 2, — обозначает целую часть числа .
Также часто встречается правило, оценивающее оптимальное количество интервалов как квадратный корень из общего числа измерений:
Представление рядов распределения в преобразованном виде является необходимым условием при сравнении этих рядов между собой .
Исследование рядов распределения в значительной степени облегчается благодаря применению графического метода . При изображении рядов распределения на горизонтальной оси откладывают значения разрядов или наблюдённые значения случайной величины , а на вертикальной оси, — соответственно, разрядные частоты или наблюдённые частоты .
Построение нормализованных гистограмм может использоваться для получения эмпирической оценки плотности распределения случайной величины .
В общем виде одна из наиболее важных задач формулируется так: на заданном уровне значимости проверить гипотезу о том, что представленное на гистограмме распределение является мономодальным .
Гистограммы применяются (в том числе в иллюстративных целях) во всех областях знания, где приходится иметь дело с обработкой эмпирического числового материала и анализом частотности реализации тех или иных событий.
Так, например, анализ гистограмм традиционно считается среди геологов наглядным и информативным методом решения геологических задач, поскольку он позволяет проверять геологические гипотезы, сформулированные на языке статистики .
В кардиологии построение и описание гистограммы является обязательным геометрическим методом анализа вариабельности ритма сердца , предложенным стандартами 1996 года . В качестве дополнительных способов описания гистограмм ритма сердца используют методы их триангулярной интерпретации , такие как индекс Святого Георга и триангулярный индекс .
На производстве при анализе состояния технологического процесса, построение гистограмм считается эффективным способом оценки ситуации и проведения анализа на первом этапе изучения стабильности технологического процесса, а также рассматривается как один из эффективных инструментов менеджмента качества на этапе контроля качества готовой продукции и анализа текущего состояния технологического процесса .