Interested Article - Статистика

Гистограмма (метод графических изображений)

Стати́стика — отрасль знаний, наука, в которой излагаются общие вопросы сбора, измерения, мониторинга, анализа массовых статистических (количественных или качественных) данных и их сравнение; изучение количественной стороны массовых общественных явлений в числовой форме .

Статистик — по статистике.

Слово «статистика» происходит от латинского — состояние дел . В науку термин «статистика» ввёл немецкий учёный Готфрид Ахенвалль в 1746 году, предложив заменить название курса « Государствоведение », преподававшегося в университетах Германии, на «Статистику», положив тем самым начало развитию статистики как науки и учебной дисциплины. Несмотря на это, статистический учёт вёлся намного раньше: проводились переписи населения в Древнем Китае , осуществлялось сравнение военного , вёлся учёт имущества граждан в Древнем Риме и тому подобное . Статистика разрабатывает специальную методологию исследования и обработки материалов: массовые статистические наблюдения, метод группировок, средних величин , индексов, балансовый метод, метод графических изображений, кластерный , дискриминантный , факторный и компонентный анализы, оптимизацию и другие методы анализа статистических данных.

Развитие представлений о статистике

Начало статистической практики относится примерно ко времени возникновения государства. Первой опубликованной статистической информацией можно считать глиняные таблички Шумерского царства ( III — II тысячелетия до н. э. ).

Сначала под статистикой понимали описание экономического и политического состояния государства или его части. Например, к 1792 году относится определение: «статистика описывает состояние государства в настоящее время или в некоторый известный момент в прошлом». И в настоящее время деятельность государственных статистических служб вполне укладывается в это определение .

Однако постепенно термин «статистика» стал использоваться более широко. По Наполеону Бонапарту , «статистика — это бюджет вещей» . Тем самым статистические методы были признаны полезными не только для административного управления, но и для применения на уровне отдельного предприятия. Согласно формулировке 1833 года, «цель статистики заключается в представлении фактов в наиболее сжатой форме» . Во 2-й половине XIX — начале XX веков сформировалась научная дисциплина математическая статистика , являющаяся частью математики.

В XX веке статистику часто рассматривают прежде всего как самостоятельную научную дисциплину. Статистика есть совокупность методов и принципов, согласно которым проводится сбор, анализ, сравнение, представление и интерпретация числовых данных. В 1954 году академик АН УССР Б. В. Гнеденко дал следующее определение: «Статистика состоит из трёх разделов:

  1. сбор статистических сведений, то есть сведений, характеризующих отдельные единицы каких-либо массовых совокупностей;
  2. статистическое исследование полученных данных, заключающееся в выяснении тех закономерностей, которые могут быть установлены на основе данных массового наблюдения;
  3. разработка приёмов статистического наблюдения и анализа статистических данных». Последний раздел, собственно, и составляет содержание математической статистики .

Термин «статистика» употребляют ещё в двух смыслах. Во-первых, в обиходе под «статистикой» часто понимают набор количественных данных о каком-либо явлении или процессе. Во-вторых, статистикой называют функцию от результатов наблюдений, используемую для оценки характеристик и параметров распределений и проверки гипотез.

Краткая история статистических методов

Типовые примеры раннего этапа применения статистических методов описаны в Библии, в Ветхом Завете . Там, в частности, приводится число воинов в различных племенах. С математической точки зрения дело сводилось к подсчёту числа попаданий значений наблюдаемых признаков в определённые градации.

Сразу после возникновения теории вероятностей ( Паскаль , Ферма , XVII век) вероятностные модели стали использоваться при обработке статистических данных. Например, изучалась частота рождения мальчиков и девочек, было установлено отличие вероятности рождения мальчика от 0,5, анализировались причины того, что в парижских приютах эта вероятность не та, что в самом Париже, и так далее.

В 1794 году (по другим данным — в 1795) немецкий математик Карл Гаусс формализовал один из методов современной математической статистики — метод наименьших квадратов . В XIX веке значительный вклад в развитие практической статистики внёс бельгиец Кетле , на основе анализа большого числа реальных данных показавший устойчивость относительных статистических показателей, таких, как доля самоубийств среди всех смертей .

Первая треть XX века прошла под знаком параметрической статистики. Изучались методы, основанные на анализе данных из параметрических семейств распределений, описываемых кривыми семейства Пирсона . Наиболее популярным было нормальное распределение . Для проверки гипотез использовались критерии Пирсона , Стьюдента , Фишера . Были предложены метод максимального правдоподобия , дисперсионный анализ , сформулированы основные идеи планирования эксперимента.

Разработанную в первой трети XX века теорию анализа данных называют параметрической статистикой, поскольку её основной объект изучения — это выборки из распределений, описываемых одним или небольшим числом параметров. Наиболее общим является семейство кривых Пирсона, задаваемых четырьмя параметрами. Как правило, нельзя указать каких-либо веских причин, по которым распределение результатов конкретных наблюдений должно входить в то или иное параметрическое семейство. Исключения хорошо известны: если вероятностная модель предусматривает суммирование независимых случайных величин , то сумму естественно описывать нормальным распределением; если же в модели рассматривается произведение таких величин, то итог, видимо, приближается логарифмически нормальным распределением и так далее.

Виды группировки

Под статистической группировкой понимают разделение совокупности на группы (интервалы изменения параметра) однородные в каком-либо отношении. Число таких интервалов (групп) рассчитывается по формуле Стёрджеса :

k = 1 + 3 , 322 lg n {\displaystyle k=1+3,322\lg n} ,

где k — число интервалов, n — число наблюдений.

Существует три вида группировки: аналитическая, типологическая, структурная.

Аналитическая группировка — позволяет выявить связь между группировками.
Типологическая группировка — разделение исследуемой совокупности на однородные группы.
Структурная группировка — в которой происходит разделение однородной совокупности на группы, по определенному признаку.

Типические группы: максимально однородные внутри и разнородные снаружи. Группировки бывают первичными и вторичными. Первичные группировки получаются в ходе статистических наблюдений. А вторичные осуществляются на основании первичной.

Статистические методы

Статисти́ческие ме́тоды — методы анализа статистических данных. Выделяют методы прикладной статистики , которые могут применяться во всех областях научных исследований и любых отраслях народного хозяйства, и другие статистические методы, применимость которых ограничена той или иной сферой. Имеются в виду такие методы, как статистический приемочный контроль, статистическое регулирование технологических процессов, надёжность и испытания, планирование экспериментов.

Классификация статистических методов

Статистические методы анализа данных применяются практически во всех областях. Их используют всегда, когда необходимо получить и обосновать какие-либо суждения о группе (объектов или субъектов) с некоторой внутренней неоднородностью.

Целесообразно выделить три вида научной и прикладной деятельности в области статистических методов анализа данных (по степени специфичности методов, сопряженной с погруженностью в конкретные проблемы):

а) разработка и исследование методов общего назначения, без учёта специфики области применения;

б) разработка и исследование статистических моделей реальных явлений и процессов в соответствии с потребностями той или иной области деятельности;

в) использование статистических методов и моделей для статистического анализа конкретных данных в решении прикладных задач, например, с целью проведения выборочных обследований .

Прикладная статистика

Прикладная статистика — это наука о том, как обрабатывать данные произвольной природы. Математической основой прикладной статистики и статистических методов анализа является теория вероятностей и математическая статистика .

Описание вида данных и механизма их порождения — начало любого статистического исследования. Для описания данных применяют как детерминированные, так и вероятностные методы. С помощью детерминированных методов можно проанализировать только те данные, которые имеются в распоряжении исследователя. Например, с их помощью получены таблицы, рассчитанные органами официальной государственной статистики на основе представленных предприятиями и организациями статистических отчётов. Перенести полученные результаты на более широкую совокупность, использовать их для предсказания и управления можно лишь на основе вероятностно-статистического моделирования. Поэтому в математическую статистику часто включают лишь методы, опирающиеся на теорию вероятностей.

В простейшей ситуации статистические данные — это значения некоторого признака, свойственного изучаемым объектам. Значения могут быть количественными или представлять собой указание на категорию, к которой можно отнести объект. Во втором случае говорят о качественном признаке.

При измерении по нескольким количественным или качественным признакам в качестве статистических данных об объекте получаем вектор. Его можно рассматривать как новый вид данных. В таком случае выборка состоит из набора векторов. Есть часть координат — числа, а часть — качественные (категоризованные) данные, то говорим о векторе разнотипных данных.

Одним элементом выборки, то есть одним измерением, может быть и функция в целом. Например, описывающая динамику показателя, то есть его изменение во времени, — электрокардиограмма больного или амплитуда биений вала двигателя. Или временной ряд , описывающий динамику показателей определенной фирмы. Тогда выборка состоит из набора функций.

Элементами выборки могут быть и иные математические объекты. Например, бинарные отношения. Так, при опросах экспертов часто используют упорядочения (ранжировки) объектов экспертизы — образцов продукции, инвестиционных проектов, вариантов управленческих решений . В зависимости от регламента экспертного исследования элементами выборки могут быть различные виды бинарных отношений (упорядочения, разбиения , толерантности ), множества , нечёткие множества и т. д.

Математическая природа элементов выборки в различных задачах прикладной статистики может быть самой разной. Однако можно выделить два класса статистических данных — числовые и нечисловые. Соответственно прикладная статистика разбивается на две части — числовую статистику и нечисловую статистику.

Числовые статистические данные — это числа, вектора, функции. Их можно складывать, умножать на коэффициенты. Поэтому в числовой статистике большое значение имеют разнообразные суммы. Математический аппарат анализа сумм случайных элементов выборки — это (классические) законы больших чисел и центральные предельные теоремы.

Нечисловые статистические данные — это категоризованные данные, вектора разнотипных признаков, бинарные отношения, множества, нечёткие множества и др. Их нельзя складывать и умножать на коэффициенты. Поэтому не имеет смысла говорить о суммах нечисловых статистических данных. Они являются элементами нечисловых математических пространств (множеств). Математический аппарат анализа нечисловых статистических данных основан на использовании расстояний между элементами (а также мер близости, показателей различия) в таких пространствах. С помощью расстояний определяются эмпирические и теоретические средние, доказываются законы больших чисел, строятся непараметрические оценки плотности распределения вероятностей , решаются задачи диагностики и кластерного анализа, и т. д.

В прикладных исследованиях используют статистические данные различных видов. Это связано, в частности, со способами их получения. Например, если испытания некоторых технических устройств продолжаются до определённого момента времени, то получаем так называемые цензурированные данные, состоящие из набора чисел — продолжительности работы ряда устройств до отказа, и информации о том, что остальные устройства продолжали работать в момент окончания испытания. Цензурированные данные часто используются при оценке и контроле надежности технических устройств.

Связь статистики с другими дисциплинами

Статистика является мультидисциплиной, так как она использует методы и принципы, заимствованные из других дисциплин. Так, в качестве теоретической базы для формирования статистической науки служат знания в области социологии и экономической теории. В рамках этих дисциплин происходит изучение законов общественных явлений. Статистика помогает произвести оценку масштаба того или иного явления, а также разработать систему методов для анализа и изучения. Статистика, несомненно, связана с математикой, так как для выявления закономерностей, оценки и анализа объекта исследования требуется ряд математических операций, методов и законов, а систематизация результатов находит отражения в виде графиков и таблиц.

Статистический анализ конкретных данных

Перспективы развития

Теория статистических методов нацелена на решение реальных задач. Поэтому в ней постоянно возникают новые постановки математических задач анализа статистических данных, развиваются и обосновываются новые методы. Обоснование часто проводится математическими средствами, то есть путём доказательства теорем. Большую роль играет методологическая составляющая — как именно ставить задачи, какие предположения принять с целью дальнейшего математического изучения. Велика роль современных информационных технологий , в частности, компьютерного эксперимента.

Актуальной является задача анализа истории статистических методов с целью выявления тенденций развития и применения их для прогнозирования.

Вычислительная статистика

Развитие вычислительной техники во второй половине XX века оказало значительное влияние на статистику. Ранее статистические модели были представлены преимущественно линейными моделями . Увеличение быстродействия ЭВМ и разработка соответствующих численных алгоритмов послужило причиной повышенного интереса к нелинейным моделям таким, как искусственные нейронные сети , и привело к разработке сложных статистических моделей, например обобщённая линейная модель и иерархическая модель .

Получили широкое распространение вычислительные методы, основанные на как и бутстреппинг , наряду методы как семплирование по Гиббсу позволили более доступно использовать байесовские алгоритмы. В настоящее время существует разнообразное статистическое программное обеспечение общего и специализированного назначения.

Некорректная интерпретация статистических исследований

Бытует мнение, что данные статистических исследований всё чаще намеренно искажают или неправильно интерпретируют, выбирая только те данные, которые являются благоприятными для ведущего конкретное исследование . Неправильное использование статистических данных может быть как случайным, так и преднамеренным. В книге Даррелла Хаффа (1954) « Как лгать при помощи статистики » излагается ряд соображений по поводу использования и неправильного применения статистических данных. Некоторые авторы также проводят обзор статистических методов, используемых в определённых областях (например, Варн, Лазо, Рамос, и Риттер (2012)) . Способы, позволяющие избежать неправильного толкования статистических данных включают в себя использование надлежащей схемы и исключение предвзятости при проведении исследований . Злоупотребление происходит тогда, когда такие выводы «заказываются» определёнными структурами, которые намеренно или бессознательно выводят на отбор предвзятых данных или проб . При этом гистограммы, как самый простой для использования и понимания (восприятия) вид диаграммы, могут быть сделаны либо с применением обычных программ для компьютера или просто нарисованы . Большинство людей не делают попыток искать ошибки или заблуждаются сами, поэтому и не видят ошибок. Таким образом, по мнению авторов, статистические данные, чтобы быть правдой, должны быть «не причёсаны» (то есть достоверные данные не должны выглядеть идеальными) . Для того, чтобы полученные статистические данные оказались правдоподобными и точными, проба должна быть репрезентативной в целом .

Крылатая фраза

Наиболее известная (и одна из лучших ) критика прикладной статистики , «Существуют три вида обмана: ложь, наглая ложь и статистика», англ. There are three kinds of lies: lies, damned lies, and statistics) традиционно приписывается премьер-министру Великобритании Бенджамину Дизраэли , после атрибуции Марка Твена в публикации « » (журнал North American Review 5 июля 1907 года) : «Цифры обманчивы, — писал он, — я убедился в этом на собственном опыте; по этому поводу справедливо высказался Дизраэли: „Существует три вида лжи: ложь, наглая ложь и статистика“». Однако этой фразы нет в работах Дизраэли, её происхождение спорно. В 1964 году К. Уайт ( англ. Colin White) предположил авторство Франсуа Мажанди (1783—1855), который сказал фразу по-французски: фр. Ainsi l’altération de la vérité qui se manifeste déjà sous la forme progressive du mensonge et du parjure, nous offre-t-elle au superlatif, la statistique («Модификация правды, которая проявляется в сравнительной степени неправды и лжесвидетельства, имеет и суперлатив , статистику»). По словам Уайта, «мир нуждался в этой фразе, и несколько человек могли бы гордиться, придумав её».

См. также

Примечания

  1. Малая советская энциклопедия . — М. : Советская энциклопедия, 1960. — Т. 8. — С. 1090.
  2. ↑ Райзберг Б. А., Лозовский Л. Ш., Стародубцева Е. Б. Современный экономический словарь. 5-е изд., перераб. и доп. — М.: ИНФРА-М, 2007. — 495 с. — (Библиотека словарей «ИНФРА-М»)
  3. (неопр.) . Дата обращения: 22 августа 2009. 12 сентября 2009 года.
  4. Никитина Е. П., Фрейдлина В. Д., Ярхо А. В. Коллекция определений термина «статистика». — Москва: МГУ, 1972.
  5. Чупров А. А. Вопросы статистики. — М. : Госстатиздат ЦСУ СССР, 1960.
  6. Никитина Е. П., Фрейдлина В. Д., Ярхо А. Коллекция определений термина «статистика»
  7. Гнеденко Б. В. Очерк по истории теории вероятностей. — Москва: УРСС, 2001.
  8. Клейн Ф. Лекции о развитии математики в XIX столетии. Часть I. — Москва, Ленинград: Объединенное научно-техническое издательство НКТП СССР, 1937.
  9. Плошко Б. Г. , Елисеева И. И. История статистики: Учебное пособие. — Москва, Ленинград: Финансы и статистика, 1990.
  10. Huff, Darrell, How to Lie With Statistics, WW Norton & Company, Inc. New York, NY, 1954. ISBN 0-393-31072-8
  11. Warne, R. Lazo, M., Ramos, T. and Ritter, N. (2012). Statistical Methods Used in Gifted Education Journals, 2006—2010. Gifted Child Quarterly, 56(3) 134—149. doi: 10.1177/0016986212444122
  12. ↑ Encyclopedia of Archaeology (неопр.) . — Credo Reference: Oxford: Elsevier Science, 2008.
  13. Cohen, Jerome B. Misuse of Statistics (англ.) // Journal of the American Statistical Association : journal. — JSTOR, 1938. — December (vol. 33 , no. 204). — P. 657—674 .
  14. Freund, J. F. Modern Elementary Statistics (неопр.) // Credo Reference. — 1988.
  15. ↑ .
  16. Mark Twain. (неопр.) . . Project Gutenberg (7 сентября 1906). Дата обращения: 23 мая 2007. 7 апреля 2012 года.

Литература

Ссылки

Same as Статистика