Википедия:Интерес:Статистика
- 1 year ago
- 0
- 0
Стати́стика — отрасль знаний, наука, в которой излагаются общие вопросы сбора, измерения, мониторинга, анализа массовых статистических (количественных или качественных) данных и их сравнение; изучение количественной стороны массовых общественных явлений в числовой форме .
Статистик — по статистике.
Слово «статистика» происходит от латинского — состояние дел . В науку термин «статистика» ввёл немецкий учёный Готфрид Ахенвалль в 1746 году, предложив заменить название курса « Государствоведение », преподававшегося в университетах Германии, на «Статистику», положив тем самым начало развитию статистики как науки и учебной дисциплины. Несмотря на это, статистический учёт вёлся намного раньше: проводились переписи населения в Древнем Китае , осуществлялось сравнение военного , вёлся учёт имущества граждан в Древнем Риме и тому подобное . Статистика разрабатывает специальную методологию исследования и обработки материалов: массовые статистические наблюдения, метод группировок, средних величин , индексов, балансовый метод, метод графических изображений, кластерный , дискриминантный , факторный и компонентный анализы, оптимизацию и другие методы анализа статистических данных.
Начало статистической практики относится примерно ко времени возникновения государства. Первой опубликованной статистической информацией можно считать глиняные таблички Шумерского царства ( III — II тысячелетия до н. э. ).
Сначала под статистикой понимали описание экономического и политического состояния государства или его части. Например, к 1792 году относится определение: «статистика описывает состояние государства в настоящее время или в некоторый известный момент в прошлом». И в настоящее время деятельность государственных статистических служб вполне укладывается в это определение .
Однако постепенно термин «статистика» стал использоваться более широко. По Наполеону Бонапарту , «статистика — это бюджет вещей» . Тем самым статистические методы были признаны полезными не только для административного управления, но и для применения на уровне отдельного предприятия. Согласно формулировке 1833 года, «цель статистики заключается в представлении фактов в наиболее сжатой форме» . Во 2-й половине XIX — начале XX веков сформировалась научная дисциплина — математическая статистика , являющаяся частью математики.
В XX веке статистику часто рассматривают прежде всего как самостоятельную научную дисциплину. Статистика есть совокупность методов и принципов, согласно которым проводится сбор, анализ, сравнение, представление и интерпретация числовых данных. В 1954 году академик АН УССР Б. В. Гнеденко дал следующее определение: «Статистика состоит из трёх разделов:
Термин «статистика» употребляют ещё в двух смыслах. Во-первых, в обиходе под «статистикой» часто понимают набор количественных данных о каком-либо явлении или процессе. Во-вторых, статистикой называют функцию от результатов наблюдений, используемую для оценки характеристик и параметров распределений и проверки гипотез.
Типовые примеры раннего этапа применения статистических методов описаны в Библии, в Ветхом Завете . Там, в частности, приводится число воинов в различных племенах. С математической точки зрения дело сводилось к подсчёту числа попаданий значений наблюдаемых признаков в определённые градации.
Сразу после возникновения теории вероятностей ( Паскаль , Ферма , XVII век) вероятностные модели стали использоваться при обработке статистических данных. Например, изучалась частота рождения мальчиков и девочек, было установлено отличие вероятности рождения мальчика от 0,5, анализировались причины того, что в парижских приютах эта вероятность не та, что в самом Париже, и так далее.
В 1794 году (по другим данным — в 1795) немецкий математик Карл Гаусс формализовал один из методов современной математической статистики — метод наименьших квадратов . В XIX веке значительный вклад в развитие практической статистики внёс бельгиец Кетле , на основе анализа большого числа реальных данных показавший устойчивость относительных статистических показателей, таких, как доля самоубийств среди всех смертей .
Первая треть XX века прошла под знаком параметрической статистики. Изучались методы, основанные на анализе данных из параметрических семейств распределений, описываемых кривыми семейства Пирсона . Наиболее популярным было нормальное распределение . Для проверки гипотез использовались критерии Пирсона , Стьюдента , Фишера . Были предложены метод максимального правдоподобия , дисперсионный анализ , сформулированы основные идеи планирования эксперимента.
Разработанную в первой трети XX века теорию анализа данных называют параметрической статистикой, поскольку её основной объект изучения — это выборки из распределений, описываемых одним или небольшим числом параметров. Наиболее общим является семейство кривых Пирсона, задаваемых четырьмя параметрами. Как правило, нельзя указать каких-либо веских причин, по которым распределение результатов конкретных наблюдений должно входить в то или иное параметрическое семейство. Исключения хорошо известны: если вероятностная модель предусматривает суммирование независимых случайных величин , то сумму естественно описывать нормальным распределением; если же в модели рассматривается произведение таких величин, то итог, видимо, приближается логарифмически нормальным распределением и так далее.
Под статистической группировкой понимают разделение совокупности на группы (интервалы изменения параметра) однородные в каком-либо отношении. Число таких интервалов (групп) рассчитывается по формуле Стёрджеса :
где k — число интервалов, n — число наблюдений.
Существует три вида группировки: аналитическая, типологическая, структурная.
Типические группы: максимально однородные внутри и разнородные снаружи. Группировки бывают первичными и вторичными. Первичные группировки получаются в ходе статистических наблюдений. А вторичные осуществляются на основании первичной.
Статисти́ческие ме́тоды — методы анализа статистических данных. Выделяют методы прикладной статистики , которые могут применяться во всех областях научных исследований и любых отраслях народного хозяйства, и другие статистические методы, применимость которых ограничена той или иной сферой. Имеются в виду такие методы, как статистический приемочный контроль, статистическое регулирование технологических процессов, надёжность и испытания, планирование экспериментов.
Статистические методы анализа данных применяются практически во всех областях. Их используют всегда, когда необходимо получить и обосновать какие-либо суждения о группе (объектов или субъектов) с некоторой внутренней неоднородностью.
Целесообразно выделить три вида научной и прикладной деятельности в области статистических методов анализа данных (по степени специфичности методов, сопряженной с погруженностью в конкретные проблемы):
а) разработка и исследование методов общего назначения, без учёта специфики области применения;
б) разработка и исследование статистических моделей реальных явлений и процессов в соответствии с потребностями той или иной области деятельности;
в) использование статистических методов и моделей для статистического анализа конкретных данных в решении прикладных задач, например, с целью проведения выборочных обследований .
Прикладная статистика — это наука о том, как обрабатывать данные произвольной природы. Математической основой прикладной статистики и статистических методов анализа является теория вероятностей и математическая статистика .
Описание вида данных и механизма их порождения — начало любого статистического исследования. Для описания данных применяют как детерминированные, так и вероятностные методы. С помощью детерминированных методов можно проанализировать только те данные, которые имеются в распоряжении исследователя. Например, с их помощью получены таблицы, рассчитанные органами официальной государственной статистики на основе представленных предприятиями и организациями статистических отчётов. Перенести полученные результаты на более широкую совокупность, использовать их для предсказания и управления можно лишь на основе вероятностно-статистического моделирования. Поэтому в математическую статистику часто включают лишь методы, опирающиеся на теорию вероятностей.
В простейшей ситуации статистические данные — это значения некоторого признака, свойственного изучаемым объектам. Значения могут быть количественными или представлять собой указание на категорию, к которой можно отнести объект. Во втором случае говорят о качественном признаке.
При измерении по нескольким количественным или качественным признакам в качестве статистических данных об объекте получаем вектор. Его можно рассматривать как новый вид данных. В таком случае выборка состоит из набора векторов. Есть часть координат — числа, а часть — качественные (категоризованные) данные, то говорим о векторе разнотипных данных.
Одним элементом выборки, то есть одним измерением, может быть и функция в целом. Например, описывающая динамику показателя, то есть его изменение во времени, — электрокардиограмма больного или амплитуда биений вала двигателя. Или временной ряд , описывающий динамику показателей определенной фирмы. Тогда выборка состоит из набора функций.
Элементами выборки могут быть и иные математические объекты. Например, бинарные отношения. Так, при опросах экспертов часто используют упорядочения (ранжировки) объектов экспертизы — образцов продукции, инвестиционных проектов, вариантов управленческих решений . В зависимости от регламента экспертного исследования элементами выборки могут быть различные виды бинарных отношений (упорядочения, разбиения , толерантности ), множества , нечёткие множества и т. д.
Математическая природа элементов выборки в различных задачах прикладной статистики может быть самой разной. Однако можно выделить два класса статистических данных — числовые и нечисловые. Соответственно прикладная статистика разбивается на две части — числовую статистику и нечисловую статистику.
Числовые статистические данные — это числа, вектора, функции. Их можно складывать, умножать на коэффициенты. Поэтому в числовой статистике большое значение имеют разнообразные суммы. Математический аппарат анализа сумм случайных элементов выборки — это (классические) законы больших чисел и центральные предельные теоремы.
Нечисловые статистические данные — это категоризованные данные, вектора разнотипных признаков, бинарные отношения, множества, нечёткие множества и др. Их нельзя складывать и умножать на коэффициенты. Поэтому не имеет смысла говорить о суммах нечисловых статистических данных. Они являются элементами нечисловых математических пространств (множеств). Математический аппарат анализа нечисловых статистических данных основан на использовании расстояний между элементами (а также мер близости, показателей различия) в таких пространствах. С помощью расстояний определяются эмпирические и теоретические средние, доказываются законы больших чисел, строятся непараметрические оценки плотности распределения вероятностей , решаются задачи диагностики и кластерного анализа, и т. д.
В прикладных исследованиях используют статистические данные различных видов. Это связано, в частности, со способами их получения. Например, если испытания некоторых технических устройств продолжаются до определённого момента времени, то получаем так называемые цензурированные данные, состоящие из набора чисел — продолжительности работы ряда устройств до отказа, и информации о том, что остальные устройства продолжали работать в момент окончания испытания. Цензурированные данные часто используются при оценке и контроле надежности технических устройств.
Статистика является мультидисциплиной, так как она использует методы и принципы, заимствованные из других дисциплин. Так, в качестве теоретической базы для формирования статистической науки служат знания в области социологии и экономической теории. В рамках этих дисциплин происходит изучение законов общественных явлений. Статистика помогает произвести оценку масштаба того или иного явления, а также разработать систему методов для анализа и изучения. Статистика, несомненно, связана с математикой, так как для выявления закономерностей, оценки и анализа объекта исследования требуется ряд математических операций, методов и законов, а систематизация результатов находит отражения в виде графиков и таблиц.
Теория статистических методов нацелена на решение реальных задач. Поэтому в ней постоянно возникают новые постановки математических задач анализа статистических данных, развиваются и обосновываются новые методы. Обоснование часто проводится математическими средствами, то есть путём доказательства теорем. Большую роль играет методологическая составляющая — как именно ставить задачи, какие предположения принять с целью дальнейшего математического изучения. Велика роль современных информационных технологий , в частности, компьютерного эксперимента.
Актуальной является задача анализа истории статистических методов с целью выявления тенденций развития и применения их для прогнозирования.
Развитие вычислительной техники во второй половине XX века оказало значительное влияние на статистику. Ранее статистические модели были представлены преимущественно линейными моделями . Увеличение быстродействия ЭВМ и разработка соответствующих численных алгоритмов послужило причиной повышенного интереса к нелинейным моделям таким, как искусственные нейронные сети , и привело к разработке сложных статистических моделей, например обобщённая линейная модель и иерархическая модель .
Получили широкое распространение вычислительные методы, основанные на как и бутстреппинг , наряду методы как семплирование по Гиббсу позволили более доступно использовать байесовские алгоритмы. В настоящее время существует разнообразное статистическое программное обеспечение общего и специализированного назначения.
Бытует мнение, что данные статистических исследований всё чаще намеренно искажают или неправильно интерпретируют, выбирая только те данные, которые являются благоприятными для ведущего конкретное исследование . Неправильное использование статистических данных может быть как случайным, так и преднамеренным. В книге Даррелла Хаффа (1954) « Как лгать при помощи статистики » излагается ряд соображений по поводу использования и неправильного применения статистических данных. Некоторые авторы также проводят обзор статистических методов, используемых в определённых областях (например, Варн, Лазо, Рамос, и Риттер (2012)) . Способы, позволяющие избежать неправильного толкования статистических данных включают в себя использование надлежащей схемы и исключение предвзятости при проведении исследований . Злоупотребление происходит тогда, когда такие выводы «заказываются» определёнными структурами, которые намеренно или бессознательно выводят на отбор предвзятых данных или проб . При этом гистограммы, как самый простой для использования и понимания (восприятия) вид диаграммы, могут быть сделаны либо с применением обычных программ для компьютера или просто нарисованы . Большинство людей не делают попыток искать ошибки или заблуждаются сами, поэтому и не видят ошибок. Таким образом, по мнению авторов, статистические данные, чтобы быть правдой, должны быть «не причёсаны» (то есть достоверные данные не должны выглядеть идеальными) . Для того, чтобы полученные статистические данные оказались правдоподобными и точными, проба должна быть репрезентативной в целом .
Наиболее известная (и одна из лучших ) критика прикладной статистики , «Существуют три вида обмана: ложь, наглая ложь и статистика», англ. There are three kinds of lies: lies, damned lies, and statistics) традиционно приписывается премьер-министру Великобритании Бенджамину Дизраэли , после атрибуции Марка Твена в публикации « » (журнал North American Review 5 июля 1907 года) : «Цифры обманчивы, — писал он, — я убедился в этом на собственном опыте; по этому поводу справедливо высказался Дизраэли: „Существует три вида лжи: ложь, наглая ложь и статистика“». Однако этой фразы нет в работах Дизраэли, её происхождение спорно. В 1964 году К. Уайт ( англ. Colin White) предположил авторство Франсуа Мажанди (1783—1855), который сказал фразу по-французски: фр. Ainsi l’altération de la vérité qui se manifeste déjà sous la forme progressive du mensonge et du parjure, nous offre-t-elle au superlatif, la statistique («Модификация правды, которая проявляется в сравнительной степени неправды и лжесвидетельства, имеет и суперлатив , статистику»). По словам Уайта, «мир нуждался в этой фразе, и несколько человек могли бы гордиться, придумав её».