Непараметрическая статистика
- 1 year ago
- 0
- 0
Вы́борка или вы́борочная совоку́пность — часть генеральной совокупности элементов, которая охватывается экспериментом (наблюдением, опросом).
Характеристики выборки:
Последовательность независимых случайных величин , соответствующих всем возможным результатам статистических экспериментов и имеющих одинаковый закон распределения вероятностей со случайной величиной , называется выборкой объёма , порождённой случайной величиной . Если — дискретная случайная величина , то выборкой объёма называется любое подмножество объектов генеральной совокупности объёма , выбранное равновероятно среди всех таких подмножеств .
Объём выборки — число случаев, включённых в выборочную совокупность.
Выборки можно условно разделить на большие и малые, так как в математической статистике используются различные подходы в зависимости от объёма выборки. Считается, что выборки объёма больше 30 можно отнести к большим .
При сравнении двух (и более) выборок важным параметром является их зависимость. Если можно установить гомоморфную пару (то есть, когда одному случаю из выборки X соответствует один и только один случай из выборки Y и наоборот) для каждого случая в двух выборках (и это основание взаимосвязи является важным для измеряемого на выборках признака), такие выборки называются зависимыми . Примеры зависимых выборок:
В случае, если такая взаимосвязь между выборками отсутствует, то эти выборки считаются независимыми , например:
Соответственно, зависимые выборки всегда имеют одинаковый объём, а объём независимых может отличаться.
Сравнение выборок производится с помощью различных статистических критериев :
Выборка может рассматриваться в качестве репрезентативной или нерепрезентативной. Выборка будет репрезентативной при обследовании большой группы людей, если внутри этой группы есть представители разных подгрупп, только так можно сделать верные выводы.
В США одним из наиболее известных исторических примеров нерепрезентативной выборки считается случай, происшедший во время президентских выборов в 1936 году . Журнал «Литрери Дайджест», успешно прогнозировавший события нескольких предшествующих выборов, ошибся в своих предсказаниях, разослав десять миллионов пробных бюллетеней своим подписчикам, а также людям, выбранным по телефонным книгам всей страны и людям из регистрационных списков автомобилей. В 25 % вернувшихся бюллетеней (почти 2,5 миллиона) голоса были распределены следующим образом:
На действительных же выборах, как известно, победил Рузвельт, набрав более 60 % голосов. Ошибка «Литрери Дайджест» заключалась в следующем: желая увеличить репрезентативность выборки, — так как им было известно, что большинство их подписчиков считают себя республиканцами, — они расширили выборку за счёт людей, выбранных из телефонных книг и регистрационных списков. Однако они не учли современных им реалий и в действительности набрали ещё больше республиканцев: во время Великой депрессии обладать телефонами и автомобилями могли себе позволить в основном представители среднего и высшего класса (то есть большинство республиканцев, а не демократов).
Выделяют несколько основных видов плана построения групп :
Выборки делятся на два типа:
Использование такой выборки основывается на предположении, что каждый респондент с равной долей вероятности может попасть в выборку. На основе списка генеральной совокупности составляются карточки с номерами респондентов. Они помещаются в колоду, перемешиваются и из них наугад вынимается карточка, записывается номер, потом возвращается обратно. Далее процедура повторяется столько раз, какой объём выборки нам необходим. Минус: повторение единиц отбора.
Процедура построения простой случайной выборки включает в себя следующие шаги:
1) необходимо получить полный список членов генеральной совокупности и пронумеровать этот список. Такой список, напомним, называется основой выборки;
2) определить предполагаемый объём выборки, то есть ожидаемое число опрошенных;
3) извлечь из таблицы случайных чисел столько чисел, сколько нам требуется выборочных единиц. Если в выборке должно оказаться 100 человек, из таблицы берут 100 случайных чисел. Эти случайные числа могут генерироваться компьютерной программой.
4) выбрать из списка-основы те наблюдения, номера которых соответствуют выписанным случайным числам
1) нередко сложно создать основу выборочногo наблюдения, которая позволила бы провести простую случайную выборку.
2) результатом применения простой случайной выборки может стать большая совокупность, либо совокупность, распределённая по большой географической территории, что значительно увеличивает время и стоимость сбора данных.
3) результаты применения простой случайной выборки часто характеризуются низкой точностью и большей стандартной ошибкой, чем результаты применения других вероятностных методов.
4) в результате применения SRS может сформироваться нерепрезентативная выборка. Хотя выборки, полученные простым случайным отбором, в среднем адекватно представляют генеральную совокупность, некоторые из них крайне некорректно представляют изучаемую совокупность. Вероятность этого особенно велика при небольшом объёме выборки.
Процедура построения выборки такая же, только карточки с номерами респондентов не возвращаются обратно в колоду.
Отбор в такой выборке осуществляется не по принципам случайности, а по субъективным критериям — доступности, типичности, равного представительства и т. д.
Отбор групп для их участия в психологическом эксперименте осуществляется с помощью различных стратегий, которые нужны для того, чтобы обеспечить максимально возможное соблюдение внутренней и внешней валидности .
Рандомизация , или случайный отбор , используется для создания простых случайных выборок. Использование такой выборки основывается на предположении, что каждый член популяции с равной вероятностью может попасть в выборку. Например, чтобы сделать случайную выборку из 100 студентов вуза , можно сложить бумажки с именами всех студентов вуза в шляпу, а затем достать из неё 100 бумажек — это будет случайным отбором (Гудвин Дж., с. 147)……
Попарный отбор — стратегия построения групп выборки, при котором группы испытуемых составляются из субъектов, эквивалентных по значимым для эксперимента побочным параметрам. Данная стратегия эффективна для экспериментов с использованием экспериментальных и контрольных групп с лучшим вариантом — привлечением близнецовых пар ( моно - и дизиготных ).
Стратометрический отбор — рандомизация с выделением страт (или кластеров ). При данном способе формирования выборки генеральная совокупность делится на группы (страты), обладающие определёнными характеристиками ( пол , возраст , политические предпочтения, образование , уровень доходов и др.), и отбираются испытуемые с соответствующими характеристиками.
Приближённое моделирование — составление ограниченных выборок и обобщение выводов об этой выборке на более широкую популяцию. Например, при участии в исследовании студентов 2-го курса университета, данные этого исследования распространяются на «людей в возрасте от 17 до 21 года». Допустимость подобных обобщений крайне ограничена.
Приближённое моделирование — формирование модели, которая для чётко оговорённого класса систем (процессов) описывает его поведение (или нужные явления) с приемлемой точностью.