Красное смещение
- 1 year ago
- 0
- 0
Смещение выборки в статистике — такое , при котором выборка производится таким образом, что некоторые члены предполагаемой совокупности , по сравнению с другими, имеют более низкую или более высокую . В результате наблюдается смещённая выборка популяции (или нечеловеческий фактор), в которой все испытуемые или экземпляры были выбраны с разной вероятностью. Если не учесть данное смещение, то результаты могут ошибочно рассматриваться как изучаемое явление, а не как метод отбора проб .
Ошибка выборки в сфере медицины иногда рассматривается как систематическая ошибка выяснения . Фактически ошибка выяснения представляет собой то же, что и смещение выборки, однако, иногда её до сих пор выделяют как отдельный тип статистической ошибки .
Смещение выборки обычно характеризуют как подтип систематической ошибки отбора , даже иногда специфично определяют её как смещённая ошибка выборки, однако другие определяют её как отдельный тип статистической ошибки. Их отличие, хоть и не признанное большинством, заключается в том, что смещение выборки представляет собой ту ошибку, которая может поставить под сомнение внешнюю валидность испытания (возможность её результатов относиться ко всей совокупности), тогда как ошибка отбора соотносится лишь с внутренней валидностью различий или сходств, обнаруженных при проведении испытаний. Следовательно, ошибки, возникающие в процессе отбора образцов или определения когорт, могут привести к смещению выборки, а ошибки, возникшие уже после этого, к систематической ошибке отбора.
Тем не менее смещение выборки и ошибка отбора очень часто используются как синонимы.
Изучая медицинские отчёты невольно впадаешь в парадоксально-анекдотическое состояние. По своей структуре подобные отчёты содержат лишь информацию о способах лечения и диагноз. Ребёнку, у которого с учёбой и жизнью в школе проблемы, с большой долей вероятности будет поставлен диагноз дислексия , а ребёнку, который старается, учится, но не до конца хорошо справляется — нет. Обследованного ранее ребёнка с поставленным диагнозом будут чаще повторно обследовать и ставить новые состояния, что искажает статистику коморбидности . Люди, соответственно, услышав подобные диагнозы, чаще связывают их с расстройствами в поведении или умственной отсталостью , в то время как родители стараются огородить своих детей от подобных ярлыков, чем провоцируют ещё большую предвзятость в их отношении. Тщательно отобранные и изученные отчёты по исследованиям, в свою очередь, показывают, что подобные состояния являются гораздо более распространёнными и не такими жестокими по отношению к своему носителю, как считалось ранее.
Генетики ограничены в возможностях сбора данных от людей. Так, к примеру, данные касательно любой особенности человека. Нам интересно знать, является ли данная особенность врождённой, как гласит простое наследование по Менделю . Следуя правилам данного закона, если у родителей отсутствует данная особенность, но присутствует несущий её аллель, то потенциально они могут его передать по наследству (то есть гетерозигота не определена). При таком раскладе шанс ребёнка унаследовать данную особенность составляет 25 %. Однако встаёт следующий вопрос: можем ли мы сказать, в каких семьях обои родители являются носителями (гетерозиготными), если не судить по ребёнку, у которого уже могли проявиться данные особенности. Описание выдержано из учебника Саттона.
На рисунке представлены родословные всех возможных семей с двумя детьми, где родители - переносчики (Аа).
На рисунке также показана вероятность с какой семьи может происходить отбор, а также частота отбора больных детей. В зависимости от используемого типа усечённого выбора исследователь будет отбирать частоту 4 ⁄ 7 или 5 ⁄ 8 при проявления признака.
Наблюдаемый пример смещения отбора — «эффект пещерного человека». Большинство современных представлений о доисторических народах основываются на пещерных рисунках , которые были выполнены около 40 000 лет назад. Точно так же кострища, землянки , захоронения и т.д. останутся нетронутыми. В случае, если бы люди рисовали на деревьях, шкурах животных или склонах холмов, то вся эта информация была бы утрачена. Доисторические люди у нас ассоциируются с пещерами не потому, что все они всю свою жизнь жили в пещерах, а потому что до нас дошла информация, содержащаяся лишь в рисунках пещер.
Вследствие возникновения ошибки смещения выборки проявляются проблемы, так как существует вероятность того, что статистика , собранная для анализа выборки, систематически неверна. Смещение выборки может привести к систематической переоценке или недооценке соответствующего параметра популяции. Смещение выборки потому и возникает, что практически невозможно обеспечить чистую случайность выборки. В случае, если процент недостаточной репрезентативности мал, выборку можно рассматривать как разумно-усредненное значение к случайной выборке. Кроме того, если выборка значимо не отличается по исследуемому параметру, то необъективная выборка также все еще может выступать в качестве приемлемой оценки.
Слово предвзятость имеет ярко выраженный негативный оттенок. Так и бывает, что ошибки возникают иногда вследствие заранее надуманного намерения исказить результаты исследований или научного мошенничества . В статистическом анализе систематические ошибки представляют собой обычное математическое свойство, и не важно являются они преднамеренными или нет, или как следствие несовершенства исследовательского оборудования. Не смотря на то, что некоторые личности могут преднамеренно использовать смещенную выборку для искажения результатов исследования, все равно чаще всего сам факт смещения выборки представляет собой просто сложность в предоставлении исконно репрезентативных данных или незнание о возможности проявления систематической ошибки на протяжении всего процесса исследования и анализа. Примером незнание факта систематической ошибки может служить повсеместно используемое отношение (также известного как кратность изменения ) в качестве меры различия в биологии. Так как легче получить большое отношение из двух малых чисел с приведенным различием, нежели большое отношение из двух больших чисел со значимым отличием, значимые различия игнорируются, в этом случае сравниваются два относительно больших числовых измерения. Иногда, из-за использования отношения (деления) вместо различия (вычитания), можно услышать «систематическая ошибка демаркации», что приводит к смещению результатов исследования из области науки в псевдонауку (см. « Проблема демаркации »).
При некоторых выборках используется смещенный статистический расчет, которых, тем не менее, позволяет произвести оценку параметра. Национальный центр статистики здравоохранения США , например, преднамеренно использует избыточную выборку меньших популяций в большинстве своих общенациональных опросах с целью получить достаточную точность оценки данных групп. В упомянутых опросах используется весовой коэффициент выборки (см. ниже). Он позволяют произвести надлежащую оценку по всем этническим группам. Если все отдельные условия соблюдены (главным образом при правильном расчете и использовании коэффициента), то данная выборка представляет точную оценку исследуемого параметра популяции.
Классический пример смещения выборки и, как следствие, неверно полученных результатов произошел в 1936 году. В первые дни опроса общественного мнения, исследователями американского журнала Literary Digest было собрано около двух миллионов опросов по почте, которые предсказывали безусловную победу с абсолютным большинством кандидата от республиканцев Альфреда Лэндона на предстоящих президентских выборах США над тогда еще действующим президентом Франклином Рузвельтом . Фактически же все было с точностью до наоборот. Популяция выборки опроса, собранная журналистами Literary Digest представляла собой читателей данного журнала, а также людей-владельцев зарегистрированных автомобилей и пользователей телефонов. Данная выборка представляла собой чрезмерную репрезентативность богатых людей, которые, как отдельная группа, были более склонны голосовать за кандидата от Республиканцев. С другой стороны, опрос только 50 тысяч граждан, проведенным Джорджем Гэллапом , успешно предсказал результаты предстоящих выборов, что и будущем обеспечило популярность опросов института Гэллапа .
Еще один пример ставший классикой произошел на президентских выборах 1948 года . В ночь перед выборами Chicago Tribune выпустила газету с заголовком «Дью побеждает Трумэна», что позже оказалось ложью. На утро избранный президент Гарри С. Трумэн держа в руках данную газету был сфотографирован с презрительной улыбкой. Причина, по которой журналисты Tribune ошиблись, оказалась той, что их редактор, проводивший исследование, произвел лишь телефонный опрос. Технология опросов тогда еще находилась в зачаточном состоянии, и поэтому немногие ученые не знали, что репрезентативность выборки, производимой по телефону, стремится к нулю, так как не учитывает интересы всего населения в целом. Телефоны тогда еще не были широко распространены, и поэтому те, кто их имел, скорее всего были обеспеченными людьми с постоянным местом жительства. (В большинстве городов телефонная книга содержала те же имена, что и «Светский альманах».) Журналисты основывали своих предположения на опросе Гэллапа, но упустили из виду тот факт, что он был 2-недельной давности.
При анализе качества воздуха исследуются загрязняющие вещества ( окись углерода , окись азота, двуокись азота или озон ), которые часто демонстрируют высокую корреляцию , так как все они образуются в результате одного и того же химического процесса (процессов). Данная корреляция зависит от места (то есть месторасположения) и времени (то есть периода). Поэтому распространения конкретного загрязняющего вещества не обязательно представлено везде и всегда равнозначно. Если недорогой измерительный прибор откалибровать в поле по многомерным данным, а именно путем сопоставления с эталонным инструментом, то соотношение различных соединений используется уже при эталонировании модели. При перемещении измерительного инструмента могут быть получены ошибочные данные.
Наиболее ранним примером смещения выборки является пандемия COVID-19 , когда при анализе показателей смертности и возрастном распределении заболевших по разным странам, проявлялись различия в данных из-за смещения выборки людей, только прошедших тестирование на наличие COVID-19 .
Если из выборки исключаются целые когорты населения, то отсутствуют поправки, на основании которых делается оценка всей популяции. Однако, если часть групп представляет собой большинство, а уровень их сверхрепрезентации может быть оценен, то тогда весовой коэффициент выборки может компенсировать смещение. Тем не менее, возможность успешной коррекции ограничена моделью отбора. Если отсутствуют значения некоторых переменных, то методы, которые обычно используются для коррекции смещения, могут дать обратный эффект.
Например, в образную популяцию входят 10 миллионов мужчин и 10 миллионов женщин. Предположим, что смещенная выборка представляет собой 100 человек: 20 являются мужчинами, 80 — женщинами. Исследователь может компенсировать данный дисбаланс путем использования весового коэффициента в 2,5 для каждого мужчины и 0,625 для каждой женщины. Эти манипуляции позволят скорректировать оценку до уровня тех же результатов, как если бы выборка состояла из 50 мужчин и 50 женщин, за исключением случаев, когда вероятность участи мужчин или женщин в исследования случайна или не равна.