Interested Article - Ложная зависимость

Ложная зависимость или ложная корреляция в статистике — это математическая зависимость , в которой два или более события или переменные связаны, но не причинно , а вследствие совпадения, или из-за наличия определенного третьего, скрытого фактора , называемого «общей переменной отклика», « спутывающим фактором » или « скрытой переменной » .

Примеры

Примеры ложной зависимости можно найти в литературе по временным рядам , где ложная регрессия — это регрессия, которая дает вводящие в заблуждение статистические доказательства линейной взаимосвязи между независимыми нестационарными переменными . На самом деле нестационарность может быть обусловлена наличием единичного корня в обеих переменных . В частности, любые две , вероятно, будут коррелировать друг с другом, даже если ни одна из них не оказывает причинного влияния на другую, поскольку каждая из них равна реальной переменной, умноженной на , и общее присутствие уровня цен в двух рядах данных придает им корреляцию .

Другой пример ложной зависимости можно увидеть, изучив взаимосвязь продаж мороженого в городе с количеством утоплений . Продажи могут быть самыми высокими, когда число утоплений в городских бассейнах наибольшее. Утверждать, что продажа мороженого вызывает утопление или наоборот, означало бы предполагать ложную связь между ними. В действительности жара могла вызвать и то, и другое. Жара является примером скрытой или невидимой смешивающей переменной.

Ещё одним широко известным примером является ряд статистических данных, показывающих положительную корреляцию между числом аистов , гнездящихся в ряде источников, и числом человеческих младенцев, родившихся в это время. Конечно, причинно-следственной связи не было; они были соотнесены друг с другом только потому, что были соотнесены с погодой за девять месяцев до наблюдений . Однако исследования показали, что корреляция была сильнее, чем просто погодные колебания. Хотя количество клинических родов не было связано с ростом популяции аистов, внебольничные роды коррелировали с популяцией аистов .

В редких случаях ложная зависимость может возникать между двумя совершенно не связанными переменными без какой-либо смешивающей переменной. Самые известные примеры — победы команды по американскому футболу « Вашингтон Редскинз » в конкретной игре перед каждыми президентскими выборами и успехом политической партии действующего президента на этих выборах . В течение 16 последовательных выборов между 1940 и 2000 годами « » предсказывало, сохранит или потеряет президентство политическая партия действующего президента. Это правило в конечном итоге было нарушено вскоре после того, как обнаружило корреляцию в 2000 году; в 2004, 2012 и 2016 годах результаты игры « Редскинз » и результаты выборов не совпадали .

Проверка гипотез

Часто проверяют нулевую гипотезу об отсутствии корреляции между двумя переменными и заранее принимают решение отклонить гипотезу, если корреляция, вычисленная из выборки данных , имела бы место менее чем в 5 % выборок данных, если бы нулевая гипотеза была верна. В то время как истинная нулевая гипотеза будет принята в 95 % случаев, остальные 5 % случаев, имеющих истинный нуль без корреляции, нулевая корреляция будет ошибочно отклонена, что приведет к принятию корреляции, которая является ложной (событие, известное как ошибка первого рода ). В данном примере ложная корреляция в выборке была результатом случайного отбора выборки, которая не отражает истинных свойств генеральной совокупности .

Обнаружение ложной зависимости

Термин «ложная зависимость» широко используется в статистике и, в частности, в методах экспериментальных исследований , которые пытаются понять и предсказать прямые причинно-следственные связи (X → Y). Непричинная корреляция может быть ложно создана антецедентом , который вызывает и то и другое (W → X и W → Y). (X → W → Y), если они не обнаружены, оценивают общий эффект, а не прямой эффект без поправки на переменную-посредник M. Из-за этого экспериментально выявленные корреляции не представляют причинно-следственных связей, если только не исключаются ложные зависимости.

Эксперименты

В экспериментах ложную зависимость часто можно выявить, , в том числе те, которые были теоретически идентифицированы как возможные смешивающие факторы. Например, когда исследователь пытается определить, убивает ли новый препарат бактерии ; он применяет препарат к бактериальной культуре , бактерии погибают. Но для того, чтобы исключить наличие смешивающей переменной, другая культура помещается в условия, максимально близкие к тем, с которыми сталкивается первая, но вторая культура не подвергается воздействию препарата. Если в этих условиях присутствует невидимый мешающий фактор, эта контрольная культура также погибнет, так что из результатов первой культуры нельзя будет сделать никакого заключения об эффективности препарата. С другой стороны, если контрольная культура не погибает, то исследователь не может отвергнуть гипотезу об эффективности препарата.

Неэкспериментальный статистический анализ

Дисциплины, данные которых в основном не являются экспериментальными, такие как экономика, обычно используют данные наблюдений для установления причинно-следственных связей. Совокупность статистических методов, используемых в экономике , называется эконометрикой . Основным статистическим методом в эконометрике является многомерный регрессионный анализ . Как правило, предполагается линейная зависимость вида y = a 0 + a 1 x 1 + a 2 x 2 + + a k x k + e {\displaystyle y=a_{0}+a_{1}x_{1}+a_{2}x_{2}+\cdots +a_{k}x_{k}+e} , в которой y {\displaystyle y} зависимая переменная , x j {\displaystyle x_{j}} для j = 1, ...,k независимая переменная , а e {\displaystyle e} - член ошибки (содержащий совокупные эффекты всех других причинных переменных, которые не должны коррелировать с включенными независимыми переменными). Если есть основания полагать, что ни один из x j {\displaystyle x_{j}} не вызван y {\displaystyle y} , то получаются оценки коэффициентов a j 0 {\displaystyle a_{j}\neq 0} . Если нулевая гипотеза о том, что a j = 0 {\displaystyle a_{j}=0} отвергается, то альтернативная гипотеза о том, что a j 0 {\displaystyle a_{j}\neq 0} , эквивалентная тому, что x j {\displaystyle x_{j}} определяет y {\displaystyle y} , не может быть отвергнута. С другой стороны, если нулевая гипотеза о том, что a j = 0 {\displaystyle a_{j}=0} не может быть отвергнута, то эквивалентно гипотеза об отсутствии причинного эффекта x j {\displaystyle x_{j}} на y {\displaystyle y} не может быть отвергнута.

Если истинное значение a j 0 {\displaystyle a_{j}\neq 0} , то изменение x j {\displaystyle x_{j}} приведет к изменению y {\displaystyle y} , если только какая-либо другая причинная переменная, включенная в регрессию или неявная в слагаемом ошибки, не изменится таким образом, чтобы точно компенсировать ее эффект; таким образом, изменение x j {\displaystyle x_{j}} недостаточно для изменения y {\displaystyle y} . Аналогично, изменение x j {\displaystyle x_{j}} не обязательно для изменения y {\displaystyle y} , потому что изменение y {\displaystyle y} может быть вызвано чем-то неявным в слагаемом ошибки (или какой-то другой причинной объясняющей переменной, включенной в модель).

Регрессионный анализ контролирует другие релевантные переменные, включая их в качестве регрессоров (объясняющих переменных). Это помогает избежать ошибочного вывода о причинности из-за наличия третьей, лежащей в основе переменной, которая влияет как на потенциально причинную переменную, так и на потенциально зависимую переменную: ее влияние на потенциально зависимую переменную фиксируется прямым включением ее в регрессию, так что эффект не будет воспринят как паразитный эффект потенциально причинной переменной, представляющей интерес. Кроме того, использование многомерной регрессии помогает избежать ошибочного вывода о том, что косвенный эффект, скажем, x1 (например, x1 → x2 → y) является прямым эффектом (x1 → y). Таким образом, модель множественной регрессии должна контролировать все смешивающие факторы, включая их в себя как регрессоры. Если в регрессии отсутствует смешивающий фактор, его влияние по умолчанию фиксируется в слагаемом ошибки, и если результирующий термин ошибки коррелирует с одним или несколькими из включенных регрессоров, то оценочная регрессия может быть смещенной или несогласованной .

В дополнение к регрессионному анализу данные могут быть исследованы на наличие причинно-следственной связи Грейнджера . Наличие причинности Грейнджера указывает как на то, что x предшествует y, так и на то, что x содержит уникальную информацию об y.

См. также

Примечания

  1. (неопр.) . web.archive.org (25 сентября 2019). Дата обращения: 17 февраля 2021. Архивировано 25 сентября 2019 года.
  2. G. Yule. . — doi : . 11 февраля 2021 года.
  3. C. W. J. (Clive William John) Granger. . — New York : Cambridge University Press, 2001. — 550 с. — ISBN 978-0-521-77496-3 , 978-0-521-79649-1, 978-0-521-79697-2.
  4. Sapsford, Roger; Jupp, Victor, eds. (2006). Data Collection and Analysis . Sage. ISBN 0-7619-4362-5 .
  5. Höfer, Thomas; Hildegard Przyrembel; Silvia Verleger (2004). от 11 апреля 2019 на Wayback Machine . Paediatric and Perinatal Epidemiology . 18 (1): 18-22.
  6. (амер. англ.) . ESPN Front Row (30 октября 2012). Дата обращения: 17 февраля 2021. 2 марта 2021 года.
  7. Rob Manker, Chicago Tribune reporter. (амер. англ.) . chicagotribune.com . Дата обращения: 17 февраля 2021. 17 июля 2021 года.

Same as Ложная зависимость