Interested Article - Ложная зависимость
- 2020-06-18
- 2
Ложная зависимость или ложная корреляция в статистике — это математическая зависимость , в которой два или более события или переменные связаны, но не причинно , а вследствие совпадения, или из-за наличия определенного третьего, скрытого фактора , называемого «общей переменной отклика», « спутывающим фактором » или « скрытой переменной » .
Примеры
Примеры ложной зависимости можно найти в литературе по временным рядам , где ложная регрессия — это регрессия, которая дает вводящие в заблуждение статистические доказательства линейной взаимосвязи между независимыми нестационарными переменными . На самом деле нестационарность может быть обусловлена наличием единичного корня в обеих переменных . В частности, любые две , вероятно, будут коррелировать друг с другом, даже если ни одна из них не оказывает причинного влияния на другую, поскольку каждая из них равна реальной переменной, умноженной на , и общее присутствие уровня цен в двух рядах данных придает им корреляцию .
Другой пример ложной зависимости можно увидеть, изучив взаимосвязь продаж мороженого в городе с количеством утоплений . Продажи могут быть самыми высокими, когда число утоплений в городских бассейнах наибольшее. Утверждать, что продажа мороженого вызывает утопление или наоборот, означало бы предполагать ложную связь между ними. В действительности жара могла вызвать и то, и другое. Жара является примером скрытой или невидимой смешивающей переменной.
Ещё одним широко известным примером является ряд статистических данных, показывающих положительную корреляцию между числом аистов , гнездящихся в ряде источников, и числом человеческих младенцев, родившихся в это время. Конечно, причинно-следственной связи не было; они были соотнесены друг с другом только потому, что были соотнесены с погодой за девять месяцев до наблюдений . Однако исследования показали, что корреляция была сильнее, чем просто погодные колебания. Хотя количество клинических родов не было связано с ростом популяции аистов, внебольничные роды коррелировали с популяцией аистов .
В редких случаях ложная зависимость может возникать между двумя совершенно не связанными переменными без какой-либо смешивающей переменной. Самые известные примеры — победы команды по американскому футболу « Вашингтон Редскинз » в конкретной игре перед каждыми президентскими выборами и успехом политической партии действующего президента на этих выборах . В течение 16 последовательных выборов между 1940 и 2000 годами « » предсказывало, сохранит или потеряет президентство политическая партия действующего президента. Это правило в конечном итоге было нарушено вскоре после того, как обнаружило корреляцию в 2000 году; в 2004, 2012 и 2016 годах результаты игры « Редскинз » и результаты выборов не совпадали .
Проверка гипотез
Часто проверяют нулевую гипотезу об отсутствии корреляции между двумя переменными и заранее принимают решение отклонить гипотезу, если корреляция, вычисленная из выборки данных , имела бы место менее чем в 5 % выборок данных, если бы нулевая гипотеза была верна. В то время как истинная нулевая гипотеза будет принята в 95 % случаев, остальные 5 % случаев, имеющих истинный нуль без корреляции, нулевая корреляция будет ошибочно отклонена, что приведет к принятию корреляции, которая является ложной (событие, известное как ошибка первого рода ). В данном примере ложная корреляция в выборке была результатом случайного отбора выборки, которая не отражает истинных свойств генеральной совокупности .
Обнаружение ложной зависимости
Термин «ложная зависимость» широко используется в статистике и, в частности, в методах экспериментальных исследований , которые пытаются понять и предсказать прямые причинно-следственные связи (X → Y). Непричинная корреляция может быть ложно создана антецедентом , который вызывает и то и другое (W → X и W → Y). (X → W → Y), если они не обнаружены, оценивают общий эффект, а не прямой эффект без поправки на переменную-посредник M. Из-за этого экспериментально выявленные корреляции не представляют причинно-следственных связей, если только не исключаются ложные зависимости.
Эксперименты
В экспериментах ложную зависимость часто можно выявить, , в том числе те, которые были теоретически идентифицированы как возможные смешивающие факторы. Например, когда исследователь пытается определить, убивает ли новый препарат бактерии ; он применяет препарат к бактериальной культуре , бактерии погибают. Но для того, чтобы исключить наличие смешивающей переменной, другая культура помещается в условия, максимально близкие к тем, с которыми сталкивается первая, но вторая культура не подвергается воздействию препарата. Если в этих условиях присутствует невидимый мешающий фактор, эта контрольная культура также погибнет, так что из результатов первой культуры нельзя будет сделать никакого заключения об эффективности препарата. С другой стороны, если контрольная культура не погибает, то исследователь не может отвергнуть гипотезу об эффективности препарата.
Неэкспериментальный статистический анализ
Дисциплины, данные которых в основном не являются экспериментальными, такие как экономика, обычно используют данные наблюдений для установления причинно-следственных связей. Совокупность статистических методов, используемых в экономике , называется эконометрикой . Основным статистическим методом в эконометрике является многомерный регрессионный анализ . Как правило, предполагается линейная зависимость вида , в которой — зависимая переменная , для j = 1, ...,k независимая переменная , а - член ошибки (содержащий совокупные эффекты всех других причинных переменных, которые не должны коррелировать с включенными независимыми переменными). Если есть основания полагать, что ни один из не вызван , то получаются оценки коэффициентов . Если нулевая гипотеза о том, что отвергается, то альтернативная гипотеза о том, что , эквивалентная тому, что определяет , не может быть отвергнута. С другой стороны, если нулевая гипотеза о том, что не может быть отвергнута, то эквивалентно гипотеза об отсутствии причинного эффекта на не может быть отвергнута.
Если истинное значение , то изменение приведет к изменению , если только какая-либо другая причинная переменная, включенная в регрессию или неявная в слагаемом ошибки, не изменится таким образом, чтобы точно компенсировать ее эффект; таким образом, изменение недостаточно для изменения . Аналогично, изменение не обязательно для изменения , потому что изменение может быть вызвано чем-то неявным в слагаемом ошибки (или какой-то другой причинной объясняющей переменной, включенной в модель).
Регрессионный анализ контролирует другие релевантные переменные, включая их в качестве регрессоров (объясняющих переменных). Это помогает избежать ошибочного вывода о причинности из-за наличия третьей, лежащей в основе переменной, которая влияет как на потенциально причинную переменную, так и на потенциально зависимую переменную: ее влияние на потенциально зависимую переменную фиксируется прямым включением ее в регрессию, так что эффект не будет воспринят как паразитный эффект потенциально причинной переменной, представляющей интерес. Кроме того, использование многомерной регрессии помогает избежать ошибочного вывода о том, что косвенный эффект, скажем, x1 (например, x1 → x2 → y) является прямым эффектом (x1 → y). Таким образом, модель множественной регрессии должна контролировать все смешивающие факторы, включая их в себя как регрессоры. Если в регрессии отсутствует смешивающий фактор, его влияние по умолчанию фиксируется в слагаемом ошибки, и если результирующий термин ошибки коррелирует с одним или несколькими из включенных регрессоров, то оценочная регрессия может быть смещенной или несогласованной .
В дополнение к регрессионному анализу данные могут быть исследованы на наличие причинно-следственной связи Грейнджера . Наличие причинности Грейнджера указывает как на то, что x предшествует y, так и на то, что x содержит уникальную информацию об y.
См. также
- Корреляция
- Регрессия
- Регрессионный анализ
- Причинность
- Причинность по Грэнджеру
- Иллюзорная корреляция
- Смещение вследствие пропущенных переменных
Примечания
- (неопр.) . web.archive.org (25 сентября 2019). Дата обращения: 17 февраля 2021. Архивировано 25 сентября 2019 года.
- G. Yule. . — doi : . 11 февраля 2021 года.
- C. W. J. (Clive William John) Granger. . — New York : Cambridge University Press, 2001. — 550 с. — ISBN 978-0-521-77496-3 , 978-0-521-79649-1, 978-0-521-79697-2.
- Sapsford, Roger; Jupp, Victor, eds. (2006). Data Collection and Analysis . Sage. ISBN 0-7619-4362-5 .
- Höfer, Thomas; Hildegard Przyrembel; Silvia Verleger (2004). от 11 апреля 2019 на Wayback Machine . Paediatric and Perinatal Epidemiology . 18 (1): 18-22.
- (амер. англ.) . ESPN Front Row (30 октября 2012). Дата обращения: 17 февраля 2021. 2 марта 2021 года.
- Rob Manker, Chicago Tribune reporter. (амер. англ.) . chicagotribune.com . Дата обращения: 17 февраля 2021. 17 июля 2021 года.
- 2020-06-18
- 2