Дело Симпсона
- 1 year ago
- 0
- 0
Парадокс Симпсона (также Парадокс Юла — Симпсона или парадокс объединения ) — явление в статистике, когда при наличии двух групп данных, в каждой из которых наблюдается одинаково направленная зависимость, при объединении этих групп направление зависимости меняется на противоположное. Например, подчёты по некоторой группе людей могут говорить, что определённое лекарство увеличивает шанс выздоровления, и при этом если разделить группу на две (мужчин и женщин), то оказывается, что это лекарство уменьшает шанс выздоровления в каждой группе.
Это явление было описано в 1951 году и Удни Юлом в 1903 году . Название «парадокс Симпсона» впервые предложил в 1972 году . Однако, так как Симпсон не был первооткрывателем этого эффекта, некоторые авторы используют безличные названия, например, « парадокс объединения».
Первый раз рассматриваемая ситуация отмечена Карлом Пирсоном в статье «Математический вклад в теорию эволюции» . Он рассматривает зависимость признаков разнородных групп лошадей. Удни Юл делает более подробный анализ подобных популяционных изменений, изучая механизмы наследственности. Симпсон рассматривает то, что он называет «любопытным случаем» в нескольких разделах статьи «The Interpretation of Interaction in Contingency Tables» . Симпсон был первым автором, изучавшим это явление с точки зрения статистики. Поэтому впоследствии математик К. Р. Блайт в статье «On Simpson’s Paradox and the Sure-Thing Principle» вводит термин «парадокс Симпсона».
Пусть есть четыре шляпы (две чёрных и две серых), 41 фишка (23 цветных и 18 белых) и два стола (А и Б). Фишки распределены по шляпам следующим образом:
Допустим, что вы хотите вытащить цветную фишку.
Если вы находитесь около стола А, то вероятность извлечь цветную фишку из чёрной шляпы равна 5/11 = 35/77 , а из серой шляпы на том же столе — 3/7 = 33/77 ; таким образом, цветную фишку больше шансов вытащить из чёрной шляпы, чем из серой.
Если вы находитесь около стола Б, то вероятность извлечь цветную фишку из чёрной шляпы равна 6/9 = 84/126 , а из серой шляпы — 9/14 = 81/126 ; таким образом, и здесь цветную фишку больше шансов вытащить из чёрной шляпы, чем из серой.
Допустим теперь, что фишки из двух чёрных шляп сложены в одну чёрную шляпу, а фишки из двух серых шляп — в одну серую шляпу. На первый взгляд, логично было бы предположить, что вероятность вытащить цветную фишку из чёрной шляпы выше, чем из серой. Но это неверно:
то есть больше шансов извлечь цветную фишку из серой шляпы, чем из чёрной .
Пусть мы имеем четыре набора камней. Вероятность вытащить чёрный камень из набора № 1 выше, чем из набора № 2. В свою очередь, вероятность вытащить чёрный камень из набора № 3 больше, чем из набора № 4. Объединим набор № 1 с набором № 3 (получим набор I), а набор № 2 — с набором № 4 (набор II). Интуитивно можно ожидать, что вероятность вытащить чёрный камень из набора I будет выше, чем из набора II. Однако в общем случае такое утверждение неверно.
Действительно, пусть — число чёрных камней в -ом наборе (выборке), — общее число камней в -ом наборе при . По условию:
Вероятность вытащить чёрный камень из наборов I и II, соответственно:
Выражение для набора I не всегда больше выражения для набора II; то есть может случится, что
Например, при , , , , , , , . Легко проверить, что , , в то время как .
Причина парадокса заключается в некорректном усреднении двух групп данных с различной долей контрольных наблюдений ( нерепрезентативная выборка ). Поскольку интуитивно предполагается, что при применении найденных зависимостей доля контрольных будет одинаковой в обеих группах, а в исходных данных это не выполняется, то к ним нельзя применять арифметическое усреднение.
Для устранения проблемы, при усреднении необходимо использовать веса, устраняющие перекос доли контрольных. Так, в примере с фишками доля фишек в серой шляпе на столе А — 7 из 18 (39 %), а на столе Б — 14 из 23 (61 %).
Для репрезентативного усреднения шанса вытянуть цветную фишку достаточно умножить количество фишек обоих цветов в одной из шляп на весовой коэффициент, устраняющий перекос. Например, если вместо одной серой шляпы на столе А поставить две таких же шляпы, то вероятности для каждого стола в отдельности не изменятся, но для объединения столов парадокс будет устранён: вероятность цветной фишки в серой шляпе станет 15/28, то есть меньше, чем из чёрной.
Другой способ разрешения парадокса — использование формулы полной вероятности .
Парадокс Симпсона показывает, что выводы из результатов социологических опросов с нерепрезентативной выборкой нельзя принимать как неопровержимые, доказанные научным путём.
Парадокс Симпсона иллюстрирует неправомерность обобщений по нерепрезентативным выборкам, иногда опасных для жизни. Так, например, в ходе эксперимента в группе мужчин и группе женщин, больных одной и той же болезнью, к стандартному лечению прибавили новый лекарственный препарат. Результат по обеим группам в отдельности подтверждал эффективность нового средства.
Мужчины | Принимавшие лекарство | Не принимавшие лекарство |
---|---|---|
Выздоровевшие | 700 | 80 |
Невыздоровевшие | 800 | 130 |
Соотношение | 0.875 | 0.615 |
Женщины | Принимавшие лекарство | Не принимавшие лекарство |
---|---|---|
Выздоровевшие | 150 | 400 |
Невыздоровевшие | 70 | 280 |
Соотношение | 2.142 | 1.429 |
Интуитивно предполагается, что если в обеих группах прослеживается зависимость, она должна проявиться и при объединении этих групп. Но хотя соотношение выздоровевших и больных среди и женщин, и мужчин, принимавших лекарство, больше, чем среди тех из них, кто его не использовал, в связи с нерепрезентативностью контрольной группы в агрегированных данных эта закономерность не сохраняется.
Сумма | Принимавшие лекарство | Не принимавшие лекарство |
---|---|---|
Выздоровевшие | 850 | 480 |
Невыздоровевшие | 870 | 410 |
Соотношение | 0.977 | 1.171 |
Соотношение в агрегированных данных 850/870<480/410, то есть 0,977<1,171. Следовательно, доля выздоровевших среди принимавших лекарство меньше той же доли среди не принимавших.
Для устранения парадокса нужно обратить внимание, что отношение контрольной группы к группе воздействия в приведённых группах резко различается: у мужчин составляет (80+130)/(700+800) = 14 %, а у женщин (400+280)/(150+70) = 309 %.
Для корректного усреднения нужно обеспечить репрезентативность контрольной группы в обеих выборках, введя весовые коэффициенты так, чтобы взвешенная доля контрольных в обеих группах стала одинаковой. В данном случае достаточно количество мужчин, не принимавших лекарства, умножить на весовой коэффициент 22.07. Измененные таблицы будут выглядеть так:
Мужчины |
Принимавшие
лекарство |
Не принимавшие лекарство | |
---|---|---|---|
исходные | с весом x22.07 | ||
Выздоровевшие | 700 | 80 | 1765 |
Невыздоровевшие | 800 | 130 | 2869 |
Соотношение | 0.875 | 0.615 |
Сумма |
Принимавшие
лекарство |
Не принимавшие лекарство | |
---|---|---|---|
исходные | с весом x22.07 | ||
Выздоровевшие | 850 | 480 | 2165 |
Невыздоровевшие | 870 | 410 | 3149 |
Соотношение | 0.977 | 1.171 | 0.685 |
Соотношение взвешенного количества выздоровевших к не выздоровевшим среди не принимавших лекарство в этом случае составит 0,685, то есть ниже, чем у принимавших лекарство. Это устраняет парадокс и показывает отношение выздоровевших к не выздоровевшим без приема лекарства для такой же пропорции мужчин и женщин, как у принимавших лекарство, что позволяет сравнивать эти цифры.