Без шансов
- 1 year ago
- 0
- 0
Отношение шансов — характеристика, применяемая в математической статистике (на русском обозначается аббревиатурой «ОШ», на английском «OR» от odds ratio) для количественного описания тесноты связи признака А с признаком Б в некоторой статистической популяции.
Рассмотрим принцип вычисления этого показателя на гипотетическом примере. Предположим, что нескольким добровольцам задают два вопроса:
Далее, для каждого участника можно определить обладает ли он свойством «A» (к примеру,«высоким артериальным давлением (АД)») и свойством «Б» (к примеру, «умеренно употребляет алкоголь»). В результате опроса всей группы участников требуется построить такой интегральный показатель, который бы количественно характеризовал связь между наличием признака «A» и наличием «Б» в популяции. Существует три характеристики такого рода и одна из них - это отношение шансов (ОШ), которая рассчитывается в три шага:
Термин «участник» не обязательно обозначает человека, популяция может объединять любые объекты, как живой так и неживой природы.
Если ОШ превышает 1, наличие признака «А» ассоциируется с признаком «Б» в том смысле, что наличие «Б» повышает (по отношению к отсутствию «Б») шансы наличия «A».
Важное замечание : наличие повышенного ОШ (ОШ>1) не является свидетельством наличия причинной-следственной связи между «Б» и «A». Хотя в некоторых случаях признак "Б" может являться причиной признака "А" (к примеру, количество осадков и уровень воды в водоёме), ОШ определяет лишь тесноту связи между признаками.
Вполне возможен вариант наличия ложной связи, опосредованной некоторым другим свойством «C», которое индуцирует оба признака «A» и «Б» ( ). В нашем примере ложная корреляция могла бы проявиться так: в исследуемой группе добровольцев выявляется тенденция к снижению АД у лиц умеренно употребляющих алкоголь, но при попытке принуждения к употреблению алкоголя (в умеренных количествах, естественно) добровольцев, которые ранее алкоголь не принимали мы бы обнаружили, что АД у них в среднем не изменяется. Такие противоречивые результаты можно было бы объяснить, гипотетически, влиянием постороннего фактора: к примеру, в исследуемой группе представлены, в основном, лица давно и регулярно употребляющие алкоголь в умеренных количествах, у которых ярко выражены механизмы адаптации, которые, гипотетически, могут проявляться снижением АД. Таким образом, фактор "адаптация" является здесь посторонним.
Другие два способа количественной оценки связи двух качественных признаков — это относительный риск («ОР») и («АСР»). В клинических исследованиях и во многих других случаях, наибольший интерес представляет характеристика ОР, которая вычисляется аналогичным образом за исключением того, что вместо шансов используются вероятности. К сожалению, исследователи часто сталкиваются с ситуацией, когда имеющиеся данные позволяют рассчитать только ОШ, особенно это касается исследований типа . Тем не менее, когда один из признаков, например A, встречается достаточно редко (« »), тогда ОШ для наличия «A» при условии, что участник обладает «Б» является хорошим приближением для ОР (требование «A при условии Б» обязательно, так как ОШ учитывает оба свойства симметрично, а ОР и другие характеристики — нет).
Говоря техническим языком, отношение шансов является мерой , описывающей силу связи или зависимости между двумя двузначными (бинарными) величинами. Она используется в качестве описательной статистики и играет важную роль в логистической регрессии .
Представим себе некое редкое заболевание, которым страдает, к примеру, только один среди многих тысяч взрослых людей в стране. Предположим, что существует некий фактор (например, определенная травма, полученная в детстве), который делает более вероятным развитие данного заболевания в будущем у взрослого. Наиболее информативным, в таком случае, был бы показатель отношения рисков (ОР). Но для его расчета мы должны бы были у всех взрослых в популяции узнать a) имели ли они травму в детстве и б) имеется ли у них заболевание сейчас. После этого мы получим информацию о том каково общее число человек имевших травму в детстве (объем экспонированной группы) , из которых заболели в будущем и остались здоровы; а также общее количество человек не имевших травму в детстве (объем неэкспонированной группы), , из которых заболели и остались здоровы. Поскольку и аналогичная сумма имеет место для «NE» индексов, мы имеем четыре независимых числа, которые можем записать в таблицу :
Больны | Здоровы | |
Фактор присутствует (Пострадали) | ||
Фактор отсутствует (Не пострадали) |
Чтобы избежать недоразумений в дальнейшем подчеркнем, что все эти числа получены по генеральной совокупности, а не по выборке.
Теперь риск развития заболевания при наличии травмы будет (где ), а риск развития болезни при отсутствии травмы . Относительный риск (ОР) — это отношение двух чисел:
которое можно переписать так
Рассмотрим шансы развития заболевания, которые при наличии травмы будут , а при отсутствии травмы . Отношение шансов (ОШ) — это отношение двух чисел:
которое можно переписать так
Так как заболевание является редким ОР≈ОШ. В самом деле, для редкого заболевания имеем поэтому , но , или другими словами, для экспонированной группы риск развития заболевания примерно равен шансам. Аналогичные рассуждения приводят нас к пониманию того, что риск примерно равен шансам для неэкспонированной группы; но тогда отношение рисков, коим является ОР, примерно равняется отношению шансов, чем и является ОШ. Можно также заметить, что предположение о редком заболевании говорит о том что и из чего следует или другими словами знаменатели в итоговых выражениях для ОР и ОШ примерно равны. Числители же в точности совпадают, и поэтому опять мы заключаем что ОШ≈ОР.
Если вернуться назад к нашему гипотетическому исследованию, очень часто возникающая проблема — это то что у нас может не оказаться нужной информации, чтобы оценить все эти четыре числа. Например, у нас может не оказаться данных обо всей популяции по фактам наличия или отсутствия травмы в детстве.
Часто мы можем обойти эту проблему путём случайной выборки из генеральной совокупности: а именно, если ни заболевание, ни подверженность травмам в детстве не являются редкими в популяции, мы можем случайным образом выбрать, скажем, сотню человек и найти эти четыре числа в данной выборке; предполагая, что эта выборка является достаточно репрезентативной, ОР, вычисленное в данной выборке, будет хорошим приближением к ОР для всей совокупности.
В то же время, некоторые заболевания могут быть настолько редкими что, при всем желании, даже в большой выборке может не оказаться ни одного заболевшего (или их может быть так мало, что о статистической значимости не может быть и речи). По этой причине расчет ОР становится невозможным. Но мы, тем не менее, можем получить оценку ОР в данных обстоятельствах поскольку в отличие от заболевания, экспонирование травмой в детстве не является редким событием. Разумеется, вследствие редкости заболевания, это также будет всего лишь оценкой ОР.
Взглянем на последнее выражение для ОР: дробь в числителе мы в состоянии оценить, собрав все известные случаи заболевания (предполагается, что такие случаи есть, иначе мы не затевали бы исследование вообще), и посмотрев сколько среди заболевших людей были экспонированы, а сколько нет. И дробь в знаменателе — это шансы того, что здоровый человек в популяции получил травму в детстве. Теперь заметим что эти шансы, на самом деле, можно оценить путём случайной выборки из популяции, так как было сказано ранее, что распространенность экспонирования травмой в детстве достаточно велика, вследствие чего случайная выборка достаточного объёма с большой долей вероятности будет содержать значительное количество экспонированных человек. Поэтому здесь заболевание очень редкое, но фактор, который его вызывает уже не такой редкий; похожие ситуации довольно часто встречаются на практике.
Таким образом, мы можем оценить ОШ и затем, используя редкость заболевания, утверждать, что эта оценка также является хорошим приближением для ОР. К слову, рассмотренный случай — это обычная задача исследования типа случай-контроль.
Аналогичные рассуждения можно провести не прибегая к употреблению понятия ОШ, например, так: поскольку мы имеем соотношения и , следовательно мы получим . Поэтому если путём случайной выборки мы стремимся оценить соотношение , тогда, прибегнув к предположении о редкости заболевания получим, что его хорошей оценкой будет являться величина , что нам и требовалось(при этом мы уже знаем после изучения нескольких случаев заболевания) получить для расчета ОР. Тем не менее, считается хорошим тоном при публикации результатов приводить значение ОШ, но с оговоркой о том что ОР примерно такой же.
Отношение шансов — это дробь, в числителе которой, стоят шансы некоторого события для одной группы, а в знаменателе шансы того же события, но для другой группы. Данное выражение применяется также для расчета выборочных оценок отношения. В качестве групп могут выступать мужчины и женщины, экспериментальная и контрольная группа , а также любая дихотомия . Если вероятность события в каждой группе обозначить за p 1 (первая группа) и p 2 (вторая группа), тогда отношение шансов будет равно:
где q x = 1 − p x . Отношение шансов равное 1 означает, что исследуемое событие обладает равными шансами в обеих группах. Отношение шансов превышающее 1 означает, что событие имеет больше шансов произойти в первой группе. И отношение шансов не превышающее 1 свидетельствует о том, что событие имеет меньше шансов в первой группе. Отношение шансов всегда неотрицательная величина (если его значение определено). Значение становится неопределенным, если p 2 q 1 равно нулю, то есть, если p 2 равно нулю или q 1 равно нулю.
Отношение шансов можно определить через совместное распределение вероятностей двух бинарных случайных величин . Совместное распределение бинарных случайных величин X и Y задается таблицей
Y = 1 | Y = 0 | |
X = 1 | ||
X = 0 |
где p 11 , p 10 , p 01 и p 00 неотрицательные совместные вероятности, сумма которых равна 1. Шансы для Y в двух группах, определяемых условиями X = 1 и X = 0 вычисляются с помощью условных вероятностей при условии X , то есть P ( Y | X ):
Y = 1 | Y = 0 | |
X = 1 | ||
X = 0 |
Таким образом, отношение шансов будет равно
Дробь в правой части выражения, выше, легко запомнить как произведение вероятностей согласованных ячеек ( X = Y ) деленное на произведение вероятностей рассогласованных ячеек ( X ≠ Y ). Несмотря на то, что обозначение категорий с помощью 0 и 1 является произвольным, правило согласованных и несогласованных ячеек остается в силе.
Если вычислить отношение шансов с помощью условных вероятностей при условии Y ,
Y = 1 | Y = 0 | |
X = 1 | ||
X = 0 |
мы получим тот же результат
Остальные меры величины эффекта для бинарных данных, например относительный риск , не обладают таким свойством симметрии.
Если X и Y независимы, их совместные вероятности можно выразить через маргинальные вероятности p x = P ( X = 1) и p y = P ( Y = 1) следующим образом:
Y = 1 | Y = 0 | |
X = 1 | ||
X = 0 |
В этом случае отношение шансов равняется единице, и наоборот, если отношение шансов равно единице, совместные вероятности можно представить в виде таких произведений. Таким образом, отношение шансов равняется единице тогда и только тогда, когда X и Y независимы .
Отношение шансов является функцией от совместных вероятностей, и обратно, совместные вероятности можно восстановить если известны отношение шансов и маргинальные вероятности
P ( X = 1) = p 11 + p 10 и P ( Y = 1) = p 11 + p 01 . Если отношение шансов R отлично от 1, то:
где p 1• = p 11 + p 10 , p •1 = p 11 + p 01 и
В случае равенства R = 1, мы имеем независимость, поэтому p 11 = p 1• p •1 .
Так как мы знаем p 11 , остальные три вероятности легко определяются из маргинальных.
Предположим, что в выборке из 100 мужчин 90 употребляли вино на прошлой неделе, в то же время в выборке из 100 женщин только 20 употребляли вино за тот же период. Шансы того, что мужчина употреблял вино составляют 90 к 10, или 9:1, тогда как те же шансы для женщин только 20 к 80, или 1:4 = 0,25:1. Отношение шансов составит величину 9/0,25, или 36, которая показывает нам, что значительно большее число именно мужчин употребляют вино. Более подробные расчеты:
Данный пример показывает, как сильно различаются отношения шансов в разных системах расчета: в выборке употреблявших вино, мужчин в 90/20 = 4,5 раза больше чем женщин, но при этом у них в 36 раз больше шансов. Логарифм отношения шансов, разница вероятностей , смягчает этот эффект и придает свойство симметрии по отношению к порядку групп. Например, применив натуральный логарифм к отношению шансов 36/1, мы получим 3,584, а сделав то же самое с отношением 1/36, получим −3,584.
Было разработано несколько подходов для проверки статистических гипотез об отношении шансов.
Один из подходов основан на аппроксимации выборочного распределения логарифма отношения шансов (а именно, натурального логарифма отношения шансов). Если использовать обозначения в терминах совместных вероятностей, логарифм генерального отношения шансов будет равен
Если мы представим результаты эксперимента в виде таблицы сопряженности
Y = 1 | Y = 0 | |
X = 1 | ||
X = 0 |
оценки вероятностей для совместного распределения можно определить так:
Y = 1 | Y = 0 | |
X = 1 | ||
X = 0 |
где p ̂ ij = n ij / n , а n = n 11 + n 10 + n 01 + n 00 является суммой значений всех четырёх ячеек таблицы. Логарифм выборочного отношения шансов будет равен:
Распределение логарифма отношения шансов хорошо аппроксимируется нормальным распределением с параметрами:
Стандартная ошибка логарифма отношения шансов оценивается по формуле
Данное приближение является асимптотическим, и поэтому может давать бессмысленный результат если какая-либо из ячеек содержит слишком малое число. Если обозначить за L логарифм выборочного отношения шансов, приближенная оценка 95 % доверительного интервала для логарифма генерального отношения шансов будет определяться в рамках нормальной модели так: L ± 1.96 SE . От логарифма можно избавиться, воспользовавшись преобразованием exp( L − 1.96SE), exp( L + 1.96SE), и получить 95 % доверительный интервал для отношения шансов. Если требуется проверить гипотезу о равенстве генерального отношения шансов единице, можно определить двустороннее значение p-статистики как 2 P ( Z < −| L |/SE), где P означает вероятность, а Z — это величина, обладающая стандартным нормальным распределением .
Другой подход позволяет в некоторой степени восстановить исходное распределение выборочного отношения шансов. Для этого фиксируются маргинальные частоты признаков X и Y , а значения в ячейках таблицы меняются последовательно либо случайно. Легко понять, что изменению подлежит только одна из ячеек таблицы, поскольку все остальные определяются исходя из условия постоянства маргинальных частот.
Логистическая регрессия — это один из способов определения отношения шансов для двух бинарных переменных. Предположим, имеется одна зависимая двоичная переменная Y , одна независимая бинарная переменная X (предиктор), и группа дополнительных предикторов Z 1 , …, Z p , которые могут принимать какие угодно значения. Если мы будем использовать множественную логистическую регрессию Y на X , Z 1 , …, Z p , оценка коэффициента для X имеет связь с условным отношением шансов. А именно, на уровне генеральной совокупности
поэтому — это оценка данного условного отношения шансов. Величина , в таком случае, интерпретируется как оценка отношения шансов между Y и X при фиксированных значениях переменных Z 1 , …, Z p .
Когда данные представляют собой репрезентативную выборку, вероятности в ячейках таблицы p ̂ ij интерпретируются как частоты каждой из четырёх групп в генеральной совокупности согласно комбинациям значений X и Y . Во многих случаях использование репрезентативной выборки является непрактичным, поэтому часто формируется селективная выборка. Например, в выборку отбираются объекты у которых X = 1 с заданной вероятностью f , несмотря на их реальную частоту в генеральной совокупности (вследствие этого, неизбежно, объекты со свойством X = 0 будут отобраны с вероятностью 1 − f ). В таком случае, мы получим следующие совместные вероятности:
Y = 1 | Y = 0 | |
X = 1 | ||
X = 0 |
Отношение шансов p 11 p 00 / p 01 p 10 для данного распределения не зависит от f . Этот пример показывает, что отношение шансов (и, соответственно, логарифм отношения шансов) инвариантно к неслучайным относительно одной из изучаемых переменных выборкам. Однако, стоит заметить, что стандартная ошибка логарифма отношения шансов зависит от f .
Свойство инвариантности используется в двух очень важных ситуациях:
В обеих ситуациях отношение шансов можно без смещения оценить по данным селективной выборки.
В виду широкого распространения логистической регрессии , отношение шансов часто используется в медицинских и социальных исследованиях. Отношение шансов обычно используется в анкетировании, эпидемиологии , а также для представления результатов таких клинических испытаний как . В отчетах оно чаще всего сокращенно обозначается как «OR». В случае, когда объединяются результаты нескольких опросов, используется название «pooled OR».
В клинических и других исследованиях, больший интерес представляет характеристика относительного риска нежели отношения шансов. Относительный риск лучше всего определяется по генеральной совокупности, но если справедливо предположение о редком заболевании, отношение шансов является хорошим приближением для оценки относительного риска — шансы это дробь вида p / (1 − p ), поэтому когда p приближается к нулю, 1 − p приближается к единице, что означает приближение шансов к величине риска, а, следовательно, приближение отношения шансов к относительному риску. Когда предположение о редком заболевании не может быть признано справедливым, отношение шансов может переоценивать относительный риск.
Если в контрольной группе известна величина абсолютного риска, переход от одной величины к другой осуществляется через выражение:
где:
В медицинской литературе отношение шансов часто путают с величиной относительного риска. Для аудитории нестатистиков, концепция отношения шансов трудна для понимания, поэтому производит более впечатляющий эффект на читателя. Тем не менее, большинство авторов считают, что относительный риск легко доступен для понимания. В одном из исследований сказано, что члены национального фонда борьбы с заболеванием в 3,5 раза чаще всех остальных знали об общих принципах лечения данного заболевания, но отношение шансов было 24 и в статье это было представлено как то, что члены данной организации «более чем в 20 раз чаще знают о лечении». Исследование статей в двух журналах показало что в 26 % статей отношение шансов интерпретировалось как отношение рисков.
Это может свидетельствовать о том, что авторы, не имеющие представления о сути данной величины, предпочитают её как наиболее выразительную для своей публикации. Но её использование в некоторых случаях может вводить в заблуждение. Ранее было сказано, что отношение шансов должно описывать когда нет возможности оценить отношение рисков непосредственно.
Ещё одна уникальная особенность отношения шансов — свойство непосредственной математической обратимости, например, в зависимости от постановки задачи: изучить свободу от некоторого заболевания или изучить наличие этого заболевания, ОШ для свободы от заболевания есть величина обратная (или 1/ОШ) к ОШ для наличия заболевания. Это свойство «инвариантности отношения шансов», которым не обладает величина относительного риска. Рассмотрим его на примере:
предположим, в клиническом исследовании получен риск случая 4/100 в группе, принимавшей препарат и 2/100 в группе плацебо, то есть получены ОР = 2 и ОШ = 2,04166 для случая при сравнении групп препарат-плацебо. С другой стороны, если обратить анализ и исследовать риск неслучая, тогда в группе, принимавшей препарат, риск неслучая будет 94/100, а в группе плацебо 98/100, то есть ОР = 0,9796 для неслучая при сравнении групп препарат-плацебо, но ОШ = 0,48979. Как можно увидеть, ОР = 0,9796 не является величиной обратной к ОР = 2. Напротив, ОШ = 0,48979, на самом деле, является величиной обратной к ОШ = 2,04166.
Это и есть свойство «инвариантности отношения шансов», из-за которого ОР для свободы от события не совпадает для ОР для риска события, тогда как ОШ обладает этим свойством симметрии при анализе свободы или риска. Опасность для клинической интерпретации ОШ возникает, когда вероятность случая высока, при этом преувеличиваются имеющиеся различия, если предположение о редком заболевании не выполняется. С другой стороны, когда заболевание действительно является редким, использование ОР для описания свободы (например, ОР = 0,9796 из примера выше) может скрыть клинический эффект удвоения риска для события при приеме препарата или при экспонировании.
Выборочное отношение шансов n 11 n 00 / n 10 n 01 легко рассчитывается, и для умеренных и больших выборок дает хорошую оценку генерального отношения шансов. Когда одна или несколько ячеек в таблице сопряженности содержит маленькое значение, отношение шансов может стать смещенным и приобрести большую дисперсию . Было предложено несколько альтернативных оценок отношения шансов, обладающих в таких условиях лучшими свойствами. Одна из альтернатив — это оценка условного максимального правдоподобия, которая опирается на суммы строк и столбцов при определении функции правдоподобия, подлежащей максимизации (так же, как это делается при выполнении точного теста Фишера ). Альтернатива — это .
Следующие четыре таблицы сопряженности содержат совместные абсолютные частоты, а также соответствующие выборочные отношения шансов ( OR ) и логарифмы выборочных отношений шансов ( LOR ):
OR = 1, LOR = 0 | OR = 1, LOR = 0 | OR = 4, LOR = 1.39 | OR = 0.25, LOR = −1.39 | |||||
---|---|---|---|---|---|---|---|---|
Y = 1 | Y = 0 | Y = 1 | Y = 0 | Y = 1 | Y = 0 | Y = 1 | Y = 0 | |
X = 1 | 10 | 10 | 100 | 100 | 20 | 10 | 10 | 20 |
X = 0 | 5 | 5 | 50 | 50 | 10 | 20 | 20 | 10 |
Следующие таблицы содержат генеральные совместные вероятности, а также соответствующие генеральные отношения шансов ( OR ) и логарифмы генеральных отношений шансов ( LOR ):
OR = 1, LOR = 0 | OR = 1, LOR = 0 | OR = 16, LOR = 2.77 | OR = 0.67, LOR = −0.41 | |||||
---|---|---|---|---|---|---|---|---|
Y = 1 | Y = 0 | Y = 1 | Y = 0 | Y = 1 | Y = 0 | Y = 1 | Y = 0 | |
X = 1 | 0.2 | 0.2 | 0.4 | 0.4 | 0.4 | 0.1 | 0.1 | 0.3 |
X = 0 | 0.3 | 0.3 | 0.1 | 0.1 | 0.1 | 0.4 | 0.2 | 0.4 |
Пример 1: уменьшение риска | Пример 2: увеличение риска | |||||
---|---|---|---|---|---|---|
Экспериментальная группа (E) | Контрольная группа (C) | Итог | (E) | (C) | Итог | |
Случаев (E) | EE = 15 | CE = 100 | 115 | EE = 75 | CE = 100 | 175 |
Неслучаев (N) | EN = 135 | CN = 150 | 285 | EN = 75 | CN = 150 | 225 |
Всего (S) | ES = EE + EN = 150 | CS = CE + CN = 250 | 400 | ES = 150 | CS = 250 | 400 |
Частота случаев (ER) | = EE / ES = 0,1 или 10% | = CE / CS = 0,4 или 40% | EER = 0,5 (50%) | CER = 0,4 (40%) |
Формула | Показатель | Сокр. | Пример 1 | Пример 2 |
---|---|---|---|---|
EER − CER | < 0: уменьшение абсолютного риска | ARR | (−)0,3 или (−)30% | N/A |
> 0: увеличение абсолютного риска | ARI | N/A | 0,1 или 10% | |
(EER − CER) / CER | < 0: уменьшение относительного риска | RRR | (−)0,75 или (−)75% | N/A |
> 0: увеличение относительного риска | RRI | N/A | 0,25 или 25% | |
1 / (EER − CER) | < 0: необходимое число для лечения | NNT | (−)3,33 | N/A |
> 0: необходимое число для фактора риска | NNH | N/A | 10 | |
EER / CER | Относительный риск | RR | 0,25 | 1,25 |
(EE / EN) / (CE / CN) | Отношение шансов | OR | 0,167 | 1,5 |
EER − CER | AR | (−)0,30 или (−)30% | 0,1 или 10% | |
(RR − 1) / RR | Относительный атрибутивный риск | ARP | N/A | 20% |
1 − RR (или 1 − OR) | PF | 0,75 или 75% | N/A |