Interested Article - Коэффициент детерминации

Оценочная функция Тейла – Сена множества точек выборки (чёрная линия) по сравнению с неробастным методом наименьших квадратов для того же множества (синяя линия). Зелёная пунктирная линия представляет данные, по которым были сгенерированы выборки.

Коэффициент детерминации ( R 2 {\displaystyle R^{2}} R-квадрат ) — это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными. Более точно — это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели, или условной по факторам дисперсии зависимой переменной) в дисперсии зависимой переменной. Его рассматривают как универсальную меру зависимости одной случайной величины от множества других. В частном случае линейной зависимости R 2 {\displaystyle R^{2}} является квадратом так называемого множественного коэффициента корреляции между зависимой переменной и объясняющими переменными. В частности, для модели парной линейной регрессии коэффициент детерминации равен квадрату обычного коэффициента корреляции между y и x .

Определение и формула

Истинный коэффициент детерминации модели зависимости случайной величины y от факторов x определяется следующим образом:

R 2 = 1 D [ y | x ] D [ y ] = 1 σ 2 σ y 2 , {\displaystyle R^{2}=1-{\frac {D[y|x]}{D[y]}}=1-{\frac {\sigma ^{2}}{\sigma _{y}^{2}}},}

где D [ y ] = σ y 2 {\displaystyle D[y]=\sigma _{y}^{2}} — дисперсия случайной величины y , а D [ y | x ] = σ 2 {\displaystyle D[y|x]=\sigma ^{2}} условная (по факторам x) дисперсия зависимой переменной (дисперсия ошибки модели).

В данном определении используются истинные параметры, характеризующие распределение случайных величин . Если использовать выборочную оценку значений соответствующих дисперсий , то получим формулу для выборочного коэффициента детерминации (который обычно и подразумевается под коэффициентом детерминации):

R 2 = 1 σ ^ 2 σ ^ y 2 = 1 S S r e s / n S S t o t / n = 1 S S r e s S S t o t , {\displaystyle R^{2}=1-{\frac {{\hat {\sigma }}^{2}}{{\hat {\sigma }}_{y}^{2}}}=1-{\frac {SS_{res}/n}{SS_{tot}/n}}=1-{\frac {SS_{res}}{SS_{tot}}},}

где S S r e s = i = 1 n e i 2 = i = 1 n ( y i y ^ i ) 2 {\displaystyle SS_{res}=\sum _{i=1}^{n}e_{i}^{2}=\sum _{i=1}^{n}(y_{i}-{\hat {y}}_{i})^{2}} — сумма квадратов остатков регрессии, y i , y ^ i {\displaystyle y_{i},{\hat {y}}_{i}} — фактические и расчётные значения объясняемой переменной.

S S t o t = i = 1 n ( y i y ¯ ) 2 = n σ ^ y 2 {\displaystyle SS_{tot}=\sum _{i=1}^{n}(y_{i}-{\overline {y}})^{2}=n{\hat {\sigma }}_{y}^{2}} — общая сумма квадратов.

y ¯ = 1 n i = 1 n y i {\displaystyle {\bar {y}}={\frac {1}{n}}\sum _{i=1}^{n}y_{i}}

В случае линейной регрессии с константой S S t o t = S S r e g + S S r e s {\displaystyle SS_{tot}=SS_{reg}+SS_{res}} , где S S r e g = i = 1 n ( y ^ i y ¯ ) 2 {\displaystyle SS_{reg}=\sum _{i=1}^{n}({\hat {y}}_{i}-{\overline {y}})^{2}} — объяснённая сумма квадратов, поэтому получаем более простое определение в этом случае — коэффициент детерминации — это доля объяснённой суммы квадратов в общей :

R 2 = S S r e g S S t o t {\displaystyle R^{2}={\frac {SS_{reg}}{SS_{tot}}}}

Необходимо подчеркнуть, что эта формула справедлива только для модели с константой, в общем случае необходимо использовать предыдущую формулу [ источник не указан 584 дня ] .

Интерпретация

  1. Коэффициент детерминации для модели с константой принимает значения от 0 до 1. Чем ближе значение коэффициента к 1, тем сильнее зависимость. При оценке регрессионных моделей это интерпретируется как соответствие модели данным. Для приемлемых моделей предполагается, что коэффициент детерминации должен быть хотя бы не меньше 50 % (в этом случае коэффициент множественной корреляции превышает по модулю 70 %). Модели с коэффициентом детерминации выше 80 % можно признать достаточно хорошими (коэффициент корреляции превышает 90 %). Значение коэффициента детерминации 1 означает функциональную зависимость между переменными.
  2. При отсутствии статистической связи между объясняемой переменной и факторами, статистика n R 2 {\displaystyle nR^{2}} для линейной регрессии имеет асимптотическое распределение χ 2 ( k 1 ) {\displaystyle \chi ^{2}(k-1)} , где k 1 {\displaystyle k-1} — количество факторов модели (см. тест множителей Лагранжа ). В случае линейной регрессии с нормально распределёнными случайными ошибками статистика F = R 2 / ( k 1 ) ( 1 R 2 ) / ( n k ) {\displaystyle F={\frac {R^{2}/(k-1)}{(1-R^{2})/(n-k)}}} имеет точное (для выборок любого объёма) распределение Фишера F ( k 1 , n k ) {\displaystyle F(k-1,n-k)} (см. F-тест ). Информация о распределении этих величин позволяет проверить статистическую значимость регрессионной модели исходя из значения коэффициента детерминации. Фактически в этих тестах проверяется гипотеза о равенстве истинного коэффициента детерминации нулю.
  3. Коэффициент детерминации не может быть отрицательным, данный вывод исходит из свойств коэффициента детерминации. Однако скорректированный коэффициент детерминации вполне может принимать отрицательные значения.

Недостаток R 2 и альтернативные показатели

Основная проблема применения (выборочного) R 2 {\displaystyle R^{2}} заключается в том, что его значение увеличивается ( не уменьшается) от добавления в модель новых переменных, даже если эти переменные никакого отношения к объясняемой переменной не имеют. Поэтому сравнение моделей с разным количеством факторов с помощью коэффициента детерминации, вообще говоря, некорректно. Для этих целей можно использовать альтернативные показатели.

Скорректированный (adjusted) R 2

Для того, чтобы была возможность сравнивать модели с разным числом факторов так, чтобы число регрессоров (факторов) не влияло на статистику R 2 {\displaystyle R^{2}} обычно используется скорректированный коэффициент детерминации , в котором используются несмещённые оценки дисперсий:

R ¯ 2 = R a d j 2 = 1 s 2 s y 2 = 1 S S r e s / ( n k ) S S t o t / ( n 1 ) = 1 ( 1 R 2 ) ( n 1 ) ( n k ) R 2 {\displaystyle {\bar {R}}^{2}=R_{adj}^{2}=1-{\frac {s^{2}}{s_{y}^{2}}}=1-{\frac {SS_{res}/(n-k)}{SS_{tot}/(n-1)}}=1-(1-R^{2}){(n-1) \over (n-k)}\leqslant R^{2}}

который даёт штраф за дополнительно включённые факторы, где n — количество наблюдений, а k — количество параметров.

Данный показатель всегда меньше единицы, но теоретически может быть и меньше нуля (только при очень маленьком значении обычного коэффициента детерминации и большом количестве факторов). Поэтому теряется интерпретация показателя как «доли». Тем не менее, применение показателя в сравнении вполне обоснованно.

Для моделей с одинаковой зависимой переменной и одинаковым объёмом выборки сравнение моделей с помощью скорректированного коэффициента детерминации эквивалентно их сравнению с помощью остаточной дисперсии s 2 = S S r e s / ( n k ) {\displaystyle s^{2}=SS_{res}/(n-k)} или стандартной ошибки модели s {\displaystyle s} . Разница только в том, что последние критерии чем меньше, тем лучше.

Информационные критерии

AIC информационный критерий Акаике — применяется исключительно для сравнения моделей. Чем меньше значение, тем лучше. Часто используется для сравнения моделей временных рядов с разным количеством лагов.
A I C = 2 k n + ln S S r e s n {\displaystyle AIC={2k \over n}+\ln {SS_{res} \over n}} , где k — количество параметров модели.
BIC или SC — байесовский информационный критерий Шварца — используется и интерпретируется аналогично AIC.
B I C = k ln n n + ln S S r e s n {\displaystyle BIC={k\ln {n} \over n}+\ln {SS_{res} \over n}} . Даёт больший штраф за включение лишних лагов в модель, чем AIC.

R 2 -обобщённый (extended)

В случае отсутствия в линейной множественной МНК регрессии константы свойства коэффициента детерминации могут нарушаться для конкретной реализации . Поэтому модели регрессии со свободным членом и без него нельзя сравнивать по критерию R 2 {\displaystyle R^{2}} . Эта проблема решается с помощью построения обобщённого коэффициента детерминации R e x t e n d e d 2 {\displaystyle R_{extended}^{2}} , который совпадает с исходным для случая МНК регрессии со свободным членом, и для которого выполняются четыре свойства, перечисленные выше. Суть этого метода заключается в рассмотрении проекции единичного вектора на плоскость объясняющих переменных.

Для случая регрессии без свободного члена:
R e x t e n d e d 2 = 1 Y ( I P ( X ) ) Y Y ( I π ( X ) ) Y {\displaystyle R_{extended}^{2}=1-{Y'*(I-P(X))*Y \over Y'*(I-\pi (X))*Y}} ,
где X — матрица nxk значений факторов, P ( X ) = X ( X X ) 1 X {\displaystyle P(X)=X*(X'*X)^{-1}*X'} — проектор на плоскость X, π ( X ) = P ( X ) i n i n P ( X ) i n P ( X ) i n {\displaystyle \pi (X)={P(X)*i_{n}*i_{n}'*P(X) \over i_{n}'*P(X)*i_{n}}} , где i n {\displaystyle i_{n}} — единичный вектор nx1.

R e x t e n d e d 2 {\displaystyle R_{extended}^{2}} с условием небольшой модификации , также подходит для сравнения между собой регрессий, построенных с помощью: МНК, обобщённого метода наименьших квадратов (ОМНК), условного метода наименьших квадратов (УМНК), обобщённо-условного метода наименьших квадратов (ОУМНК).

История

Основой коэффициента детерминации является регрессионный анализ и коэффициент корреляции . Британский натуралист сэр Фрэнсис Гальтон (1822—1911) основал регрессионный анализ в 1870-х годах. Он, как и его двоюродный брат Чарльз Дарвин , был внуком Эразма Дарвина . Гальтон был известен своей сильной страстью к сбору данных любого рода. Например, он собрал данные о семенах сладкого горошка чина . Сравнивая диаметры семян, он построил то, что сегодня широко известно как корреляционная диаграмма. Связь, обнаруженную им в этой деятельности, он сначала окрестил «реверсией» (разворотом); однако позже он выбрал название «регрессия». Анализируя семена, он обнаружил явление регрессии к центру, согласно которому — после крайне неудачного изменения, последующее изменение снова приближается к среднему: средний диаметр потомства более крупных семян был меньше среднего диаметра семян родителей (изменения разворачиваются). В своих корреляционных диаграммах он нарисовал линию тренда, для которой он использовал коэффициент корреляции в качестве наклона.

Термин « дисперсия » был введен статистиком Рональдом Фишером (1890—1962) в его статье 1918 года под названием «Корреляция между родственниками на основе предположения о менделевском наследовании» ( The Correlation between Relatives on the Supposition of Mendelian Inheritance ) . Фишер был одним из самых выдающихся статистиков 20-го века и известен своим вкладом в эволюционную теорию. F-критерий , тесно связанный с коэффициентом детерминации, также назван в его честь. Карл Пирсон (1857—1936), основатель биометрики , предоставил формально-математическое обоснование коэффициента корреляции, квадратом которого является коэффициент детерминации.

Коэффициент детерминации подвергся резкой критике в последующие годы. Это произошло потому, что у него есть свойство, что чем больше количество независимых переменных , тем большим он становится. И это не зависит от того, вносят ли дополнительные «объясняющие переменные» вклад в «объяснительную силу». Чтобы учесть это обстоятельство, эконометрик Анри Тейл (1924—2000) в 1961 году предложил скорректированный коэффициент детерминации (Adjusted coefficient of determination (англ.) ), который учитывает потерю степени свободы , связанную с ростом количества объясняющих переменных. Скорректированный коэффициент детерминации изменяется за счет штрафа, который накладывается на модель при увеличении числа переменных. Однако немецкий учёный Хорст Ринне подверг критике данный подход за недостаточное штрафование за потерю степени свободы по мере увеличения числа объясняющих переменных.

Замечание

Высокие значения коэффициента детерминации, вообще говоря, не свидетельствуют о наличии причинно-следственной зависимости между переменными (так же как и в случае обычного коэффициента корреляции). Например, если объясняемая переменная и факторы, на самом деле не связанные с объясняемой переменой, имеют возрастающую динамику, то коэффициент детерминации будет достаточно высок. Поэтому логическая и смысловая адекватность модели имеют первостепенную важность. Кроме того, необходимо использовать критерии для всестороннего анализа качества модели.

См. также

Примечания

  1. Franka Miriam Brückler: Geschichte der Mathematik kompakt: Das Wichtigste aus Analysis, Wahrscheinlichkeitstheorie, angewandter Mathematik, Topologie und Mengenlehre. Springer-Verlag, 2017, ISBN 978-3-662-55573-6 , S. 116. (нем.)
  2. Ronald Aylmer Fisher: The correlation between relatives on the supposition of Mendelian inheritance. In: Trans. Roy. Soc. Edinb. 52, 1918, S. 399—433. (англ.)
  3. Franka Miriam Brückler: Geschichte der Mathematik kompakt: Das Wichtigste aus Analysis, Wahrscheinlichkeitstheorie, angewandter Mathematik, Topologie und Mengenlehre. Springer-Verlag, 2017, ISBN 978-3-662-55573-6 , S. 117. (нем.)
  4. Henri Theil: Economic Forecasts and Policy. Amsterdam 1961, S. 213. (англ.)
  5. Horst Rinne: Ökonometrie: Grundlagen der Makroökonometrie. Vahlen, 2004. (нем.)

Литература

  • Бахрушин В. Е. Методы оценивания характеристик нелинейных статистических связей // Системные технологии. — 2011. — № 2(73). — С. 9—14.
  • Магнус Я.Р., Катышев П.К., Пересецкий А.А. . — 6,7,8-е изд., доп. и перераб.. — Москва: Дело. — Т. "". — 576 с. — ISBN 5-7749-0055-X .
  • Ершов Э.Б. (рус., англ.) // ЦЭМИ РАН Экономика и математические методы. — Москва: ЦЭМИ РАН, 2002. — Т. 38 , вып. 3 . — С. 107—120 .
  • Айвазян С.А., Мхитарян В.С. Прикладная статистика. Основы эконометрики (в 2-х т.). — ??. — Москва: Юнити-Дана (проект TASIS), 2001. — Т. "1,2". — 1088 с. — ISBN 5-238-00304-8 .
  • Ершов Э.Б. Выбор регрессии максимизирующий несмещённую оценку коэффициента детерминации (рус., англ.) // Айвазян С.А. Прикладная эконометрика. — Москва: Маркет ДС, 2008. — Т. 12 , вып. 4 . — С. 71—83 .

Ссылки

  • (недоступная ссылка с 13-05-2013 [3850 дней] —)

Same as Коэффициент детерминации