Interested Article - F-тест

F-тест или критерий Фишера (F-критерий, φ*-критерий) — статистический критерий , тестовая статистика которого при выполнении нулевой гипотезы имеет распределение Фишера (F-распределение).

Статистика теста так или иначе сводится к отношению выборочных дисперсий (сумм квадратов, деленных на «степени свободы»). Чтобы статистика имела распределение Фишера, необходимо, чтобы числитель и знаменатель были независимыми случайными величинами и соответствующие суммы квадратов имели распределение Хи-квадрат . Для этого требуется, чтобы данные имели нормальное распределение. Кроме того, предполагается, что дисперсия случайных величин, квадраты которых суммируются, одинакова.

Тест проводится путём сравнения значения статистики с критическим значением соответствующего распределения Фишера при заданном уровне значимости. Известно, что если $F\sim F(m,n)$ , то $1/F\sim F(n,m)$ . Кроме того, квантили распределения Фишера обладают свойством $F_{1-\alpha }=1/F_{\alpha }$ . Поэтому обычно на практике в числителе участвует потенциально большая величина, в знаменателе — меньшая и сравнение осуществляется с «правой» квантилью распределения. Тем не менее тест может быть и двусторонним, и односторонним. В первом случае при уровне значимости $\alpha$ используется квантиль $F_{\alpha /2}$ , а при одностороннем тесте — $F_{\alpha }$ .

Более удобный способ проверки гипотез — с помощью p-значения $p(F)$ — вероятностью того, что случайная величина с данным распределением Фишера превысит данное значение статистики. Если $p(F)$ (для двустороннего теста — $2p(F$ )) меньше уровня значимости $\alpha$ , то нулевая гипотеза отвергается, в противном случае принимается.

Примеры F-тестов

F-тест на равенство дисперсий

Две выборки

Пусть имеются две выборки объёмом m и n соответственно случайных величин X и Y, имеющих нормальное распределение. Необходимо проверить равенство их дисперсий. Статистика теста

$F={\frac {{\hat {\sigma }}_{X}^{2}}{{\hat {\sigma }}_{Y}^{2}}}~\sim ~F(m-1,n-1)$

где ${{\hat {\sigma }}^{2}}$ — выборочная дисперсия .

Если статистика больше критического значения, соответствующего выбранному уровню значимости , то дисперсии случайных величин признаются не одинаковыми.

Несколько выборок

Пусть выборка объёмом N случайной величины X разделена на k групп с количеством наблюдений $n_{i}$ в i -ой группе.

Межгрупповая («объяснённая») дисперсия: ${\hat {\sigma }}_{BG}^{2}=\sum _{i=1}^{k}n_{i}({\overline {x_{i}}}-{\overline {x}})^{2}/(k-1)$

Внутригрупповая («необъяснённая») дисперсия: ${\hat {\sigma }}_{WG}^{2}=\sum _{i=1}^{k}\sum _{j=1}^{n_{i}}(x_{ij}-{\overline {x}}_{i})^{2}/(N-k)$

$F={\frac {{\hat {\sigma }}_{BG}^{2}}{{\hat {\sigma }}_{WG}^{2}}}~\sim ~F(k-1,N-k)$

Данный тест можно свести к тестированию значимости регрессии переменной X на фиктивные переменные -индикаторы групп. Если статистика превышает критическое значение, то гипотеза о равенстве средних в выборках отвергается, в противном случае средние можно считать одинаковыми.

Проверка ограничений на параметры регрессии

Статистика теста для проверки линейных ограничений на параметры классической нормальной линейной регрессии определяется по формуле:

$F={\frac {(RSS_{S}-RSS_{L})/q}{RSS_{L}/(n-k_{L})}}={\frac {(R_{L}^{2}-R_{S}^{2})/q}{(1-R_{L}^{2})/(n-k_{L})}}~\sim ~F(q,n-k_{L})$

где $q=k_{L}-k_{S}$ -количество ограничений, n-объём выборки, k-количество параметров модели, RSS-сумма квадратов остатков модели, $R^{2}$ -коэффициент детерминации, индексы S и L относятся соответственно к короткой и длинной модели (модели с ограничениями и модели без ограничений).

Замечание

Описанный выше F-тест является точным в случае нормального распределения случайных ошибок модели. Однако F-тест можно применить и в более общем случае. В этом случае он является асимптотическим. Соответствующую F-статистику можно рассчитать на основе статистик других асимптотических тестов — теста Вальда (W), теста множителей Лагранжа (LM) и теста отношения правдоподобия (LR) — следующим образом:

$F={\frac {n-k}{q}}W/n~,~F={\frac {n-k}{q}}{\frac {LM}{n-LM}}~,~F={\frac {n-k}{q}}(e^{LR/n}-1)$ Все эти статистики асимптотически имеют распределение F(q, n-k), несмотря на то, что их значения на малых выборках могут различаться.

Проверка значимости линейной регрессии

Данный тест очень важен в регрессионном анализе и по существу является частным случаем проверки ограничений. В данном случае нулевая гипотеза — об одновременном равенстве нулю всех коэффициентов при факторах регрессионной модели (то есть всего ограничений k-1). В данном случае короткая модель — это просто константа в качестве фактора, то есть коэффициент детерминации короткой модели равен нулю. Статистика теста равна:

$F={\frac {R^{2}/(k-1)}{(1-R^{2})/(n-k)}}~\sim ~F(k-1,n-k)$

Соответственно, если значение этой статистики больше критического значения при данном уровне значимости, то нулевая гипотеза отвергается, что означает статистическую значимость регрессии. В противном случае модель признается незначимой.

Пример

Пусть оценивается линейная регрессия доли расходов на питание в общей сумме расходов на константу, логарифм совокупных расходов, количество взрослых членов семьи и количество детей до 11 лет. То есть всего в модели 4 оцениваемых параметра (k=4). Пусть по результатам оценки регрессии получен коэффициент детерминации $R^{2}=41.2366\%$ . По вышеприведенной формуле рассчитаем значение F-статистики в случае, если регрессия оценена по данным 34 наблюдений и по данным 64 наблюдений: $F_{1}={\frac {0.412366/(4-1)}{(1-0.412366)/(34-4)}}=0,70174*10=7,02$

$F_{2}={\frac {0.412366/(4-1)}{(1-0.412366)/(64-4)}}=0,70174*20=14.04$

Критическое значение статистики при 1 % уровне значимости (в Excel функция FРАСПОБР) в первом случае равно $F_{1\%}(3,30)=4,51$ , а во втором случае $F_{1\%}(3,60)=4,13$ . В обоих случаях регрессия признается значимой при заданном уровне значимости. В первом случае P-значение равно 0,1 %, а во втором — 0,00005 %. Таким образом, во втором случае уверенность в значимости регрессии существенно выше (существенно меньше вероятность ошибки в случае признания модели значимой).