Interested Article - Дисперсионный анализ

Дисперсионный анализ — метод в математической статистике , направленный на поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях . В отличие от t-критерия , позволяет сравнивать средние значения трёх и более групп. Разработан Р. Фишером для анализа результатов экспериментальных исследований. В литературе также встречается обозначение ANOVA (от англ. ANalysis Of VAriance ) .

Типы дисперсионного анализа

Суть дисперсионного анализа сводится к изучению влияния одной или нескольких независимых переменных , обычно именуемых факторами, на зависимую переменную . Зависимые переменные представлены значениями абсолютных шкал (шкала отношений). Независимые переменные являются номинативными (шкала наименований), то есть отражают групповую принадлежность, и могут иметь два или более значения (типа, градации или уровня). Примерами независимой переменной с двумя значениями могут служить пол (женский: , мужской: ) или тип экспериментальной группы (контрольная: , экспериментальная: ). Градации, соответствующие независимым выборкам объектов, называются межгрупповыми, а градации, соответствующие зависимым выборкам, — внутригрупповыми.

В зависимости от типа и количества переменных различают:

  • однофакторный и многофакторный дисперсионный анализ (одна или несколько независимых переменных);
  • одномерный и многомерный дисперсионный анализ (одна или несколько зависимых переменных);
  • дисперсионный анализ с повторными измерениями (для зависимых выборок);
  • дисперсионный анализ с постоянными факторами, случайными факторами, и смешанные модели с факторами обоих типов;

Математическая модель дисперсионного анализа

Математическая модель дисперсионного анализа представляет собой частный случай основной линейной модели . Пусть с помощью методов производится измерение нескольких параметров , чьи точные значения — . В таком случае результаты измерений различных величин различными методами можно представить как:

,

где:

  • — результат измерения -го параметра по методу ;
  • — точное значение -го параметра;
  • — систематическая ошибка измерения -го параметра в группе по методу ;
  • — случайная ошибка измерения -го параметра по методу .

Тогда дисперсии следующих случайных величин:




(где:

)

выражаются как:

и удовлетворяют тождеству:

Процедура дисперсионного анализа состоит в определении соотношения систематической (межгрупповой) дисперсии к случайной (внутригрупповой) дисперсии в измеряемых данных. В качестве показателя изменчивости используется сумма квадратов отклонения значений параметра от среднего: (от англ. Sum of Squares ). Можно показать, что общая сумма квадратов раскладывается на межгрупповую сумму квадратов и внутригрупповую сумму квадратов :

Пусть точное значение каждого параметра есть его математическое ожидание, равное среднему генеральной совокупности . При отсутствии систематических ошибок групповое среднее и среднее генеральной совокупности тождественны: . Тогда случайная ошибка измерения есть разница между результатом измерения и средним группы: . Если же метод оказывает систематическое воздействие, то систематическая ошибка при воздействии этого фактора есть разница между средним группы и средним генеральной совокупности: .

Тогда уравнение может быть представлено в следующем виде:

, или

.

Тогда

где

Следовательно

Аналогичным образом раскладываются степени свободы:

где

и есть объём полной выборки, а — количество групп.

Тогда дисперсия каждой части, именуемая в модели дисперсионного анализа как «средний квадрат», или (от англ. Mean Square ), есть отношение суммы квадратов к числу их степеней свободы:

Соотношение межгрупповой и внутригрупповой дисперсий имеет F -распределение ( распределение Фишера ) и определяется при помощи ( F -критерия Фишера ):

Принципы и применение

Исходными положениями дисперсионного анализа являются

  • нормальное распределение значений изучаемого признака в генеральной совокупности;
  • равенство дисперсий в сравниваемых генеральных совокупностях;
  • случайный и независимый характер выборки.

Нулевой гипотезой в дисперсионном анализе является утверждение о равенстве средних значений:

При отклонении нулевой гипотезы принимается альтернативная гипотеза о том, что не все средние равны, то есть имеются, по крайней мере, две группы, отличающиеся средними значениями:

При наличии трёх и более групп для определения различий между средними применяются post-hoc t -тесты или метод контрастов.

Однофакторный дисперсионный анализ

Простейшим случаем дисперсионного анализа является одномерный однофакторный анализ для двух или нескольких независимых групп, когда все группы объединены по одному признаку. В ходе анализа проверяется нулевая гипотеза о равенстве средних. При анализе двух групп дисперсионный анализ тождественен двухвыборочному t -критерию Стьюдента для независимых выборок, и величина F -статистики равна квадрату соответствующей t -статистики .

Для подтверждения положения о равенстве дисперсий обычно применяется критерий Ливена ( Levene’s test ). В случае отвержения гипотезы о равенстве дисперсий основной анализ неприменим. Если дисперсии равны, то для оценки соотношения межгрупповой и внутригрупповой изменчивости применяется F -критерий Фишера :

Если F -статистика превышает критическое значение, то нулевая гипотеза не может быть принята (отвергается) и делается вывод о неравенстве средних. При анализе средних двух групп результаты могут быть интерпретированы непосредственно после применения критерия Фишера .

При наличии трёх и более групп требуется попарное сравнение средних для выявления статистически значимых отличий между ними. Априорный анализ включает метод контрастов, при котором межгрупповая сумма квадратов дробится на суммы квадратов отдельных контрастов:

где есть контраст между средними двух групп, и затем при помощи критерия Фишера проверяется соотношение среднего квадрата для каждого контраста к внутригрупповому среднему квадрату:

Апостериорный анализ включает post-hoc t -критерии по методам Бонферрони или Шеффе, а также сравнение разностей средних по методу Тьюки. Особенностью post-hoc -тестов является использование внутригруппового среднего квадрата для оценки любых пар средних. Тесты по методам Бонферрони и Шеффе являются наиболее консервативными, так как они используют наименьшую критическую область при заданном уровне значимости .

Помимо оценки средних дисперсионный анализ включает определение коэффициента детерминации , показывающего, какую долю общей изменчивости объясняет данный фактор:

Многофакторный дисперсионный анализ

  • Многофакторный анализ позволяет проверить влияние нескольких факторов на зависимую переменную. Линейная модель многофакторной модели имеет вид:

, где:

    • — результат измерения -го параметра;
    • — среднее для -го параметра;
    • — систематическая ошибка измерения -го параметра в группе по методу ;
    • — систематическая ошибка измерения -го параметра в группе по методу ;
    • — систематическая ошибка измерения -го параметра в группе в силу комбинации методов и ;
    • — случайная ошибка измерения -го параметра.

В отличие от однофакторной модели, где имеется одна межгрупповая сумма квадратов, модель многофакторного анализа включает суммы квадратов для каждого фактора в отдельности и суммы квадратов всех взаимодействий между ними. Так, в двухфакторной модели межгрупповая сумма квадратов раскладывается на сумму квадратов фактора , сумму квадратов фактора и сумму квадратов взаимодействия факторов и :

Соответственно трёхфакторная модель включает сумму квадратов фактора , сумму квадратов фактора , сумму квадратов фактора и суммы квадратов взаимодействий факторов и , и , и , а также взаимодействия всех трёх факторов :

Степени свободы раскладываются аналогичным образом:

где

и есть объём полной выборки, — количество уровней (групп) фактора , а — количество уровней (групп) фактора .

В ходе анализа проверяются несколько нулевых гипотез :

  • гипотеза о равенстве средних под влиянием фактора : ;
  • гипотеза о равенстве средних под влиянием фактора : ;
  • гипотеза об отсутствии взаимодействия факторов и : для всех и

Каждая гипотеза проверяется с помощью критерия Фишера:

При отвержении нулевой гипотезы о влиянии отдельного фактора принимается утверждение, что присутствует главный эффект фактора ( и т. д.). При отвержении нулевой гипотезы о взаимодействии факторов принимается утверждение о том, что влияние фактора проявляется по-разному на разных уровнях фактора . Обычно в таком случае результаты общего анализа признаются не имеющими силы, и влияние фактора проверяется отдельно на каждом уровне фактора с помощью однофакторного дисперсионного анализа или t -критерия .

Примечания

  1. . Дата обращения: 15 марта 2011. 23 мая 2012 года.
  2. Дисперсионный анализ — статья из Большой советской энциклопедии . Большев, Л. Н..
  3. А. Д. Наследов. Математические методы психологического исследования. СПб, 2008. ISBN 5-9268-0275-X

Литература

  • Шеффе Г. Дисперсионный анализ, пер. с англ. — М., 1963.
  • Смирнов Н. В., Дунин-Барковский И. В. Курс теории вероятностей и математической статистики для технических приложений. — 2 изд.. — М. , 1965.
Источник —

Same as Дисперсионный анализ