Информационный поиск
- 1 year ago
- 0
- 0
Информационный критерий Акаике (AIC) — критерий, применяющийся исключительно для выбора из нескольких статистических моделей. Разработан в 1971 как «an information criterion» («(некий) информационный критерий») Хироцугу Акаике и предложен им в статье 1974 года .
Предпосылкой к созданию критерия послужила задача оценки качества предсказаний модели на тестовой выборке при известном качестве на обучающей выборке при условии, что модель мы настраивали по методу максимального правдоподобия . То есть стояла задача оценки переобучения модели . Акаике, используя теорию информации (в том числе расстояние Кульбака — Лейблера ), смог для ряда частных случаев получить искомую оценку.
В общем случае AIC:
где — число параметров в статистической модели , — максимизированное значение функции правдоподобия модели .
Далее будем полагать, что ошибки модели нормально и независимо распределены. Пусть — число наблюдений, а
Далее мы предполагаем, что дисперсия ошибок модели неизвестна, но одинакова для всех них. Следовательно:
В случае сравнения моделей на выборках одинаковой длины, выражение можно упростить, выкидывая члены зависящие только от :
Таким образом, критерий не только вознаграждает за качество приближения, но и штрафует за использование излишнего количества параметров модели. Считается, что наилучшей будет модель с наименьшим значением критерия AIC. Критерий Шварца (SIC) штрафует свободные параметры в большей мере.
Стоит отметить, что абсолютное значение AIC не имеет смысла — он указывает только на относительный порядок сравниваемых моделей.
Часто необходимо выбирать между моделями, для которых считается, что их ошибки нормально распределены. Это приводит к критерию .
Для таких случаев можно приспособить AIC. В рамках статьи назовем его . От непосредственно AIC он будет отличаться на аддитивную константу (функцию лишь данных, но не модели), которой можно пренебречь ввиду относительного характера критерия.
Для приближения функция правдоподобия определяется следующим образом:
где — независимая от модели константа, которую можно исключить в случае сравнения моделей на одних и тех же данных.
Таким образом: . Исключая константу:
Эта форма критерия часто удобна, если мы уже вычислили как статистику качества приближения. В случае обучения моделей на данных с одинаковым количеством точек, нужно брать модель с наименьшим значением .
Аналогично, если имеется вычисленная статистика («Объясненная дисперсия»), можно записать: