Interested Article - Анализ полных наблюдений

Пример анализа полных наблюдений. В ходе построения регрессии на анализ полных наблюдений будет заключаться в удалении наблюдений у которых есть пропущенные значения (NA)

Анализ полных наблюдений ( англ. listwise/casewise deletion , реже англ. complete-case analysis ) — статистический метод обработки , основанный на удалении всех наблюдений с неполными признаковыми описаниями . Считается самым простым способом разрешения проблемы пропущенных данных .

Оценка регрессий при анализе полных наблюдений

Представим линейную регрессионную модель вида , где — вектор целевых значений, — матрица значений независимых переменных, — вектор регрессионных коэффициентов, — вектор регрессионных остатков.

Пусть , если i -е наблюдение имеет полное признаковое описание и в противном случае — то есть . Тогда модель с использованием исключительно полных наблюдений будет формулироваться следующим образом: , где и — векторы новых регрессионных коэффициентов и остатков соответственно.

МНК -оценка вектора в таком случае выглядит следующим образом : .

Ограничения метода

Анализ полных наблюдений позволяет получать несмещённые оценки при регрессионном анализе (с использованием МНК) при условии, что вероятность пропуска значения ( ) зависит от независимых переменных ( ), а не регрессионных остатков ( ) . Действительно, смещённость оценок может быть связана с тем, что пропуск данных не случаен (MNAR, англ. Missing not at random ). Например, респонденты отказываются отвечать на какой-то сензитивный вопрос — в таком случае в выборке останутся только те респонденты, которые (по каким-то причинам) склонны отвечать на вопросы определённого типа . Данное условие может не выполняться в двух случаях:

  • Невключение какой-то значимой переменной (omitted variable).
  • Неверная спецификация одной из независимых переменных (то есть включённая переменная некорректно отражает другую, «истинную») .

Кроме того, вероятность пропуска может быть связана и с откликом ( ) . Помимо этого условия несмещённости, определённого для «истинной» линейной регрессионной модели, большую роль играет корректность выбора функциональной формы зависимости между независимой и зависимой переменными. Эти допущения зачастую не работают в социальных науках : верная спецификация моделей и точная функциональная форма редко бывают доподлинно известны .

Использование методики анализа полных наблюдений приводит к уменьшению размера исследуемой выборки, что также создаёт проблемы. Это сокращает статистическую мощность критериев, которые могут применяться на данных . Кроме того, метод может привести к получению неэффективных оценок , если удаление наблюдений значительно сократит объясняемую дисперсию .

Сравнение с другими методами

В случаях, когда изложенные недостатки и ограничения анализа полных наблюдений имеют место быть, рекомендуется прибегать к альтернативным, более сложным методам обработки пропущенных данных: ( англ. pairwise deletion ), введение дамми на пропуск, а также ( англ. multiple imputation ) . Литтл и Рубин отмечали, что анализ полных наблюдений приводит к потере неоправданного объёма дисперсии, если статистический метод подразумевает исследование одной переменной (например, нахождение ), ведь в таком случае из выборки будут исключены даже те наблюдения, у которых значения в этой переменной не пропущены, и рекомендовали для таких случаев простую замену — анализ доступных значений .

Тем не менее, в ряде случаев анализ полных наблюдений может обладать преимуществами по сравнению с более сложными альтернативами .

Анализ полных наблюдений широко используется в анализе « en », широко распространённом в экономике образования , где средний эффект от вмешательства на полных наблюдениях сравнивается с эффектом, рассчитанным с включением наблюдений с неполными признаковыми описаниями .

В статистических пакетах

  • В SPSS использование методики анализа полных наблюдений при корреляционном, регрессионном и других типах статистического анализа осуществляется посредством включения подкоманды /MISSING=LISTWISE в синтаксис применяемой функции .
  • В en при построении регрессий, корреляционных и ковариационных матриц по умолчанию удаляются наблюдения с пропущенными значениями .
  • В R есть несколько способов применения анализа полных наблюдений: стандартные функции na.omit() , complete.cases() и параметр na.rm = TRUE , «механически» удаляющие наблюдения с пропущенными значениями переменных , а также функция ld() для матричных объектов из пакета (библиотеки) ForImp .

Примечания

  1. , p. 518.
  2. , p. 223.
  3. .
  4. Тем не менее, показывается ( , p. 228), что для валидности метода достаточно независимости от переменных-регрессоров, а не полное соответствие допущению MСAR ( англ. Missing completely at random ).
  5. , pp. 518-519.
  6. .
  7. , pp. 43-44.
  8. , pp. 6-7.
  9. .
  10. (англ.) . IBM Support. Дата обращения: 24 августа 2017. 24 августа 2017 года.
  11. (англ.) . UCLA Institute for Digital Research and Education. Дата обращения: 24 августа 2017. 24 августа 2017 года.
  12. (англ.) . Quick-R. Дата обращения: 24 августа 2017. 27 августа 2017 года.
  13. (англ.) . R Documentation. Дата обращения: 24 августа 2017. Архивировано из 24 декабря 2014 года.

Литература

  • Allison P. D. Missing Data. — Thousand Oaks, CA: Sage, 2001. — (Sage University Papers Series on Quantitative Applications in the Social Sciences).
  • Jones M. P. // Journal of the American Statistical Association . — 1996. — Т. 91 , № 433 . — P. 222—230.
  • Little R.J.A., Rubin D.B. . — Wiley, 2002. — 408 p. — ISBN 978-0-471-18386-0 .
  • Olinsky A., Chen S., Harlow L. The comparative efficacy of imputations methods for missing data in structural equation modeling // European Journal of Operational Research. — 2003. — Т. 151 , № 1 . — P. 53–79. — doi : .
  • Peugh J. L., Enders C. K. Missing data in educational research: A review of reporting practices and suggestions for improvement. // Review of Educational Research. — 2004. — № 74 . — P. 525—556.
  • Roth P. L. // Personnel Psychology. — 1994. — Т. 47 , № 3 . — P. 537–559. — doi : .
  • Samii C. Data, Missing // International Encyclopedia of Political Science / Badie B., Berg-Schlosser D., Morlino L. — Sage, 2011. — Т. 2 . — P. 518—520.

Ссылки

  • . Statistics Solutions.
Источник —

Same as Анализ полных наблюдений