Interested Article - Статистика оценки

Статистика оценки ( оценочная статистика , англ. Estimation statistics ) — подход к анализу данных , который включает в себя комбинацию из методов: , доверительных интервалов , и метаанализа для планирования экспериментов , анализа данных и интерпретации результатов. Этот подход отличается от проверки значимости нулевой гипотезы (NHST), который считается менее информативным. Статистика оценки, или просто оценка , также известная как новая статистика , используется в области психологии , медицинских исследований, наук о жизни и в широком спектре других экспериментальных наук, где проверка значимости нулевой гипотезы всё ещё остается распространённым подходом, несмотря на то, что в течение последних нескольких десятилетий статистика оценки рекомендуется в качестве предпочтительного подхода.

Основная цель статистики оценки — сообщить (точечную оценку) вместе с его доверительным интервалом , который связан с точностью оценки. Доверительный интервал суммирует диапазон вероятных значений основного эффекта популяции. Сторонники статистики оценки предпочитают сообщать о размере эффекта с его доверительными интервалами вместо p-уровня значимости и считают, что статистика оценки должна заменить метод проверки значимости для анализа данных .

История

В физике давно используется метод средневзвешенных значений , аналогичный метаанализу .

История статистики оценки началась с разработки стандартизированной в 1960-х годах. Первые исследования с использованием оценочной статистики были впервые проведены Джином В. Глассом вместе с разработкой метода метаанализа в 1970-х годах. С тех пор методы статистики оценки были усовершенствованы Ларри Хеджесом, Майклом Боренштейном, Дугом Альтманом, Мартином Гарднером, Джеффом Каммингом и другими. Систематический обзор в сочетании с метаанализом — это смежный метод, который широко используется в медицинских исследованиях. Несмотря на широкое распространение метаанализа, подход статистики оценки до сих пор не используется на постоянной основе в главенствующих биомедицинских исследованиях.

В 1990-х редактор запретил использование p-значений в журнале ; авторы поддержали инициативу, но это не повлияло на их аналитическое мышление при проведении исследований.

В последнее время методы статистики оценки применяются в таких областях, как нейробиология , психология образования и психология .

В руководстве по публикациям Американской психологической ассоциации рекомендуется оценка (estimation), а не проверка (testing) гипотез. В документе «Единые требования к рукописям, представляемым в биомедицинские журналы» содержится аналогичная рекомендация: «Избегайте полагаться исключительно на статистическую проверку гипотез, такую как p-значения , которая не может передать важную информацию о ».

В 2019 году журнал ввел политику, рекомендующую использовать графики статистики оценки в качестве предпочтительного метода для представления данных.

Методология

У многих тестов значимости есть аналог в статистике оценки. Почти в каждом случае результат теста (или его p-значение ) можно просто заменить и . Например, вместо использования t-критерия Стьюдента аналитик может сравнить две независимые группы, вычислив среднюю разницу и ее 95 % доверительный интервал . Соответствующие методы могут использоваться для парного t-критерия и множественных сравнений. Точно так же для регрессионного анализа аналитик должен сообщить коэффициент детерминации (R 2 ) и уравнение модели вместо p-значения модели.

Однако сторонники оценочной статистики рекомендуют анализировать и представлять данные с помощью визуализации данных в дополнение к цифровым расчетам. Примерами подходящей визуализации являются точечный график для регрессии и графики Гарднера-Альтмана для двух независимых групп. В то время как классические графики (например, гистограммы , ящики с усами и скрипичные графики) не отображают сравнение, графики статистики оценки добавляют вторую ось для четкой визуализации .

График Гарднера — Альтмана. Слева: обычная столбиковая диаграмма со звездочками, чтобы показать, что разница «статистически значима». Справа: график Гарднера — Альтмана, на котором показаны все точки данных, а также средняя разница и ее доверительные интервалы.

График Гарднера — Альтмана

График разности средних Гарднера — Альтмана был впервые описан и в 1986 г. Этот статистический график отображает данные из двух независимых групп. Также есть версия графика, подходящая для . Ключевые инструкции по составлению этой диаграммы следующие: (1) отобразить все наблюдаемые значения для обеих групп рядом; (2) поместить вторую ось справа, сместив её, чтобы показать шкалу разности средних ; и (3) построить на графике разность средних с ее доверительным интервалом в виде маркера со . Графики Гарднера-Альтмана могут быть созданы с помощью специального кода с использованием пакетов , или ; в качестве альтернативы аналитик может использовать удобное программное обеспечение, такое как приложение .

График Камминга

Для нескольких групп ввел дополнительную панель для построения двух или более разностей средних и их доверительных интервалов , помещенных под первой панелью наблюдаемых значений : такое расположение позволяет различия средних («дельты») по нескольким группам данных. Графики Камминга могут быть созданы с помощью пакетов , , или приложения .

Другие методологии

Помимо разницы средних , существует множество других типов , со своими преимуществами относительно друг друга. Основные типы включают типа Cohen’s d и коэффициент детерминации (R 2 ) для регрессионного анализа . Для ненормальных распределений существует ряд более , включая дельту Клиффа и статистику Колмогорова-Смирнова .

Недостатки в проверке гипотез

При проверке гипотез основной целью статистических вычислений является получение p-значения — вероятности увидеть полученный результат или более экстремальный результат, если предполагается, что нулевая гипотеза верна. Если значение p низкое (обычно <0,05), практикующему специалисту в области статистики рекомендуется отвергнуть нулевую гипотезу . Сторонники статистики оценки отвергают валидность подхода проверки гипотез по следующим причинам:

  • P-значения легко и часто неправильно интерпретируются. Например, p-значение часто ошибочно принимают за «вероятность того, что нулевая гипотеза верна» .
  • Нулевая гипотеза всегда неверна для каждого набора наблюдений: всегда есть какой-то , даже если он незначительный.
  • Проверка гипотез дает произвольно дихотомические ответы «да-нет», отбрасывая при этом важную информацию о .
  • Любое конкретное p-значение возникает в результате взаимодействия , размера выборки (при прочих равных, больший размер выборки дает меньшее p-значение) и .
  • При низкой мощности симуляция данных показывает, что делает p-значения чрезвычайно непостоянными.

Преимущества статистики оценки

Преимущества доверительных интервалов

Доверительные интервалы ведут себя предсказуемо. По определению, 95 % доверительные интервалы имеют 95 % шанс уловить среднее значение популяции (μ). Эта функция остается неизменной с увеличением размера выборки ; что меняется, так это то, что интервал становится меньше (точнее). Кроме того, 95 % доверительные интервалы также являются 83 % интервалами прогноза: доверительный интервал одного эксперимента имеет 83 % вероятность захвата среднего значения любого будущего эксперимента . Таким образом, знание 95 % доверительных интервалов отдельного эксперимента дает аналитику правдоподобный диапазон для среднего значения совокупности и правдоподобные результаты любых последующих экспериментов по репликации.

Доказательная статистика

Психологические исследования восприятия статистики показывают, что интервалы оценки позволяют получить более точное восприятие данных, чем отчеты p-значений .

Планирование точности (Precision planning)

Точность оценки формально определяется как 1/ дисперсия , и, как и мощность , которая увеличивается с увеличением размера выборки. Как и мощность , высокая точность трудозатратны. Заявки на грант на исследования в идеале должны включать анализ точности/затрат. Сторонники статистики оценки считают, что планирование точности должно заменить мощность , поскольку сама статистическая мощность концептуально связана с проверкой значимости .

Примечания

  1. Ellis, Paul . Дата обращения: 20 января 2021. 26 января 2021 года.
  2. Cohen, Jacob . Дата обращения: 20 января 2021. 11 октября 2017 года.
  3. Cumming, Geoff. Understanding The New Statistics: Effect Sizes, Confidence Intervals, and Meta-Analysis. — New York : Routledge, 2012.
  4. Button, Katherine; John P. A. Ioannidis; Claire Mokrysz; Brian A. Nosek; Jonathan Flint; Emma S. J. Robinson; Marcus R. Munafò (2013). . Nature Reviews Neuroscience . 14 (5): 365—76. doi : . PMID .
  5. Altman, Douglas. . — London : Chapman and Hall, 1991.
  6. Statistics with Confidence / Douglas Altman. — London : Wiley-Blackwell, 2000.
  7. Cohen, Jacob (1990). . American Psychologist . 45 (12): 1304. doi : . из оригинала 21 января 2021 . Дата обращения: 20 января 2021 .
  8. Ellis, Paul (31 мая 2010). Дата обращения: 5 июня 2013. 28 января 2021 года.
  9. Claridge-Chang, Adam; Assam, Pryseley N (2016). . Nature Methods . 13 (2): 108—109. doi : . PMID . S2CID . из оригинала 22 января 2021 . Дата обращения: 20 января 2021 .
  10. Hedges, Larry (1987). . American Psychologist . 42 (5): 443. CiteSeerX . doi : .
  11. Hunt, Morton. . — New York : The Russell Sage Foundation, 1997. — ISBN 978-0-87154-398-1 .
  12. (2004). . Psychological Science . 15 (2): 119—126. doi : . PMID . S2CID .
  13. Cumming, Geoff . Дата обращения: 20 января 2021. 29 декабря 2013 года.
  14. . Дата обращения: 17 мая 2013. 5 марта 2013 года.
  15. . Дата обращения: 17 мая 2013. Архивировано из 15 мая 2013 года.
  16. . Дата обращения: 20 января 2021. 22 января 2021 года.
  17. Cumming, Geoff. / Geoff Cumming, Robert Calin-Jageman. — Routledge, 2016. — ISBN 978-1138825529 .
  18. Gardner, M. J.; Altman, D. G. (1986-03-15). . British Medical Journal (Clinical Research Ed.) . 292 (6522): 746—750. doi : . ISSN . PMC . PMID .
  19. Ho, Joses; Tumkaya; Aryal; Choi; Claridge-Chang (2018). . bioRxiv : 377978. doi : . из оригинала 28 июля 2018 . Дата обращения: 20 января 2021 .
  20. Baril G. L., Cannon J. T. (англ.) . — 1995.
  21. Cohen, Jacob (1994). . American Psychologist . 49 (12): 997—1003. doi : .
  22. Ellis, Paul. The Essential Guide to Effect Sizes: Statistical Power, Meta-Analysis, and the Interpretation of Research Results. — Cambridge : Cambridge University Press, 2010.
  23. The Significance Test Controversy: A Reader / Denton E. Morrison, Ramon E. Henkel. — Aldine Transaction, 2006. — ISBN 978-0202308791 .
  24. Cumming, Geoff . Дата обращения: 20 января 2021. 13 февраля 2021 года.
  25. Beyth-Marom, R; Fidler, F.; Cumming, G. (2008). "Statistical cognition: Towards evidence-based practice in statistics and statistics education". Statistics Education Research Journal . 7 : 20—39.
Источник —

Same as Статистика оценки