Прибор оценки проходимости — Марс
- 1 year ago
- 0
- 0
Статистика оценки ( оценочная статистика , англ. Estimation statistics ) — подход к анализу данных , который включает в себя комбинацию из методов: , доверительных интервалов , и метаанализа для планирования экспериментов , анализа данных и интерпретации результатов. Этот подход отличается от проверки значимости нулевой гипотезы (NHST), который считается менее информативным. Статистика оценки, или просто оценка , также известная как новая статистика , используется в области психологии , медицинских исследований, наук о жизни и в широком спектре других экспериментальных наук, где проверка значимости нулевой гипотезы всё ещё остается распространённым подходом, несмотря на то, что в течение последних нескольких десятилетий статистика оценки рекомендуется в качестве предпочтительного подхода.
Основная цель статистики оценки — сообщить (точечную оценку) вместе с его доверительным интервалом , который связан с точностью оценки. Доверительный интервал суммирует диапазон вероятных значений основного эффекта популяции. Сторонники статистики оценки предпочитают сообщать о размере эффекта с его доверительными интервалами вместо p-уровня значимости и считают, что статистика оценки должна заменить метод проверки значимости для анализа данных .
В физике давно используется метод средневзвешенных значений , аналогичный метаанализу .
История статистики оценки началась с разработки стандартизированной в 1960-х годах. Первые исследования с использованием оценочной статистики были впервые проведены Джином В. Глассом вместе с разработкой метода метаанализа в 1970-х годах. С тех пор методы статистики оценки были усовершенствованы Ларри Хеджесом, Майклом Боренштейном, Дугом Альтманом, Мартином Гарднером, Джеффом Каммингом и другими. Систематический обзор в сочетании с метаанализом — это смежный метод, который широко используется в медицинских исследованиях. Несмотря на широкое распространение метаанализа, подход статистики оценки до сих пор не используется на постоянной основе в главенствующих биомедицинских исследованиях.
В 1990-х редактор запретил использование p-значений в журнале ; авторы поддержали инициативу, но это не повлияло на их аналитическое мышление при проведении исследований.
В последнее время методы статистики оценки применяются в таких областях, как нейробиология , психология образования и психология .
В руководстве по публикациям Американской психологической ассоциации рекомендуется оценка (estimation), а не проверка (testing) гипотез. В документе «Единые требования к рукописям, представляемым в биомедицинские журналы» содержится аналогичная рекомендация: «Избегайте полагаться исключительно на статистическую проверку гипотез, такую как p-значения , которая не может передать важную информацию о ».
В 2019 году журнал ввел политику, рекомендующую использовать графики статистики оценки в качестве предпочтительного метода для представления данных.
У многих тестов значимости есть аналог в статистике оценки. Почти в каждом случае результат теста (или его p-значение ) можно просто заменить и . Например, вместо использования t-критерия Стьюдента аналитик может сравнить две независимые группы, вычислив среднюю разницу и ее 95 % доверительный интервал . Соответствующие методы могут использоваться для парного t-критерия и множественных сравнений. Точно так же для регрессионного анализа аналитик должен сообщить коэффициент детерминации (R 2 ) и уравнение модели вместо p-значения модели.
Однако сторонники оценочной статистики рекомендуют анализировать и представлять данные с помощью визуализации данных в дополнение к цифровым расчетам. Примерами подходящей визуализации являются точечный график для регрессии и графики Гарднера-Альтмана для двух независимых групп. В то время как классические графики (например, гистограммы , ящики с усами и скрипичные графики) не отображают сравнение, графики статистики оценки добавляют вторую ось для четкой визуализации .
График разности средних Гарднера — Альтмана был впервые описан и в 1986 г. Этот статистический график отображает данные из двух независимых групп. Также есть версия графика, подходящая для . Ключевые инструкции по составлению этой диаграммы следующие: (1) отобразить все наблюдаемые значения для обеих групп рядом; (2) поместить вторую ось справа, сместив её, чтобы показать шкалу разности средних ; и (3) построить на графике разность средних с ее доверительным интервалом в виде маркера со . Графики Гарднера-Альтмана могут быть созданы с помощью специального кода с использованием пакетов , или ; в качестве альтернативы аналитик может использовать удобное программное обеспечение, такое как приложение .
Для нескольких групп ввел дополнительную панель для построения двух или более разностей средних и их доверительных интервалов , помещенных под первой панелью наблюдаемых значений : такое расположение позволяет различия средних («дельты») по нескольким группам данных. Графики Камминга могут быть созданы с помощью пакетов , , или приложения .
Помимо разницы средних , существует множество других типов , со своими преимуществами относительно друг друга. Основные типы включают типа Cohen’s d и коэффициент детерминации (R 2 ) для регрессионного анализа . Для ненормальных распределений существует ряд более , включая дельту Клиффа и статистику Колмогорова-Смирнова .
При проверке гипотез основной целью статистических вычислений является получение p-значения — вероятности увидеть полученный результат или более экстремальный результат, если предполагается, что нулевая гипотеза верна. Если значение p низкое (обычно <0,05), практикующему специалисту в области статистики рекомендуется отвергнуть нулевую гипотезу . Сторонники статистики оценки отвергают валидность подхода проверки гипотез по следующим причинам:
Доверительные интервалы ведут себя предсказуемо. По определению, 95 % доверительные интервалы имеют 95 % шанс уловить среднее значение популяции (μ). Эта функция остается неизменной с увеличением размера выборки ; что меняется, так это то, что интервал становится меньше (точнее). Кроме того, 95 % доверительные интервалы также являются 83 % интервалами прогноза: доверительный интервал одного эксперимента имеет 83 % вероятность захвата среднего значения любого будущего эксперимента . Таким образом, знание 95 % доверительных интервалов отдельного эксперимента дает аналитику правдоподобный диапазон для среднего значения совокупности и правдоподобные результаты любых последующих экспериментов по репликации.
Психологические исследования восприятия статистики показывают, что интервалы оценки позволяют получить более точное восприятие данных, чем отчеты p-значений .
Точность оценки формально определяется как 1/ дисперсия , и, как и мощность , которая увеличивается с увеличением размера выборки. Как и мощность , высокая точность трудозатратны. Заявки на грант на исследования в идеале должны включать анализ точности/затрат. Сторонники статистики оценки считают, что планирование точности должно заменить мощность , поскольку сама статистическая мощность концептуально связана с проверкой значимости .