Interested Article - Ошибки первого и второго рода

Оши́бка пе́рвого ро́да ( 𝛼-ошибка, ложноположительное заключение ) — ситуация, когда отвергнута верная нулевая гипотеза (об отсутствии связи между явлениями или искомого эффекта).

Оши́бка второ́го ро́да ( β-ошибка, ложноотрицательное заключение ) — ситуация, когда принята неверная нулевая гипотеза.

Данные понятия являются ключевыми в задачах проверки статистических гипотез в математической статистике . Эти понятия широко применяются в различных областях, когда требуется принять «бинарное» решение — да или нет — на основе определенного критерия (теста, проверки, измерения). Однако такие решения могут быть ненадежными с определенной вероятностью, поскольку критерий может давать ложные результаты.

Области рассмотрения ошибок первого и второго рода также включают инженерию, экономику, медицину, социологию, экологию и другие области, где статистические методы используются для принятия решений на основе данных. Понимание и управление ошибками первого и второго рода являются важными аспектами при проведении статистических исследований и принятии решений на основе статистических выводов.

Определения

Пусть дана выборка $\mathbf {X} =(X_{1},\ldots ,X_{n})^{\top }$ из неизвестного совместного распределения $\mathbb {P} ^{\mathbf {X} }$ , и поставлена бинарная задача проверки статистических гипотез:

{\begin{matrix}H_{0}\\H_{1},\end{matrix}}

где $H_{0}$ — нулевая гипотеза , а $H_{1}$ — , или конкурирующая гипотеза. Предположим, что задан статистический критерий

f:\mathbb {R} ^{n}\to \{H_{0},H_{1}\}

,

сопоставляющий каждой реализации выборки $\mathbf {X} =\mathbf {x}$ одну из имеющихся гипотез. Тогда возможны следующие четыре ситуации:

Распределение $\mathbb {P} ^{\mathbf {X} }$ выборки $\mathbf {X}$ соответствует гипотезе $H_{0}$ , и она точно определена статистическим критерием, то есть $f(\mathbf {x} )=H_{0}$ .
Распределение $\mathbb {P} ^{\mathbf {X} }$ выборки $\mathbf {X}$ соответствует гипотезе $H_{0}$ , но она неверно отвергнута статистическим критерием, то есть $f(\mathbf {x} )=H_{1}$ .
Распределение $\mathbb {P} ^{\mathbf {X} }$ выборки $\mathbf {X}$ соответствует гипотезе $H_{1}$ , и она точно определена статистическим критерием, то есть $f(\mathbf {x} )=H_{1}$ .
Распределение $\mathbb {P} ^{\mathbf {X} }$ выборки $\mathbf {X}$ соответствует гипотезе $H_{1}$ , но она неверно отвергнута статистическим критерием, то есть $f(\mathbf {x} )=H_{0}$ .

Во втором и четвёртом случае говорят, что произошла статистическая ошибка, и её называют ошибкой первого и второго рода соответственно .

		Верная гипотеза
		$H_{0}$	$H_{1}$
Результат применения критерия	$H_{0}$	$H_{0}$ верно принята	$H_{0}$ неверно принята (Ошибка второго рода)
Результат применения критерия	$H_{1}$	$H_{0}$ неверно отвергнута (Ошибка первого рода)	$H_{0}$ верно отвергнута

О смысле ошибок первого и второго рода

Из определения выше видно, что ошибки первого и второго рода являются взаимно-симметричными, то есть если поменять местами гипотезы $H_{0}$ и $H_{1}$ , то ошибки первого рода превратятся в ошибки второго рода и наоборот. Тем не менее, в большинстве практических ситуаций путаницы не происходит, поскольку принято считать, что нулевая гипотеза $H_{0}$ соответствует состоянию «по умолчанию» (естественному, наиболее ожидаемому положению вещей) — например, что обследуемый человек здоров, или что проходящий через рамку металлодетектора пассажир не имеет запрещённых металлических предметов. Соответственно, альтернативная гипотеза $H_{1}$ обозначает противоположную ситуацию, которая обычно трактуется как менее вероятная, неординарная, требующая какой-либо реакции.

С учётом вышесказанного, ошибку первого рода часто называют ложной тревогой , ложным срабатыванием или ложноположительным срабатыванием . Если, например, анализ крови показал наличие заболевания, хотя на самом деле человек здоров, или металлодетектор выдал сигнал тревоги, сработав на металлическую пряжку ремня, то принятая гипотеза не верна, а следовательно совершена ошибка первого рода. Слово «ложноположительный» в данном случае не имеет отношения к желательности или нежелательности самого события.

Термин широко используется в медицине. Например, тесты, предназначенные для диагностики заболеваний, иногда дают положительный результат (то есть показывают наличие заболевания у пациента), когда на самом деле пациент этим заболеванием не страдает. Такой результат называется ложноположительным .

В других областях обычно используют словосочетания со схожим смыслом, например, «ложное срабатывание», «ложная тревога» и т. п. В информационных технологиях часто используют английский термин false positive без перевода.

Из-за возможности ложных срабатываний не удаётся полностью автоматизировать борьбу со многими видами угроз. Как правило, вероятность ложного срабатывания коррелирует с вероятностью пропуска события (ошибки второго рода). То есть: чем более чувствительна система, тем больше опасных событий она детектирует и, следовательно, предотвращает. Но при повышении чувствительности неизбежно вырастает и вероятность ложных срабатываний. Поэтому чересчур чувствительно (параноидально) настроенная система защиты может выродиться в свою противоположность и привести к тому, что побочный вред от неё будет превышать пользу.

Соответственно, ошибку второго рода иногда называют пропуском события или ложноотрицательным срабатыванием . Человек болен, но анализ крови этого не показал, или у пассажира имеется холодное оружие, но рамка металлодетектора его не обнаружила (например, из-за того, что чувствительность рамки отрегулирована на обнаружение только очень массивных металлических предметов). Данные примеры указывают на совершение ошибки второго рода. Слово «ложноотрицательный» в данном случае не имеет отношения к желательности или нежелательности самого события.

В других областях обычно используют словосочетания со схожим смыслом, например, «пропуск события», и т. п.

Так как с ростом вероятности ошибки первого рода обычно уменьшается вероятность ошибки второго рода, и наоборот, настройка принимающей решение системы должна представлять собой компромисс. Где именно находится точка получаемого такой настройкой баланса, зависит от оценки последствий при совершении обоих видов ошибок.

Вероятности ошибок ( уровень значимости и мощность)

Вероятность ошибки первого рода при проверке статистических гипотез называют уровнем значимости и обычно обозначают греческой буквой $\alpha$ (отсюда название 𝛼-ошибка).

Вероятность ошибки второго рода не имеет какого-то особого общепринятого названия, она обозначается греческой буквой $\beta$ (отсюда название $\beta$ -ошибка). Однако с этой величиной тесно связана другая, имеющая большое статистическое значение — мощность критерия . Она вычисляется по формуле $(1-\beta ).$ Таким образом, чем выше мощность критерия, тем меньше вероятность совершить ошибку второго рода.

Обе эти характеристики обычно вычисляются с помощью так называемой функции мощности критерия. В частности, вероятность ошибки первого рода есть функция мощности, вычисленная при нулевой гипотезе. Для критериев, основанных на выборке фиксированного объёма, вероятность ошибки второго рода есть единица минус функция мощности, вычисленная в предположении, что распределение наблюдений соответствует альтернативной гипотезе. Для последовательных критериев это также верно, если критерий останавливается с вероятностью единица (при данном распределении из альтернативы).

В статистических тестах обычно приходится идти на компромисс между приемлемым уровнем ошибок первого и второго рода . Зачастую для принятия решения используется пороговое значение, которое может варьироваться с целью сделать тест более строгим или, наоборот, более мягким. Этим пороговым значением является уровень значимости , которым задаются при проверке статистических гипотез . Например, в случае металлодетектора повышение чувствительности прибора приведёт к увеличению риска ошибки первого рода (ложная тревога), а понижение чувствительности — к увеличению риска ошибки второго рода (пропуск запрещённого предмета).

Примеры использования

Радиолокация

В задаче радиолокационного обнаружения воздушных целей, прежде всего, в системе ПВО ошибки первого и второго рода, с формулировкой «ложная тревога» и «пропуск цели» являются одним из основных элементов как теории, так и практики построения радиолокационных станций . Вероятно, это первый пример последовательного применения статистических методов в целой технической области.

Компьютеры

Понятия ошибок первого и второго рода широко используются в области компьютеров и программного обеспечения.

Компьютерная безопасность

Наличие уязвимостей в вычислительных системах приводит к тому, что приходится, с одной стороны, решать задачу сохранения целостности компьютерных данных, а с другой стороны — обеспечивать нормальный доступ легальных пользователей к этим данным (см. компьютерная безопасность ). В данном контексте возможны следующие нежелательные ситуации :

когда авторизованные пользователи классифицируются как нарушители ( ошибки первого рода );
когда нарушители классифицируются как авторизованные пользователи ( ошибки второго рода ).

Фильтрация спама

Ошибка первого рода происходит, когда механизм блокировки/фильтрации спама ошибочно классифицирует легитимное email -сообщение как спам и препятствует его нормальной доставке. В то время как большинство «антиспам»-алгоритмов способны блокировать/фильтровать большой процент нежелательных email-сообщений, гораздо более важной задачей является минимизировать число «ложных тревог» (ошибочных блокировок нужных сообщений).

Ошибка второго рода происходит, когда антиспам-система ошибочно пропускает нежелательное сообщение, классифицируя его как «не спам». Низкий уровень таких ошибок является индикатором эффективности антиспам-алгоритма.

Пока не удалось создать антиспамовую систему без корреляции между вероятностью ошибок первого и второго рода. Вероятность пропустить спам у современных систем колеблется в пределах от 1 % до 30 %. Вероятность ошибочно отвергнуть валидное сообщение — от 0,001 % до 3 %. Выбор системы и её настроек зависит от условий конкретного получателя: для одних получателей риск потерять 1 % хорошей почты оценивается как незначительный, для других же потеря даже 0,1 % является недопустимой.

Вредоносное программное обеспечение

Понятие ошибки первого рода также используется, когда антивирусное программное обеспечение ошибочно классифицирует безвредный файл как вирус . Неверное обнаружение может быть вызвано особенностями эвристики , либо неправильной сигнатурой вируса в базе данных. Подобные проблемы могут происходить также и с анти троянскими и анти шпионскими программами.

Поиск в компьютерных базах данных

При поиске в базе данных к ошибкам первого рода можно отнести документы, которые выдаются поиском, несмотря на их иррелевантность (несоответствие) поисковому запросу. Ошибочные срабатывания характерны для полнотекстового поиска , когда поисковый алгоритм анализирует полные тексты всех хранимых в базе данных документов и пытается найти соответствия одному или нескольким терминам, заданным пользователем в запросе.

Большинство ложных срабатываний обусловлены сложностью естественных языков , многозначностью слов: например, «home» может обозначать как «место проживания человека», так и «корневую страницу веб-сайта». Число подобных ошибок может быть снижено за счёт использования специального словаря . Однако это решение относительно дорогое, поскольку подобный словарь и разметка документов ( индексирование ) должны создаваться экспертом.

Оптическое распознавание текстов (OCR)

Разнообразные детектирующие алгоритмы нередко выдают ошибки первого рода . Программное обеспечение оптического распознавания текстов может распознать букву «a» в ситуации, когда на самом деле изображены несколько точек.

Досмотр пассажиров и багажа

Ошибки первого рода регулярно встречаются каждый день в компьютерных системах предварительного досмотра пассажиров в аэропортах. Установленные в них детекторы предназначены для предотвращения проноса оружия на борт самолёта; тем не менее, уровень чувствительности в них зачастую настраивается настолько высоко, что много раз за день они срабатывают на незначительные предметы, такие как ключи, пряжки ремней, монеты, мобильные телефоны, гвозди в подошвах обуви и т. п. (см. (англ.) ( , металлодетекторы ).

Таким образом, соотношение числа ложных тревог (идентифицикация благопристойного пассажира как правонарушителя) к числу правильных срабатываний (обнаружение действительно запрещённых предметов) очень велико.

Биометрия

Ошибки первого и второго рода являются большой проблемой в системах биометрического сканирования, использующих распознавание радужной оболочки или глаза, черт лица и т. д. Такие сканирующие системы могут ошибочно отождествить кого-то с другим, «известным» системе человеком, информация о котором хранится в базе данных (к примеру, это может быть лицо, имеющее право входа в систему, или подозреваемый преступник и т. п.). Противоположной ошибкой будет неспособность системы распознать легитимного зарегистрированного пользователя, или опознать подозреваемого в преступлении .

Массовая медицинская диагностика (скрининг)

В медицинской практике есть существенное различие между скринингом и тестированием :

Скрининг включает в себя относительно дешёвые тесты, которые проводятся для большой группы людей при отсутствии каких-либо клинических признаков болезни (например, мазок Папаниколау ).
Тестирование подразумевает гораздо более дорогие , зачастую инвазивные, процедуры, которые проводятся только для тех, у кого проявляются клинические признаки заболевания, и которые, в основном, применяются для подтверждения предполагаемого диагноза.

К примеру, в большинстве штатов в США обязательно прохождение новорожденными процедуры скрининга на оксифенилкетонурию и гипотиреоз , помимо других врождённых аномалий . Несмотря на высокий уровень ошибок первого рода , эти процедуры скрининга считаются целесообразными, поскольку они существенно увеличивают вероятность обнаружения этих расстройств на самой ранней стадии .

Простые анализы крови, используемые для скрининга потенциальных доноров на ВИЧ и гепатит , имеют существенный уровень ошибок первого рода ; однако в арсенале врачей есть гораздо более точные (и, соответственно, дорогие) тесты для проверки, действительно ли человек инфицирован каким-либо из этих вирусов.

Возможно, наиболее широкие дискуссии вызывают ошибки первого рода в процедурах скрининга на рак груди ( маммография ). В США уровень ошибок первого рода в маммограммах достигает 15 %, это самый высокий показатель в мире . Самый низкий уровень наблюдается в Нидерландах , 1 % .

Медицинское тестирование

Ошибки второго рода являются существенной проблемой в медицинском тестировании . Они дают пациенту и врачу ложное убеждение, что заболевание отсутствует, в то время как в действительности оно есть. Это зачастую приводит к неуместному или неадекватному лечению. Типичным примером является доверие результатам велоэргометрии при выявлении коронарного атеросклероза , хотя известно, что велоэргометрия выявляет только те затруднения кровотока в коронарной артерии , которые вызваны стенозом .

Ошибки второго рода вызывают серьёзные и трудные для понимания проблемы, особенно когда искомое условие является широкораспространённым. Если тест с 10%-ным уровнем ошибок второго рода используется для обследования группы, где вероятность «истинно-положительных» случаев составляет 70 %, то многие отрицательные результаты теста окажутся ложными. (См. теорему Байеса ).

Ошибки первого рода также могут вызывать серьёзные и трудные для понимания проблемы. Это происходит, когда искомое условие является редким. Если уровень ошибок первого рода у теста составляет один случай на десять тысяч, но в тестируемой группе образцов (или людей) вероятность «истинно-положительных» случаев составляет в среднем один случай на миллион, то большинство положительных результатов этого теста будут ложными .

Исследования сверхъестественных явлений

Термин ошибка первого рода был взят на вооружение исследователями в области паранормальных явлений и привидений для описания фотографии или записи или какого-либо другого свидетельства, которое ошибочно трактуется как имеющее паранормальное происхождение — в данном контексте ошибка первого рода — это какое-либо несостоятельное «медиасвидетельство» (изображение, видеозапись, аудиозапись и т. д.), которое имеет обычное объяснение.

См. также

Примечания

ГОСТ Р 50779.10-2000. «Статистические методы. Вероятность и основы статистики. Термины и определения». — от 9 ноября 2018 на Wayback Machine
Easton V. J., McColl J. H. от 24 сентября 2011 на Wayback Machine
Moulton R. T. (англ.) // Datamation. — 1983. — Vol. 29 , iss. 7 . — P. 121—127 .
Данный пример как раз характеризует случай, когда классификация ошибок будет зависеть от назначения системы: если биометрическое сканирование используется для допуска сотрудников ( нулевая гипотеза : «проходящий сканирование человек действительно является сотрудником»), то ошибочное отождествление будет ошибкой второго рода , а «неузнавание» — ошибкой первого рода ; если же сканирование используется для опознания преступников ( нулевая гипотеза : «проходящий сканирование человек не является преступником»), то ошибочное отождествление будет ошибкой первого рода , а «неузнавание» — ошибкой второго рода .
Относительно скрининга новорожденных, последние исследования показали, что количество ошибок первого рода в 12 раз больше, чем количество верных обнаружений (Gambrill, 2006. )
Одним из последствий такого высокого уровня ошибок первого рода в США является то, что за произвольный 10-летний период половина обследуемых американских женщин получают как минимум одну ложноположительную маммограмму. Такие ошибочные маммограммы обходятся дорого, приводя к ежегодным расходам в 100 миллионов долларов на последующее (ненужное) лечение. Кроме того, они вызывают излишнюю тревогу у женщин. В результате высокого уровня подобных ошибок первого рода в США, примерно у 90—95 % женщин, получивших хотя бы раз в жизни положительную маммограмму, на самом деле заболевание отсутствует.
Наиболее низкие уровни этих ошибок наблюдаются в северной Европе, где маммографические плёнки считываются дважды, и для дополнительного тестирования устанавливается повышенное (высокий порог снижает теста).
Вероятность того, что выдаваемый тестом результат окажется ошибкой первого рода , может быть вычислена при помощи теоремы Байеса .
На некоторых сайтах приведены примеры ошибок первого рода, например: 28 марта 2005 года. (недоступная ссылка с 13-05-2013 [3901 день]) и 14 июня 2006 года. (недоступная ссылка с 13-05-2013 [3901 день] — ) .