Как лгать при помощи статистики
— книга, написанная
(англ.)
(
в 1954 году. Она рассказывает о различных способах злоупотребления статистикой в целях обмана аудитории и манипулирования её мнением. Рассмотрено множество конкретных примеров, в основном из американской жизни (реклама, политика, пропаганда и агитация).
Первым эпиграфом к книге выбрана цитата из
графа Би́консфилда (Б. Дизраэли)
о статистике:
«Существуют три вида лжи: ложь, наглая ложь и статистика».
Книга ориентирована на читателя-неспециалиста и снабжена яркими иллюстрациями. Материал излагается живо и в доступной форме, что обеспечило высокую популярность книги — она является одной из самых многотиражных публикаций, посвящённых статистике, за вторую половину XX века
.
Содержание
Выборка изначально необъективна
Объяснение того, что такое
выборка
, как интервьюеры неосознанно выбирают опрашиваемых и влияют на их ответы.
Грамотно выбранное среднее
Рассматриваются виды среднего:
На примерах показано, как выбор вида среднего значения влияет на его величину для одних и тех же выборок. Обращается внимание на возможность манипулирования неподготовленным читателем путём выбора «удобного» (для манипулятора) вида среднего.
Нюансы, о которых скромно умалчивают
В этой главе автор рассматривает важные нюансы статистического исследования, которые часто намеренно или неосознанно не сообщают в статьях, предназначенных для широкой публики.
Объясняется важность размера выборки и связь её с видом совокупности. Приводятся примеры манипуляций с размером выборки:
-
Испытания эффективности зубной пасты.
Проводятся лабораторные испытания эффекта использования зубной пасты на шести испытуемых. Иногда проводится ряд таких исследований, и исследование, показавшее выгодный заказчику (производителю пасты) результат, используется в рекламных кампаниях.
-
Тест противополиомиелитной вакцины.
450 детей были привиты, 680 непривиты (контрольная группа). Вскоре после этого в местности произошла эпидемия, у привитых детей не было ни одного случая заражения полиомиелитом. Как и ни у одного из членов контрольной группы. Эксперимент был лишён смысла с самого начала из-за неверного выбора количества участников, так как в группе такого размера можно ожидать не более двух случаев заражения.
Вводятся понятия:
На примере
(англ.)
(
рассказывается об опасности восприятия точечной (внеинтервальной) оценки среднего значения — родители начинают паниковать, если их ребёнок не соответствует норме (среднему значению).
Обращается внимание на важность формулировок в статьях, базируемых на статистике. В качестве примера рассматривается заявление электроснабжающих компаний (1948 г.): «Электроэнергия
доступна
более чем 3/4 ферм США». Слово «доступна», никак не определённое в заявлении, обессмысливает его — обычно это означает, что ЛЭП находится на расстоянии 10-100 миль (16-160 км) от фермы, но под доступностью можно понимать и что-то иное. Автор также замечает, что при интерпретации тех же самых данных можно поставить противоположный акцент, написав: «Электроэнергия недоступна четверти ферм США».
Завершается глава напоминанием о важности наличия чисел на графиках — график роста прибыли компании за несколько лет (опубликованный в журнале Fortune) не говорит читателю ничего, поскольку ось ординат лишена числовых меток. По такому графику нельзя сказать, был ли рост прибыли значительным, средним или близким к нулю.
Много шума практически из ничего
Понятия
доверительного интервала
и доверительной вероятности иллюстрируются примерами из реальной жизни:
-
Разница в результатах теста IQ между 98 и 101 не позволяет сказать, какой из испытуемых обладает более высоким показателем IQ, что видно из полной записи результатов теста: 98 ± 3 и 101 ± 3 соответственно.
-
Измерение содержания вредных вещества в различных марках сигарет выявило отсутствие какой-либо существенной разницы между ними. Тем не менее, одна из марок оказалась на последнем месте по содержанию вредных веществ (пусть и с пренебрежимым отрывом от первого места!). Производитель этих сигарет (Old Gold) запустил рекламную кампанию, в которой утверждал, что сигареты Old Gold содержат меньше всего вредных веществ по данным независимой лаборатории.
График — лучше не бывает
Первая из глав, посвященных рассмотрению способов манипулирования при помощи графической информации.
Рассматривает способы искажения восприятия графиков:
-
«Сжатие» части координатной сетки якобы в целях экономии места. В реальности приводит к затруднениям в восприятии масштаба
-
Изменение масштаба по осям абсцисс и ординат. Этот метод позволяет «превратить» (визуально) рост, близкий к нулю, в ярко выраженный устойчивый. В качестве примера приводится график роста правительственных субсидий, приведенный в одном из объявлений. Рост составил лишь 4 %, но визуально выглядел почти как 400 % за счет увеличения масштаба по оси ординат.
Схематичная картинка
Разбираются способы обманывания аудитории при помощи
инфографики
.
Использование графических объектов, ассоциативно связанных с представляемой информацией, открывает широкие возможности для злоупотреблений. Это утверждение поясняется рядом примеров:
-
Для сравнения двух заработных плат можно использовать инфографику и нарисовать два мешка с деньгами. Если вторая заработная плата выше первой в два раза, то второй мешок будет не только выше, но и шире в два раза (что необходимо для сохранения пропорции). А поскольку мешок — это трёхмерный объект, то и контур второго мешка будет в два раза толще, чем первого. В результате наше зрение воспринимает второй мешок, как мешок в 8 (а не в 2!) раз больший, чем первый. Этот прием был использован журналом Newsweek.
-
В рекламе американского института стали и сплавов была использована инфографика для показа увеличения выплавки стали между 1930 и 1940 гг на 4.25 млн тонн (с 10 млн до 14,25 млн). Техника инфографики (к рассмотренным ранее методам добавилось преднамеренное искажение пропорций) привело к тому, что указанное увеличение выплавки визуально воспринималось как 1500 %. Автор замечает, что это тот случай, когда «арифметика превращается в фантазию».
-
Использование изображения коров разного размера для показа различных показателей удоев по годам. В добавление к уже рассмотренным эффектам, этот метод приводит к еще одному недоразумению — читатель может подумать, что не только удои стали выше, но и коровы больше.
На рисунке ниже показан пример злоупотребления инфографикой — второй объект визуально больше в 8 раз:
Псевдообоснованная цифра
Главу открывает язвительная рекомендация, — «Если вы не можете доказать то, чего хотите, то продемонстрируйте нечто другое и претендуйте на то, что эти вещи — одно и то же».
Приводится множество примеров такого жульничества. В частности:
-
Выдача опроса
мнений людей
о равенстве возможностей белых и афроамериканцев устроиться на работу за реальную ситуацию на рынке труда. Этот опрос может показать тем лучшие результаты, чем больше в нём участвует людей с расовыми предрассудками в отношении афроамериканцев, поскольку такие респонденты склонны считать, что никакой расовой дискриминации на рынке труда нет.
-
Реклама сигарет использовала следующий аргумент: «более 27 % из большой выборки известных врачей курят Throaties, что является наивысшим показателем среди всех марок сигарет». Реклама неявно предполагала, что доктора знают нечто особенное, неизвестное остальным, о вреде, который причиняется сигаретами различных марок. Но это не так.
-
Реклама соковыжималки утверждала, что лабораторные исследования показали, что она выжимает на 26 % больше сока. Когда был задан вопрос, — «чем что?», был получен ответ — «чем ручная конусная соковыжималка». Даже если исходное утверждение верно, оно не позволяет сравнить рекламируемое изделие с товарами конкурентов. Оно может являться и худшим на рынке, но тем не менее на 26 % превосходить ручную соковыжималку по эффективности отжима.
-
Смертность на флоте во время
Испанско-американской войны
составляла 0,09 %. У гражданских же в Нью-Йорке в тот же период она была 0,16 %. Флот использовал эти цифры для агитации за службу в армии. Но эти показатели некорректно сравнивать — на флот набирают молодых и здоровых людей, а в гражданское население входят младенцы, старики, больные люди.
Снова «после — значит вследствие»
Это глава рассказывает о понятии
корреляции
и часто возникающей путанице между причиной и следствием. Если явление A и B встречаются вместе, то это можно объяснить тремя способами:
-
Явление A является следствием явления B
-
Явление B является следствием явления A
-
Явления A и B являются следствием другого/других явления/явлений
Приводится ряд примеров ошибочных суждений о причинно-следственных связях. В частности:
-
Исследования показали, что среди курящих студентов больше плохоуспевающих, чем среди некурящих. Этот факт использовался в антитабачной кампании. Но из этого результата нельзя заключить, что курение отрицательно влияет на способности студентов. Возможно, что студенты начали курить из-за плохой успеваемости или же они плохо учатся и курят из-за какой-то третьей причины (например, тяжелых жизненных условий).
-
Исследования показывают положительную корреляцию между уровнем образования и доходом. Из этого факта нельзя заключить, что если вы (ваш сын, дочь и т. д.) получат высшее образование, то они непременно и обязательно будут иметь более высокий доход, чем если бы они его не получили. Более того, эта корреляция не позволяет вывести как всеобщее правило, что именно высшее образование ведет к более высокому доходу — возможно, лица, получившие его, происходят из богатых семей и именно поэтому получают более высокий доход в зрелом возрасте. Здесь рассмотрен пример
(англ.)
(
См. также
Логические ошибки
.
-
Исследование 1500 типичных выпускников университетов среднего возраста показало, что 93 % мужчин были женаты (для всего населения этот показатель составил 83 %), а из женщин были замужем лишь 65 %. Из этого делается вывод, что образованная женщина имеет меньше шансов выйти замуж, чем необразованная. Но исследование не показывает причинно-следственную связь между этими явлениями. Возможно, эти незамужние женщины остались бы незамужними и в том случае, если бы не закончили университет.
Глава заканчивается почти анекдотическим (но реальным) примером перепутывания причины и следствия аборигенами
Новых Гебрид.
Они полагали, что наличие вшей ведёт к здоровью. Этот вывод делался на том основании, что больного человека вши покидали (так как вследствие повышенной температуры тела условия существования для них становились некомфортными), тогда как у всех здоровых людей они были (иными словами, наблюдалась положительная корреляция между здоровьем и наличием вшей).
Как производить статистикуляции
Статистикуляции — статистические манипуляции. В этой главе автор ещё раз на конкретных примерах показывает способы манипуляции статистическими данными. Однако он призывает не отвергать огульно статистические данные, но вдумчиво, основательно с осторожной недоверчивостью изучать их, прежде чем принять к сведению.
Как поставить статистика на место
Автор предлагает проверять статистические данные с помощью пяти простых вопросов:
-
Кто это говорит?
-
Откуда ему это известно?
-
Чего не хватает?
-
Не подменен ли объект исследования?
-
Есть ли в этом смысл?
Издания на других языках
На русском языке
Примечания
-
«Over the last fifty years, How to Lie with Statistics has sold more copies than any other statistical text.» J. M. Steele. "
от 23 февраля 2021 на
Wayback Machine
.
Statistical Science
, 20 (3), 2005, 205—209.
Ссылки