Ложь, наглая ложь и статистика. Приемы, которые помогут видеть правду за цифрами. Тим Харфорд
самом деле виновных, может быть, и вовсе не было.
Пытаясь понять утверждение, завязанное на статистике, – неважно, какое именно, – начать следует с того, чтобы спросить себя, что же на самом деле это утверждение означает.
На первый взгляд измерение младенческой смертности – занятие печальное, но простое: подсчитать, сколько младенцев умерли. Но поразмыслите немного, и вы поймете, что понять, плод перед нами или младенец, вовсе не просто. Именно этот сложный этический вопрос является причиной одного из самых болезненных споров в политике США. Но статистика должна же где-то провести границу. Если мы хотим понять, что же происходит на самом деле, нужно понять, где именно находится эта граница.
Похожие вещи происходили и в пандемию. Сегодня, 9 апреля 2020 года, новостные источники сообщают, что за последние 24 часа на основной территории Великобритании от ковида умерли 887 человек – однако мне известно, что это число неверно. Согласно информации от Шейлы Бирд, шотландской специалистки по статистике и исследовательницы данных, в реальности это что-то около 1500 человек5. Откуда такая разница? Отчасти потому, что кто-то умер у себя дома, а статистика сообщает только о тех, кто умер в больницах. Но основная причина в том, что переполненные больницы публикуют данные с задержкой в несколько дней. Те смерти, о которых сообщили сегодня, в четверг, случились, скорее всего, в воскресенье или понедельник. А так как количество смертей растет по экспоненте, информация трехдневной давности не дает нам представления о том, что сейчас дела обстоят куда хуже.
Статистика как дисциплина основана на измерениях и подсчетах. Майкл Бластлэнд, один из создателей программы «Более-менее», говорит так: представьте себе двух овец в поле. Сколько в поле овец? Ясное дело, две. Только вот одна овца – не овца, а ягненок. А другая на позднем сроке беременности – точнее, у нее сейчас схватки, и она вот-вот родит. Сколько, значит, овец? Одна? Две? Две с половиной? Вот как, оказывается, сложно считать до трех. Говорим ли мы о том, сколько в больнице медсестер (как насчет тех, кто работает неполный день – их считать за одну или за двух?) или о богатстве сверхбогатых людей (считаем ли мы то, что они указали в налоговой декларации, или пытаемся прибавить к этому капитал, который они прячут?), важно понимать, что именно и как мы измеряем и считаем.
Удивительно, как редко это происходит. После многолетних попыток вывести людей из статистических лабиринтов я понял, что большинство проблем, с которыми я столкнулся, объяснялись тем, что люди с самого начала повернули не в ту сторону. Они углублялись в дебри статистической математики, спрашивая об ошибках выборки, пределе погрешности, спорили, растет ли число или падает, принимали на веру, сомневались, разбирали на части и анализировали – и ни на минуту не задавались самым очевидным вопросом: а что именно мы измеряем и подсчитываем? Какое определение для этого используем?
Несмотря на то что в эту ловушку попадают очень многие, названия ей так и не придумали.