Ключевые идеи книги: Сигнал и шум. Почему одни прогнозы сбываются, а другие – нет. Нейт Сильвер. Smart Reading
деальные предсказания невозможны.
Человек склонен переоценивать свою способность заглядывать в будущее. С печальной регулярностью «достоверно» предсказанные события не наступают, а события якобы невозможные неожиданно сваливаются нам на голову. И дело не только в недостаточном владении статистикой. Сначала надо разобраться с понятием вероятности и неопределенности, научиться распознавать собственную предвзятость и ценить возможность экспериментирования.
Мы сталкиваемся с опасностью, когда рост потока информации опережает нашу способность эту информацию обрабатывать. Сейчас в тренде большие данные, однако неправильно считать, что прогнозы, основанные на больших данных, обязательно окажутся успешными. Цифры и факты не имеют самостоятельного значения. Это человек наполняет их смыслом и может интерпретировать данные так, что результат окажется оторван от реальности.
В век информации разрыв между тем, что мы знаем, и тем, что мы думаем, что знаем, становится все шире. Это проявляется в очень детальных прогнозах, которые оказываются абсолютно несостоятельными. Большинство неудачных прогнозов – результат нашей излишней самоуверенности.
Защищаясь от информационной перегрузки, мы склонны упрощать мир вокруг нас. Мы стремимся привести мир в согласие со своими представлениями о нем, на самом деле он становится все более разнообразным и сложным. Мы никогда не сможем составлять идеально объективные прогнозы. Они всегда будут нести отпечаток наших субъективных убеждений. И признание этого факта – первый шаг к улучшению качества прогнозирования.
Моделирование будущего может быть полезным, даже если модель оказывается неправильной. Она помогает понять, в чем ошибка и как минимизировать затраты от ошибок. Главное помнить, что построение моделей будущего – инструмент для лучшего понимания сложности мира, но модель никогда не сможет отразить мир целиком.
Многочисленные исследования подтверждают, что обобщенные прогнозы лучше индивидуальных. В разных областях деятельности усреднение имеющихся прогнозов часто снижает вероятность ошибки на 15–20 %. Однако прежде чем высчитывать среднее, стоит обратить внимание на следующее.
▶ Усредненный прогноз может быть лучше индивидуального, но это не означает, что он надежен и достоверен.
▶ Комбинирование прогнозов улучшает качество прогнозирования только в том случае, если каждый индивидуальный прогноз составлялся независимо от других.
▶ Хотя усредненный прогноз бывает, как правило, лучше типичного индивидуального прогноза, он может быть хуже, чем лучший индивидуальный прогноз.
Томас Байес, английский священник XVIII века, стал основателем целого направления современной статистики и автором знаменитой теоремы[1], названной в его честь. Байес полагал, что наши знания о Вселенной строятся на приближениях: мы приближаемся к истине по мере накопления новой информации. В его знаменитой книге «Эссе к решению проблемы в доктрине возможностей» заложены основы современной теории вероятности. Сформулированная им теорема позволяет рассчитать вероятность какого-либо события, при условии что произошло другое взаимосвязанное с ним событие. Пьер-Симон Лаплас сумел выразить теорему Байеса математическими средствами.
Теорема Байеса применима к широчайшему спектру событий и явлений. Например, вероятность появления рака груди у 40-летних женщин очень мала – 1,4 %. Но какова вероятность рака, если маммограмма показала наличие рака? Исследования показывают, что если у женщины рака нет, то маммограмма ошибочно покажет рак примерно в 10 % случаев. Если у женщины рак есть, то маммограмма распознает его в 75 % случаев. Такая статистика вполне убедительно говорит о том, что позитивная маммограмма – вполне надежное свидетельство наличия рака. Однако если к этим цифрам применить теорему Байеса, то вывод будет другой – даже при наличии позитивной маммограммы вероятность наличия рака у 40-летней женщины около 10 %.
«Ложный позитив» – проблема для любой науки, если составители прогнозов не пользуются теоремой Байеса. Практика показывает, что многие гипотезы, выдвигаемые в медицинских и научных академических изданиях, оказываются ложными. Исследователи не сумели в независимых условиях воспроизвести полученные ими «позитивные» данные, опубликованные в медицинских журналах. Количество информации постоянно растет, однако количество значимой информации – в разы меньше. Большая часть информации – просто «шум».
Согласно теореме Байеса, нужно уточнять прогноз каждый раз, когда становится доступной новая информация. Говоря иначе, использовать метод проб и ошибок.
Успех Google объясняется умелым сочетанием креативной культуры с неукоснительным тестированием всего нового. Google постоянно работает над улучшением качества своих прогнозов. Когда мы отправляем поисковый запрос в Google и получаем список возможных ответов, порядок, в котором появляются ответы, отражает прогноз Google в отношении того, какие
1
В самом базовом виде теорема Байеса представляет собой алгебраическое выражение с тремя известными переменными. Вероятность того или иного события равна хy / (xy + z (1 – x)), где x представляет собой изначальную вероятность (выраженную в процентах) наступления события, y – вероятность наступления события, при условии что вводные данные правильные, и z – вероятность наступления события, при условии что вводные данные ошибочны. Иными словами, теорема позволяет корректировать вероятность того или иного результата, учитывая влияние ложноположительных данных.