Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим. Виктор Майер-Шенбергер
кой литературы прошлого века – «каким будет тот момент в будущем, когда машины станут умнее человека?». Кажется, мы сами не заметили, что уже живем в этом будущем. Сегодня человек может с помощью машины справляться с задачами, которые раньше считались практически неразрешимыми. В этой книге приводятся десятки примеров таких задач – от опережающего обнаружения зарождающихся эпидемий до профилактики тяжких преступлений. Многие из приведенных примеров поражают воображение и кажутся настоящей фантастикой!
Но самое интересное в этой книге – рассказ о том, почему ранее неразрешимые задачи сегодня становятся объектом внимания математиков и компьютерщиков. Авторы рисуют картину, как множество больших и маленьких вычислительных устройств, которыми наполнен современный мир, ежесекундно генерируют гигантские массивы цифровой информации. И как эта информация, собранная вместе и проанализированная с помощью современных высокопроизводительных компьютеров, позволяет получить качественно новое понимание того, что содержит эта информация. И как в конечном счете это позволяет отвечать на вопросы, которые раньше не имели ответов.
Этот переход количества накопленной человечеством информации в качество решения задач, стоящих перед нами, называют сейчас феноменом «больших данных», и сегодня это одно из самых обсуждаемых явлений в индустрии информационных технологий. О нем много говорят специалисты, но, пожалуй, еще очень мало знают обычные пользователи цифровых технологий.
Между тем мы уже живем в новой эпохе – эпохе больших данных. Изменения, которые несут новые информационные технологии, затрагивают жизнь каждого человека.
«Большие данные» – это масса новых задач, касающихся общественной безопасности, глобальных экономических моделей, неприкосновенности частной жизни, устоявшихся моральных правил, правовых отношений человека, бизнеса и государства. Похоже, что в ближайшем будущем нам всем придется столкнуться с фантастическим уровнем прозрачности всей нашей жизни, действий и поступков. Этические вопросы, возникающие в связи с этим, в книге отчасти сформулированы, как и возможные ответы на них, однако только жизнь покажет, насколько правильно мы видим все риски и проблемы.
Очень хотелось бы, чтобы в будущих изданиях на тему «больших данных» среди рассматриваемых примеров нашлось достойное место и для ярких решений, созданных талантливыми российскими математиками и программистами, которые уже сейчас добились успехов в этой области. Наши разработки используются в больших энергетических сетях, крупнейших банках, в анализе информации в интернете и для работы со СМИ. У России огромный потенциал в этой области благодаря сильной математической школе и сложившейся за десятилетия качественной системе подготовки инженерных кадров. Наша страна может стать одним из флагманов нового глобального технологического тренда.
Надеемся, для многих читателей эта книга станет поводом задуматься над тем, что такое «большие данные» и каким образом эти технологии – такие неосязаемые и невесомые – стали силой, изменяющей мир. Развитие и внедрение технологий «больших данных» может дать уникальные конкурентные преимущества бизнесу, помочь построить более эффективное государство, предоставить новые возможности людям и в конечном итоге сделать нашу жизнь более удобной и безопасной. Кто знает, может быть, возникшие благодаря прочтению этой книги идеи дадут впоследствии импульс для развития такой перспективной индустрии «больших данных».
Глава 1
Наше время
В 2009 году был обнаружен новый штамм вируса гриппа – H1N1. Он включал в себя элементы вирусов, которые вызывают птичий и свиной грипп. Новый вирус быстро распространился и в считаные недели вызвал в государственных учреждениях здравоохранения по всему миру опасения, что надвигается страшная пандемия. Некоторые источники предупреждали о возможности масштабной вспышки эпидемии, подобной «испанке» 1918 года. Тогда от нее пострадало полмиллиарда человек, десятки миллионов погибли. Что хуже всего, против нового вируса не было вакцины. Единственная надежда органов здравоохранения состояла в том, чтобы замедлить распространение вируса. Но для этого требовалось знать его очаги.
В США, как и в других странах, центры по контролю и профилактике заболеваний (CDC) обязали врачей сообщать о новых случаях гриппа. И все-таки информация о возникшей пандемии каждый раз запаздывала на одну-две недели. Люди по-прежнему обращались к врачу лишь спустя несколько дней после первых признаков недомогания. Вдобавок время уходило на то, чтобы передать эту информацию в CDC. Организация лишь констатировала количество случаев каждую неделю. При быстром распространении заболевания отстать на две недели означало безнадежно опоздать. Из-за этой задержки государственные учреждения здравоохранения вынуждены были действовать вслепую в самые ответственные моменты.
За несколько недель до того, как сведения об H1N1 попали на первые полосы газет, инженеры интернет-гиганта Google опубликовали потрясающую статью в научном журнале Nature[1].
1
Статья о тенденциях распространения гриппа, опубликованная в научном журнале Nature: Jeremy Ginsburg et al. Detecting influenza epidemics using search engine query data // Nature. – 2009. – Vol. 457. – P. 1012–1014. URL: http://www.nature.com/nature/journal/v457/n7232/full/nature07634.html