Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики. Билл Фрэнкс
аналитикам предстоит много работы! Нелегко будет объединить большие данные со всеми остальными данными, которые в течение многих лет применялись для анализа.
В начале главы объясняется, что такое «большие данные». Далее приведены соображения о том, чем они могут быть полезны организации.
Что такое «большие данные»?
Однозначного определения понятия «большие данные» не существует, однако можно сослаться на два описания сути этой концепции, с которой согласится большинство людей. Первое определение предложил Мерв Адриан из компании Gartner[2] в статье для журнала Teradata Magazine в первом квартале 2011 года: «Большие данные – это данные, сбор, управление и обработку которых невозможно осуществить с помощью наиболее часто используемых аппаратных сред и программных инструментов в течение допустимого для пользователя времени»{1}. Другое хорошее определение появилось в докладе McKinsey Global Institute[3] в мае 2011 года: «Большие данные – это наборы данных, размеры которых выходят за пределы возможностей по сбору, хранению, управлению и анализу, присущих обычному программному обеспечению базы данных»{2}.
Из этих определений следует, что то, что считается большими данными, будет изменяться по мере развития технологий. То, что когда-то было «большими данными», или то, что считается «большими данными» сегодня, будет отличаться от «больших данных» завтрашнего дня. Некоторых настораживает этот аспект понятия больших данных. Приведенные определения подразумевают, что суть больших данных может отличаться в зависимости от отрасли или даже организации, если существует значительная разница в возможностях инструментов и технологий. Мы обсудим это более подробно в этой главе в разделе «Сегодняшние большие данные отличаются от завтрашних больших данных».
В докладе McKinsey отмечены несколько интересных фактов, которые дают представление об объеме существующих сегодня данных.
• За $600 сегодня можно купить диск, способный вместить всю музыку мира.
• Каждый месяц через сеть Facebook пользователи обмениваются 30 миллиардами фрагментов информации.
• В среднем компании пятнадцати из семнадцати отраслей промышленности Соединенных Штатов имеют больше информации, чем Библиотека Конгресса США{3}.
Хотя понятие «большие данные» подразумевает наличие большого количества данных, оно не относится только к объему данных. Большие данные характеризуются возросшей скоростью их передачи, сложностью и разнообразием по сравнению с источниками данных прошлого.
Понятие «большие данные» подразумевает не только их объем. Согласно Gartner Group, слово «большие» относится и к некоторым другим характеристикам источника больших данных{4}. Это не только возросший объем, но и возросшая скорость передачи и разнообразие источников. Такие факторы, разумеется, усложняют работу с большими данными, поскольку
2
Gartner – исследовательская и консалтинговая компания, специализирующаяся на рынках информационных технологий.
1
3
McKinsey Global Institute – американская глобальная консалтинговая фирма.
2
Большие данные: следующий рубеж инноваций, конкуренции и эффективности (Big Data: The Next Frontier for Innovation, Competition, and Productivity) // McKinsey Global Institute, май 2011 года.
3
Большие данные: следующий рубеж инноваций, конкуренции и эффективности (Big Data: The Next Frontier for Innovation, Competition, and Productivity) // McKinsey Global Institute, май 2011 года.
4
«Большие данные» – большие возможности (CEO Advisory: “Big Data” Equals Big Opportunity) // Gartner, 31 марта 2011 года.