Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики. Билл Фрэнкс
врасплох и остались далеко позади. Речь идет не только о таких модных новых индустриях, как электронная коммерция. Уже сейчас в публикациях, на конференциях и в других источниках приводятся убедительные примеры прорыва, в том числе компаний, работающих в скучных, старых и тяжеловесных отраслях. Мы расскажем об этом в главах 2 и 3.
Ваша организация должна начать процесс освоения больших данных уже сейчас. Пока что, если вы до сих пор игнорировали большие данные, то лишь упустили возможность быть в авангарде. Сегодня вы еще можете оказаться впереди всех. А если будете оставаться в стороне, через несколько лет окажетесь далеко позади. Если ваша организация уже занимается сбором данных и использует анализ в процессе принятия решений, то переход к большим данным не будет проблемой. Это просто расширение той деятельности, которой вы занимаетесь сегодня.
Фактически решение об использовании больших данных не должно стать проблемой. Большинство организаций уже подходят к сбору и анализу данных как к одной из основных частей своей стратегии. Хранилища данных, отчетность и анализ используются повсеместно. Если организация понимает, что данные представляют собой ценность, работа с большими данными будет лишь расширением ее деятельности. Не позволяйте скептикам убедить вас в том, что исследование больших данных не стоит затраченных усилий, или что их ценность еще не доказана, или что это слишком рискованно. Те же самые доводы помешали бы прогрессу, достигнутому за последние несколько десятилетий в области анализа данных. Обратите внимание сомневающихся на то, что работа с большими данными – это лишь продолжение того, что организация уже делает. Большие данные не представляют собой чего-то принципиально нового, и их не следует бояться.
Структура больших данных
В этой книге часто говорится о том, что данные могут быть структурированными, неструктурированными, полуструктурированными или даже мультиструктурированными. Большие данные нередко описываются как неструктурированные, а традиционные данные – как структурированные. Однако границы между ними не столь ясны, как можно понять из названия. Рассмотрим три типа структуры данных с точки зрения неспециалиста. Технические детали выходят за рамки данной книги.
Большая часть традиционных источников данных – полностью структурированные. Это означает, что традиционные источники предоставляют данные в четко предопределенном формате. Он не меняется день ото дня или в зависимости от обновления. В случае торговли акциями в первом поле может указываться дата в формате ДД/ММ/ГГГГ. Далее может идти 12-значный номер счета. Затем может быть указан символ акции, состоящий из трех-пяти знаков. И т. д. Каждый фрагмент используемой информации известен заранее, представлен в определенном формате и подчинен определенному порядку. Это облегчает работу.
Источники неструктурированных данных –