Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики. Билл Фрэнкс
определенной логике. В них присутствуют поля, разделители и значения, как и в структурированном источнике. При этом они не согласованы друг с другом и не представляют собой набор. Текст журнала, сгенерированный только что щелчком кнопкой мыши на сайте, может быть длиннее или короче, чем текст, сгенерированный щелчком кнопкой мыши на другой странице минуту назад. И все-таки необходимо понять, что полуструктурированные данные не лишены логики. Вполне возможно найти взаимосвязь между различными их фрагментами – просто это потребует больше усилий, чем в случае со структурированными данными.
Профессиональных аналитиков больше тревожат неструктурированные данные, чем полуструктурированные. Возможно, им придется побороться с полуструктурированными данными, чтобы подчинить их своей воле, но они это сделают. Они смогут привести полуструктурированные данные в хорошо структурированную форму и включить в свои аналитические процессы. По-настоящему неструктурированные данные приручить гораздо сложнее, и это будет оставаться головной болью для организаций по мере того, как они будут учиться справляться с полуструктурированными данными.
Исследование больших данных
Начать работу с большими данными несложно. Просто соберите их и поручите команде аналитиков вашей организации разобраться в том, чем они могут быть вам полезны. Для начала не понадобится обеспечивать постоянный поток данных. Все, что вам нужно, – это позволить аналитической команде применить свои инструменты и подходы к некоторому набору данных, чтобы они могли начать процесс исследования. Это именно то, чем занимаются аналитики и ученые в области науки о данных.
Существует старое правило: 70–80 % времени уходит на сбор и подготовку данных и только 20–30 % – на их анализ. В начале работы с большими данными можно ожидать более низких значений. Вероятно, в самом начале аналитики будут тратить 95 %, если не все 100 %, времени только на то, чтобы разобраться в источнике данных, прежде чем они смогут решить, как его следует анализировать.
Важно понимать, что это нормально. Выяснение того, что собой представляет источник данных, – важная часть процесса анализа. Это, может быть, и скучновато, однако итеративная загрузка данных[4], изучение того, как они выглядят, а также настройка процесса загрузки с целью более точного извлечения нужных данных критически важны. Без выполнения этих действий невозможно перейти к самому процессу анализа.
Чтобы решить, как использовать источник больших данных на благо своего бизнеса, придется потратить немало усилий. Аналитики и их работодатели должны подумать, как обеспечить небольшие быстрые достижения. Это продемонстрирует организации прогресс и обеспечит поддержку дальнейших действий. Такие достижения могут генерировать солидную отдачу от инвестиций.
Процесс выявления ценных фрагментов больших данных и определение наилучшего способа их извлечения
4
Итеративная загрузка данных (от англ. iteration – повторение) – выполнение загрузки данных параллельно с непрерывным анализом полученных результатов и корректировкой предыдущих этапов работы.