Риски цифровизации: виды, характеристика, уголовно-правовая оценка. Коллектив авторов
в сообщения смысл. Впрочем, Twitter вызывает сомнения и как источник изначально достоверных данных. А если невысока исходная достоверность их сбор и анализ бесполезны.
Следующий пример относится к использованию данных систем глобальной навигации: часто GPS рассчитывает недостоверные координаты местоположения, особенно при размещении приемника в городских районах. Спутниковые сигналы теряются и искажаются, когда они отражаются от высоких зданий или других сооружений. Как единственный источник данных спутники сами по себе недостоверны. Для повышения качества данные о местоположении следует объединить со сведениями из других источников данных, например, с данными акселерометра или сигналами вышек сотовой связи.
Технологии систем Больших данных. Базовыми технологиями систем Big Data являются технологии сбора, анализа и представления данных.
Технологии сбора:
– смешение и интеграция данных (data fusion and integration) – набор техник для интеграции разнородных данных из разнообразных источников в целях анализа (например, обработка естественного языка, включая анализ настроения говорящего – тональности высказывания);
– краудсорсинг – привлечение широкого и заранее не определенного круга лиц для повышения ценности данных без вступления в трудовые отношения с этими лицами.
Технологии анализа:
– прогнозная аналитика – выявление закономерностей в имеющихся данных, помощь в оценке происходящих процессов и прогнозирование дальнейших событий;
– классификация – отнесение объекта к группе по определенному признаку;
– кластерный анализ – автоматизированное формирование сравнительно однородных групп и отнесение к ним объектов (например, по ряду поведенческих факторов можно выяснить намерение человека украсть что-либо: на основании схемы перемещения покупателя по торговому центру определить, что его поведение не является обычным и предотвратить кражу);
– регрессионный анализ – выявление вероятных последствий (например, можно смоделировать дорожные аварии как последствия сочетания скорости, дорожных условий, погоды, трафика);
– обучение ассоциативным правилам – определение непрямых зависимостей (например, рост количества покупок спичек при покупке мяса, но только в случае приобретения маринада);
– пространственный анализ (Spatial analysis) – класс методов с использованием топологической, геометрической и географической информации для обоснования градостроительных решений;
– машинное обучение – применение программ, которые независимо от человека самомодифицируются на основании обрабатываемых данных;
– классический статистический анализ;
– получение комплексных прогнозов на основе базовых моделей;
– создание самомодифицируемых систем, сходных по структуре с головным мозгом человека.
Технологии представления данных. К ним относится визуализация аналитических