Big data изменяют Китай. Цзыпэй Ту
от этой точки зрения, источники данных – это уже не только измерения реальности, но и её регистрация. Таким образом, в информационную эру добавился ещё один источник данных – регистрация.
С её наступлением данные стали синонимом информации, и оба слова могут использоваться как взаимозаменяемые. Несмотря на то, что, например, письмо содержит много информации, с технической точки зрения она может представлять собой «единицу данных». Сфера «Данные» в современном толковании шире, чем сфера «Информация» (показано на рисунке 1.3).
Рисунок 1.3. Категории современных данных
Наряду с расширением внутреннего содержания понятия и созданием баз данных возникло ещё одно важное явление – непрерывное увеличение объёма данных, происходящее при этом с постоянно нарастающей скоростью.
Для описания названного феномена в 80-е годы ХХ века один американский специалист предложил использовать понятие «большие данные». И хотя в то время эпоха «большого взрыва данных» ещё не началась, некоторые специалисты были способны предсказать, что вслед за прогрессом информационных технологий важность программного обеспечения будет снижаться, а важность данных, напротив, возрастать. В те годы определение «большой», как и в случае с выражениями «большой человек», «большой шаг», главным образом имело ценностное значение. В 21 веке, особенно после возникновения социальных медиа в 2004 году, объём данных начал увеличиваться как при большом взрыве: как показывают данные компании International Data Corporation (IDC), в период с 2011 по 2018 годы объём общемировых данных увеличился в 18 раз, и вопрос формулировки понятия «большие данные» снова попал в поле зрения широких масс и привлёк к себе пристальное внимание. В этот период значение определения «большой» стало ещё более широким и указывало и на большой объём, и на большую ценность.
И всё же насколько большие данные могут называться «большими»? За десять с небольшим прошедших лет по этому вопросу велось огромное множество споров. Ответ на него в первую очередь связан с размерами единиц измерения данных. В 2000 году, как правило, считалось, что большие данные – это данные, измеряющиеся в терабайтах. В тот период предприятий, где использовались бы данные терабайтного порядка, было представлена текстами, изображениями и музыкой, стал настолько велик, что традиционным предприятиям было бы немыслимо достичь того же уровня.
УГЛУБЛЁННЫЙ ВЗГЛЯД
Разберёмся в нескольких важных единицах хранения информации
Одна песня со стандартным качеством звука – это 4 мегабайта (Мб).
Один фильм со стандартным качеством графики – это 1 гигабайт (Гб, 1 гигабайт = 1024 мегабайтам, то есть размер фильма равен размеру 250 песен со стандартным качеством звука).
Книжный фонд обычной библиотеки – это 1 терабайт (Тб, 1 терабайт = 1024 гигабайтам, это размер 1024 фильмов со стандартным качеством графики).
В действительности лавинообразное увеличение объёма самых разнообразных