Машинное обучение доступным языком. Елена Капаца

Машинное обучение доступным языком - Елена Капаца


Скачать книгу
rel="nofollow" href="#_6.jpg"/>

      (sequence data) Состоят из набора отдельных объектов, таких как слова или буквы. Здесь нет временных меток; вместо этого есть позиции в упорядоченной последовательности:

      На картинке справа яркий пример: геном – набор генов в хромосоме.

      Пространственные данные

      (geospatial data) Здесь каждая точка имеет координаты:

      Трафик аэропортов США

      Изображения

      Здесь единицей является отдельная картинка. Видео рассматривается как набор картинок.

      Датасет рукописных цифр

      Перед дата-сайентистами часто встает вопрос: где взять данные?

      Студентам проще: у некоторых обширных библиотек вроде Scikit-learn встречаются собственные встроенные датасеты, прекрасно подходящие для обучения:

      from sklearn.datasets import load_digits

      digits = load_digits()

      Помимо таких встроенных коллекций, данные предоставляют бесплатно еще и ресурсы вроде kaggle.com.

      А вот на рабочей ниве требования к информации куда специфичнее. Порой проще и лучше собрать свой набор, и в таком случае мы обращаемся к инструментам ETL.

      ETL

      (extract, transform, load – извлечь, преобразовать и загрузить) группа процессов, происходящих при переносе данных из нескольких систем в одно хранилище.

      Если у вас есть данные из нескольких источников, вам необходимо:

      • Извлекать данные из исходного источника

      • Преобразовывать информацию путем очистки, объединения и других способов подготовки

      • Загружать результат в целевое хранилище

      Как правило, один инструмент ETL выполняет все три шага. Пожалуй, самый популярный сегодня представитель такого программного обеспечения – это Hadoop.

      ETL уходит своими корнями в 1970-е годы к появлению централизованных хранилищ данных. Но только в конце 1980-х и начале 1990-х годов, когда они заняли центральное место, мир ощутил потребность в специализированных загрузочных инструментах. Первым пользователям нужен был способ извлекать информацию из разрозненных систем, преобразовывать ее в целевой формат и загружать в конечное место хранения. Первые инструменты ETL были примитивными, и объем данных, которые они обрабатывали, был скромным по сегодняшним меркам.

      По мере роста объема данных росли и хранилища данных, а программные инструменты ETL множились и становились все более сложными. Но до конца 20-го века хранение и преобразование данных осуществлялось в основном в локальных хранилищах. Однако произошло нечто, навсегда изменившее наш взгляд на хранение и обработку.

      Облачные вычисления

      Объем данных, которые мы генерируем и собираем, продолжает расти с экспоненциальной скоростью. У нас есть все более сложные инструменты, которые позволяют нам использовать все наши данные для получения представления о исследуемом предмете в режиме онлайн.

      Традиционная инфраструктура не может масштабироваться для хранения и обработки большого объема данных. Это неэффективно с точки зрения затрат. Если мы хотим выполнять высокоскоростную, сложную аналитику и строить подобные модели, облако – оптимальное решение.

      Облачные хранилища могут


Скачать книгу