Data Science для новичков. Руслан Назаров
подкаст. Если можете своими словами объяснить, значит хорошо все поняли.
17. Не бойтесь, что вы медленно учитесь. Главное учиться.
18. Найдите хобби. Пускай ваше хобби будет способом отвлечься от учебы. Это тоже необходимо. Умейте отдыхать! Возьмите пару недель или месяц, чтобы отдохнуть. Пока вы отдыхаете, мозг приводит ваши знания в порядок и находит неожиданные связи.
Глава 1. Подготовка данных
Data Science содержит три больших отдела:
1) получение и подготовка данных;
2) статистическая обработка данных;
3) машинное обучение.
Статистическая обработка нацелена на:
1) описание сгруппированных данных (медиана, среднее и т.п.);
2) описание взаимодействия между различными группами данных (корреляция и т.п.).
Другими словами, статистическая обработка требует понять данные, а значит и те реальные процессы, которые стоят за данными. Это важно учитывать. В конечном счете моя задача не просто получить корреляцию, а понять данные. Что это означает? Во-первых, я должен проверять как корреляцию, так и другие статистики, на вменяемость, на соответствие действительности. Во-вторых, именно в действительности я должен искать подсказки, какие тесты применить, какие метрики получить. Так, например, понимание данных можно получить и из других источников, не только за счет применения статистических тестов. Можно сделать предположения о процессах, отраженных в данных, на основании опыта, а уже затем проверить предположения с помощью статистики. Важно помнить, что математика – это только язык, который используют, чтобы описать действительность. Не надо подменять математикой саму действительность.
Машинное обучение нацелено на создание алгоритма, который позволит предсказывать целевой признак на основании заданных признаков в автоматизированном режиме. Другими словами, статистическая обработка позволяет понять процессы, а машинное обучение – предсказать процессы.
Однако начинается все с предварительной подготовки данных. В самом деле, если не подготовить данные, не убрать пропуски, дубликаты и т.п., то это повлияет на качество как статистической обработки, так и машинного обучения (или даже не позволит их выполнить). В этом разделе я займусь именно подготовкой данных.
Подготовка данных включает, но не ограничивается, следующие элементы:
1) проверка правильности формирования индекса, наименования столбцов (признаков). Например, может быть обнаружено, что в наименовании столбцов есть лишние пробелы;
2) проверка типа данных. Например, численные данные могут быть отмечены как объекты или наоборот;
3) поиск дубликатов;
4) очистка строковых данных от лишних символов. Например, наличие слэша там, где это очевидно неуместно;
5) обработка значений, которые очевидно являются ошибочными. Например, в столбце с количеством страниц