Data Science для новичков. Руслан Назаров
что известно как «проклятие размерности».
Глава 2. Статистическое исследование
Введение
Статистическое исследование данных может быть осуществлено двумя основными способами – это либо классический статистический анализ, либо то, что известно как Exploratory Data Analysis (EDA).
Понять отличие можно по следующим схемам.
Классический анализ идет по схеме: Проблема => Данные => Модель => Анализ => Выводы. В свою очередь EDA строится чуть иначе: Проблема => Данные => Анализ => Модель => Выводы.
Отличие в том, что в классическом подходе сначала идет модель, а затем анализ, а в EDA сначала анализ данных, а затем уже модель. Другими словами, классический анализ как бы навязывает определенную модель данным, в то время как EDA пытается по данным определить, какая модель больше подходит.
Как итог, в EDA больше используют графики, например гистограммы, ящики с усами и т. п. Классический же подход больше использует тесты, проверку гипотез. Например, это ANOVA, t-tests, chi-squared tests, и F-tests.
В этой методичке я использую элементы каждого из подходов. Поэтому я провожу деление всех способов статистического анализа на:
1) количественные (тестирование гипотез, анализ распределения и прочее);
2) графические (гистограммы, скаттерплоты и прочее).
Вот типичные вопросы, на которые старается ответить статистический анализ данных:
1) Какие значения являются типичными?
2) Каким распределением можно описать данные?
3) Как данный фактор влияет на целевой признак?
4) Какие факторы самые важные?
5) Есть ли в данных выбросы?
Важно всегда помнить, что большинство способов статанализа предполагает, что данные получены случайным образом. Если это предположение не выполняется, то результаты тестов, модели перестают быть достоверными.
Теперь еще раз, но уже больше с привязкой к данным. Статанализ (математическая статистика) работает с данными. Но что такое данные? Как правило, данные – это совокупность строк и столбцов. Пускай их будет только два. Вот такие например.
Что я могу с этим сделать? Как я могу «раскрутить», «покрутить» эти данные? Я могу, например, заинтересоваться только одним из столбцов. Какое среднее значение? А как отличаются от среднего фактические значения? Насколько вероятно появление одного из значений или нового значения? Но меня может заинтересовать и взаимодействие столбцов. Если растет значение в одном столбце, то растет ли значение в другом? Связаны ли эти столбцы? И если связаны, то насколько сильно? И вот еще что важно. Данные по Goodreads, которые я здесь использую, – это только небольшая выборка всех книг, изданных в мире. Поэтому те данные, которые видны выше на рисунке, – это тоже только выборка из генеральной совокупности. А раз так, то стоит также задача оценить по этим выборочным данным генеральную совокупность (или же наоборот, если известны характеристики генеральной совокупности).
Все это можно сделать со столбцами. И математическая статистика как раз