Data Science для новичков. Руслан Назаров
издательства, но и вкусы читателей. Во-вторых, категориальные признаки позволяют разбить объекты на группы, скажем можно разбить книги по языку, и уже внутри каждой группы посмотреть оценки, количество страниц. Эта возможность ставит дополнительные задачи. Например, категории не должны быть слишком маленькими, так как невозможно будет доверять результатам. Например, если у меня по какому-то языку только две книги, то определить среднюю я смогу, но эта средняя может быть слишком далека от истинного значения. Надо помнить, что в статистике всегда руководствуются законом больших чисел.
Ниже я приведу несколько способов агрегирования (группировки) данных.
Визуальный анализ
Визуальный анализ используют для того, чтобы «схватить» какие-то гипотезы на данных. Визуально человеку проще это сделать. Однако надо помнить, что размещение слишком большого количества данных на графике уменьшает этот эффект простоты. Например, на одном графике можно точками отразить распределение по двум признакам, сюда же добавить третий признак цветом точек, четвертый – размером точек, пятый – их формой. Но такой график будет крайне сложно прочитать, а значит и смысл в визуализации теряется.
Здесь я хочу установить следующее:
1) вид распределения целевого признака – средняя оценка;
2) наличие выбросов по количественным признакам;
3) наличие взаимосвязи между признаками;
4) соотношение категориальных данных там, где это уместно.
Ниже рассмотрю графики распределений.
В учебнике для инженеров выделяется четыре главных типа графиков:
1. график последовательного выполнения;
2. график задержки;
3. гистограмма;
4. график нормального распределения.
Подробнее прочитать о каждом типе графиков можно здесь (https://www.itl.nist.gov/div898/handbook/eda/section3/4plot.htm). Как выбрать необходимый тип графика можно понять из рисунка:
Ниже я рассмотрю только важные для моих задач графики.
Сейчас я разберу, что такое функция распределения. Это имеет важное значение для понимания видов распределения и их смысла. Все начинается с функции распределения. Вот формальное определение:
«Функцией распределения называют функцию F (x), определяющую вероятность того, что случайная величина X в результате испытания примет значение, меньшее x» (Гмурман, ст. 111).
А вот геометрический образ функции распределения:
«F (x) есть вероятность того, что случайная величина примет значение, которое изображается на числовой оси точкой, лежащей левее точки x» (Гмурман).
Выше показан график функции распределения. Как его правильно читать? Проведу из произвольной точки на оси x перпендикуляр. Точка пересечения перпендикуляра с графиком даст значение y – вероятность того, что моя произвольная точка примет значение равное или меньшее x. Например, беру оценку 4. Вижу, что вероятность