Алгоритмы машинного обучения: базовый курс. Тайлер Венс

Алгоритмы машинного обучения: базовый курс - Тайлер Венс


Скачать книгу
и, например, 95% писем в ней не являются спамом, модель может просто запомнить, что большинство случаев – это «не спам», и начать ошибаться на реальных данных.

      Чтобы модель работала хорошо, важно тщательно подготавливать обучающую выборку: удалять ошибки, исключать нерелевантные данные, следить за тем, чтобы примеры были разнообразными и представляли разные варианты возможных ситуаций. Чем лучше подготовлены данные, тем точнее и надежнее будет модель, а значит, и ее предсказания окажутся более полезными.

      Тестовая выборка (test set)

      Тестовая выборка играет решающую роль в оценке качества модели после завершения её обучения. Это набор данных, который не использовался во время процесса обучения и предназначен для проверки того, насколько хорошо модель способна применять полученные знания к новым, незнакомым примерам. Если модель справляется с тестовой выборкой, это значит, что она действительно научилась выявлять закономерности, а не просто запомнила ответы из обучающего набора.

      Для того чтобы тестирование было объективным, тестовая выборка должна быть полностью независимой от обучающей. Если модель сталкивалась с теми же примерами во время обучения, проверка становится бессмысленной: в таком случае она просто воспроизведет уже знакомые ей ответы, но это не скажет ничего о её способности обрабатывать новые данные. Настоящая задача машинного обучения – уметь делать прогнозы для ситуаций, с которыми модель ранее не сталкивалась, поэтому тестовая выборка должна включать примеры, позволяющие проверить именно это умение.

      Хороший способ понять суть тестовой выборки – сравнить её с экзаменом. Когда студент готовится к экзамену, он изучает учебный материал и решает задачи из учебника, запоминая принципы их решения. Но на самом экзамене ему предлагаются совершенно новые задачи, которые он раньше не видел. Если он действительно понял материал, он сможет их решить, даже если они отличаются от тех, что были в учебнике. Если же он просто заучил решения конкретных примеров, но не понял сути, то на экзамене он растеряется и не сможет справиться с новыми задачами.

      С моделью машинного обучения происходит то же самое. Если она слишком сильно запомнила обучающие данные, но не научилась их обобщать, она провалит тестирование. Это называется переобучением – модель становится слишком привязанной к обучающему набору и плохо справляется с новыми данными. Именно поэтому тестирование на независимой выборке является обязательным этапом, который позволяет выявить, насколько модель действительно готова к практическому применению.

Как правильно разделить данные?

      Разделение данных на обучающую, тестовую и, при необходимости, валидационную выборки – это важный этап машинного обучения, который напрямую влияет на качество модели. Если данные распределены неправильно, модель может либо не получить достаточно информации для обучения, либо оказаться плохо протестированной, что приведёт к некорректным предсказаниям на реальных


Скачать книгу