Алгоритмы машинного обучения: базовый курс. Тайлер Венс
шум, выбросы или нелинейные зависимости, что может затруднить получение точных предсказаний.
В отличие от линейной регрессии, которая применяется для предсказания числовых значений, логистическая регрессия используется для задач классификации, где требуется определить, к какому классу относится объект. Например, если нужно предсказать, купит ли пользователь товар в интернет-магазине, то модель принимает во внимание такие параметры, как частота посещений сайта, средний чек предыдущих покупок и время, проведённое на странице товара. Вместо предсказания конкретного числа, как в линейной регрессии, логистическая регрессия выдаёт вероятность того, что объект принадлежит к определённому классу.
Основная особенность логистической регрессии заключается в том, что выходные значения ограничены диапазоном от 0 до 1, что делает этот метод особенно удобным для задач бинарной классификации. Например, в задаче медицинской диагностики модель может предсказывать вероятность наличия заболевания у пациента на основе его симптомов и анализов. Если вероятность выше определённого порога, пациента относят к группе с повышенным риском, если ниже – к здоровой группе.
Хотя логистическая регрессия является инструментом для классификации, она лучше всего работает в случаях, когда классы хорошо разделимы с помощью линейной границы. Если данные имеют сложную структуру или включают сильно пересекающиеся группы, точность модели может снижаться. В таких случаях могут потребоваться более сложные методы, такие как нейросети или градиентный бустинг, но логистическая регрессия остаётся хорошей отправной точкой, благодаря своей интерпретируемости и эффективности на больших наборах данных.
Линейная и логистическая регрессия – это универсальные инструменты, которые можно применять в самых разных задачах: от предсказания продаж в бизнесе до медицинской диагностики и анализа пользовательского поведения. Их простота, скорость обучения и интерпретируемость делают их важной частью арсенала аналитиков данных и специалистов по машинному обучению.
Разберем два примера: первый – применение линейной регрессии для предсказания стоимости квартиры, второй – использование логистической регрессии для классификации пассажиров «Титаника» на выживших и погибших.
Пример 1: Линейная регрессия для предсказания стоимости квартиры
Допустим, у нас есть данные о квартирах, включая площадь, количество комнат и удаленность от центра города. Наша цель – предсказать стоимость квартиры на основе этих параметров.
Шаг 1: Загрузка данных и подготовка
Сначала установим необходимые библиотеки и загрузим данные.
```python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error
# Создадим искусственный