Алгоритмы машинного обучения: базовый курс. Тайлер Венс

Алгоритмы машинного обучения: базовый курс

Скачать книгу

цены на 800 тысяч рублей.

– MSE (Mean Squared Error) – похожая метрика, но возводит разницу в квадрат, чтобы сильнее наказывать большие ошибки.

Если ошибки слишком большие, значит, модель недостаточно точна и, возможно, ей нужно больше данных или другие признаки.

Шаг 7: Визуализация результатов

Давайте построим график, чтобы посмотреть, насколько хорошо модель предсказывает цены.

```python

# График: реальные vs предсказанные цены

plt.scatter(y_test, y_pred)

plt.xlabel("Реальные цены (млн рублей)")

plt.ylabel("Предсказанные цены (млн рублей)")

plt.title("Сравнение реальных и предсказанных цен")

plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], color='red', linestyle='–')

plt.show()

```

Красная линия – это идеальный результат (предсказания совпадают с реальными значениями). Если точки расположены близко к ней, значит, модель хорошо справляется с предсказаниями.

Выводы

Мы прошли все основные шаги работы с линейной регрессией:

1. Подготовили данные и разделили их на обучающую и тестовую выборки.

2. Обучили модель на обучающих данных.

3. Посмотрели коэффициенты, которые нашла модель.

4. Сделали предсказания на тестовых данных.

5. Оценили качество предсказаний с помощью метрик.

6. Визуализировали результаты.

Если модель показывает хорошие результаты, её можно использовать для предсказания цен квартир на новых данных. Если же ошибки слишком большие, стоит попробовать добавить больше признаков (например, учитывать год постройки, тип дома или транспортную доступность) или использовать более сложные методы, такие как полиномиальная регрессия или градиентный бустинг.

Метрики оценки качества моделей

После того как модель машинного обучения обучена, необходимо понять, насколько хорошо она справляется со своей задачей. Для этого используются **метрики качества** – числовые показатели, которые помогают объективно оценить, насколько точны предсказания модели.

Выбор метрики зависит от типа задачи:

– Для регрессии (предсказание числовых значений, например, стоимости квартиры) применяются метрики, измеряющие разницу между предсказанными и реальными значениями.

– Для классификации (определение принадлежности объекта к одной из категорий, например, спам/не спам) используются метрики, оценивающие долю правильных ответов модели.

Метрики для задач регрессии

В задачах регрессии важно, насколько предсказанные значения близки к реальным. Рассмотрим основные метрики.

Средняя абсолютная ошибка (MAE – Mean Absolute Error)

MAE показывает, насколько в среднем предсказанное значение отличается от реального.

Пример: Если MAE = 50000 рублей, это значит, что в среднем цена квартиры, предсказанная моделью, отличается от настоящей на 50 тысяч рублей.

Как вычисляется:

– Находится разница между каждым предсказанным и реальным значением.

– Берётся абсолютное значение разницы (чтобы ошибки не компенсировали друг друга).

– Все ошибки усредняются.

Пример кода:

```python

from sklearn.metrics import mean_absolute_error

y_real = [3.5, 5.2, 6.8, 7.1, 9.3] # Реальные цены

y_pred

Скачать книгу