Нейросети: создание и оптимизация будущего. Джеймс Девис
Для числовых прогнозов (например, предсказание стоимости, температуры и т.п.):
Используется метод, который особенно "чувствителен" к большим отклонениям – он усиливает влияние значительных ошибок, так что сеть быстрее начнёт "учиться" их исправлять. Например, если сеть сильно ошибается в предсказании цены, ошибка будет большой, а это заставит сеть сильнее корректировать свои параметры в нужную сторону.
2. Для задач классификации (например, когда нужно определить класс: "кошки" или "собаки"):
Здесь используется другая стратегия, которая сосредотачивается на точности вероятностей. Если сеть уверена, что перед ней "кошка", но это не так, ошибка будет очень большой, поскольку ошибка для уверенного прогноза наказывается сильнее, чем для "неуверенного". Это помогает быстрее адаптировать сеть к верным ответам в задачах классификации, где важна не только верность предсказания, но и уверенность в нём.
Процесс расчёта ошибки
На выходном слое сеть "узнаёт" о своей ошибке, сравнивая свои прогнозы с реальными значениями. Эта информация – численное значение ошибки – станет основой для последующих шагов. Она показывает, в каком направлении и насколько нужно изменить внутренние параметры сети, чтобы в будущем её предсказания стали ближе к реальным данным. Этот первый этап задаёт "курс" для корректировок на всех других слоях.
2. Вычисление градиентов на выходном слое
После того как на выходном слое нейронной сети подсчитана ошибка, следующим шагом становится определение, какие именно внутренние параметры (веса) повлияли на это отклонение. Чтобы сеть могла исправить свои прогнозы, нужно понять, каким образом каждый вес в её структуре связан с ошибкой на выходе. Этот процесс называется вычислением градиентов.
Зачем нужны градиенты?
Градиенты можно представить как числовые индикаторы, показывающие, как сильно изменится ошибка на выходе, если чуть-чуть изменить конкретный вес. По сути, это направление и "степень" корректировки, которую нужно внести в каждый вес, чтобы сеть лучше соответствовала правильным ответам. Например, если изменение какого-то веса сильно повлияет на ошибку, его градиент будет большим, и сеть при обучении сделает на него больший "акцент".
Роль производной в вычислении градиентов
Чтобы найти связь между каждым весом и ошибкой, используется производная функции ошибки по значению каждого выхода сети. Производная показывает, насколько чувствительна ошибка к небольшому изменению веса. Когда ошибка невелика, производная тоже мала, указывая, что этот вес уже приближен к нужному значению. Если же ошибка велика, производная будет больше, намекая на необходимость более значительных корректировок. Процесс начинается с выходного слоя, где оценивается влияние весов, связанных с этим слоем, на общую ошибку.
Как градиенты помогают в обучении
Зная величины градиентов для каждого веса, сеть получает "инструкцию" по тому, как именно изменить каждый параметр, чтобы ошибка уменьшилась.