Цифровая эра ИИ. Дионис Бит
Это и есть сигнал ошибки».
Александр вспомнил свой разговор с Денисом неделю назад. Тот говорил про какие-то Q-функции в обучении с подкреплением, но тогда это казалось абстрактной математикой. А теперь эти же функции на лекции про мозг…
«Получается, наш мозг – это такая биологическая система машинного обучения?» – робко спросил он.
«Скорее наоборот – современные системы машинного обучения во многом копируют принципы работы мозга. Смотрите», – Анна начала быстро писать на доске:
Q (s,a) = R + γ * max (Q (s’,a’))
«Это базовая формула Q-learning (метод машинного обучения с подкреплением). Она описывает, как агент учится принимать оптимальные решения методом проб и ошибок. R – это немедленное вознаграждение, γ (гамма) – фактор обесценивания будущих наград, а max (Q (s’,a’)) – максимальная ожидаемая награда в будущем».
«Как в шахматах? Оценка текущего хода с учётом будущей позиции?» – воодушевлённо отметил Александр.
«Почти! Но есть принципиальная разница между тем, как считает компьютер и как думает человек», – Анна сделала паузу. «Компьютер в шахматах перебирает тысячи вариантов каждую секунду. А когда гроссмейстер смотрит на доску, он просто видит правильный ход. Это то, что мы называем интуицией».
Она подошла ближе к доске. «Представьте, что каждую ночь, когда вы спите, ваш мозг запускает миллионы симуляций возможных ситуаций. Он проигрывает сценарии: что случится, если я сделаю то или это? Каждый раз, когда вы принимаете решение наяву, вы опираетесь на опыт этих виртуальных симуляций».
«Древние люди, увидев тень в кустах, не проводили статистический анализ вероятности появления хищника. Их мозг уже проиграл тысячи подобных сценариев и выработал моментальную реакцию – беги или сражайся. Те, чей мозг работал медленнее, просто не выжили. Поэтому мы все сегодня обладаем этой удивительной способностью – учиться на опыте, которого у нас никогда не было в реальности».
«Хм, как-то это сложно», – с неким разочарованием проговорил Александр.
«Анна Евгеньевна, это мой знакомый Александр, он предприниматель, у него свой бар», – проговорила Мария, посмотрев сначала на Александра, потом на Анну Ким.
«О, ресторатор! Это интересно. Давайте я попробую объяснить
Q-функции на примере бара», – вдруг воодушевлённо проговорила Анна Евгеньевна и начала записывать на доске схему с пояснениями.
Пример: Официант в кафе
Ситуация:
– У вас есть выбор между обслуживанием двух типов столиков: у окна и в центре зала.
– Вы не знаете, какие столики дают больше чаевых, но можете учиться на опыте.
Параметры:
Состояния (s): «Свободен для выбора столика»
Действия (a): «Обслужить столик у окна» (a = 0)
или «Обслужить столик в центре» (a = 1)
Награда (r): Чаевые, которые