Цифровая эра ИИ. Дионис Бит

Цифровая эра ИИ - Дионис Бит


Скачать книгу
Это и есть сигнал ошибки».

      Александр вспомнил свой разговор с Денисом неделю назад. Тот говорил про какие-то Q-функции в обучении с подкреплением, но тогда это казалось абстрактной математикой. А теперь эти же функции на лекции про мозг…

      «Получается, наш мозг – это такая биологическая система машинного обучения?» – робко спросил он.

      «Скорее наоборот – современные системы машинного обучения во многом копируют принципы работы мозга. Смотрите», – Анна начала быстро писать на доске:

      Q (s,a) = R + γ * max (Q (s’,a’))

      «Это базовая формула Q-learning (метод машинного обучения с подкреплением). Она описывает, как агент учится принимать оптимальные решения методом проб и ошибок. R – это немедленное вознаграждение, γ (гамма) – фактор обесценивания будущих наград, а max (Q (s’,a’)) – максимальная ожидаемая награда в будущем».

      «Как в шахматах? Оценка текущего хода с учётом будущей позиции?» – воодушевлённо отметил Александр.

      «Почти! Но есть принципиальная разница между тем, как считает компьютер и как думает человек», – Анна сделала паузу. «Компьютер в шахматах перебирает тысячи вариантов каждую секунду. А когда гроссмейстер смотрит на доску, он просто видит правильный ход. Это то, что мы называем интуицией».

      Она подошла ближе к доске. «Представьте, что каждую ночь, когда вы спите, ваш мозг запускает миллионы симуляций возможных ситуаций. Он проигрывает сценарии: что случится, если я сделаю то или это? Каждый раз, когда вы принимаете решение наяву, вы опираетесь на опыт этих виртуальных симуляций».

      «Древние люди, увидев тень в кустах, не проводили статистический анализ вероятности появления хищника. Их мозг уже проиграл тысячи подобных сценариев и выработал моментальную реакцию – беги или сражайся. Те, чей мозг работал медленнее, просто не выжили. Поэтому мы все сегодня обладаем этой удивительной способностью – учиться на опыте, которого у нас никогда не было в реальности».

      «Хм, как-то это сложно», – с неким разочарованием проговорил Александр.

      «Анна Евгеньевна, это мой знакомый Александр, он предприниматель, у него свой бар», – проговорила Мария, посмотрев сначала на Александра, потом на Анну Ким.

      «О, ресторатор! Это интересно. Давайте я попробую объяснить

      Q-функции на примере бара», – вдруг воодушевлённо проговорила Анна Евгеньевна и начала записывать на доске схему с пояснениями.

      Пример: Официант в кафе

      Ситуация:

      – У вас есть выбор между обслуживанием двух типов столиков: у окна и в центре зала.

      – Вы не знаете, какие столики дают больше чаевых, но можете учиться на опыте.

      Параметры:

      Состояния (s): «Свободен для выбора столика»

      Действия (a): «Обслужить столик у окна» (a = 0)

      или «Обслужить столик в центре» (a = 1)

      Награда (r): Чаевые, которые


Скачать книгу