Цифровая эра ИИ. Дионис Бит

Цифровая эра ИИ

Это и есть сигнал ошибки».

Александр вспомнил свой разговор с Денисом неделю назад. Тот говорил про какие-то Q-функции в обучении с подкреплением, но тогда это казалось абстрактной математикой. А теперь эти же функции на лекции про мозг…

«Получается, наш мозг – это такая биологическая система машинного обучения?» – робко спросил он.

«Скорее наоборот – современные системы машинного обучения во многом копируют принципы работы мозга. Смотрите», – Анна начала быстро писать на доске:

Q (s,a) = R + γ * max (Q (s’,a’))

«Это базовая формула Q-learning (метод машинного обучения с подкреплением). Она описывает, как агент учится принимать оптимальные решения методом проб и ошибок. R – это немедленное вознаграждение, γ (гамма) – фактор обесценивания будущих наград, а max (Q (s’,a’)) – максимальная ожидаемая награда в будущем».

«Как в шахматах? Оценка текущего хода с учётом будущей позиции?» – воодушевлённо отметил Александр.

«Почти! Но есть принципиальная разница между тем, как считает компьютер и как думает человек», – Анна сделала паузу. «Компьютер в шахматах перебирает тысячи вариантов каждую секунду. А когда гроссмейстер смотрит на доску, он просто видит правильный ход. Это то, что мы называем интуицией».

Она подошла ближе к доске. «Представьте, что каждую ночь, когда вы спите, ваш мозг запускает миллионы симуляций возможных ситуаций. Он проигрывает сценарии: что случится, если я сделаю то или это? Каждый раз, когда вы принимаете решение наяву, вы опираетесь на опыт этих виртуальных симуляций».

«Древние люди, увидев тень в кустах, не проводили статистический анализ вероятности появления хищника. Их мозг уже проиграл тысячи подобных сценариев и выработал моментальную реакцию – беги или сражайся. Те, чей мозг работал медленнее, просто не выжили. Поэтому мы все сегодня обладаем этой удивительной способностью – учиться на опыте, которого у нас никогда не было в реальности».

«Хм, как-то это сложно», – с неким разочарованием проговорил Александр.

«Анна Евгеньевна, это мой знакомый Александр, он предприниматель, у него свой бар», – проговорила Мария, посмотрев сначала на Александра, потом на Анну Ким.

«О, ресторатор! Это интересно. Давайте я попробую объяснить

Q-функции на примере бара», – вдруг воодушевлённо проговорила Анна Евгеньевна и начала записывать на доске схему с пояснениями.

Пример: Официант в кафе

Ситуация:

– У вас есть выбор между обслуживанием двух типов столиков: у окна и в центре зала.

– Вы не знаете, какие столики дают больше чаевых, но можете учиться на опыте.

Параметры:

Состояния (s): «Свободен для выбора столика»

Действия (a): «Обслужить столик у окна» (a = 0)

или «Обслужить столик в центре» (a = 1)

Награда (r): Чаевые, которые

Скачать книгу