Усиленное обучение. Джеймс Девис
определенного действия в текущем состоянии.
В явном виде модель переходов может быть представлена в виде функции, которая принимает на вход текущее состояние и выбранное действие, а затем возвращает вероятностное распределение или конкретные состояния, в которые агент может попасть. Например, в игре на шахматной доске модель переходов может определять, какие состояния могут возникнуть после каждого возможного хода фигур.
Однако в реальных задачах часто сложно или невозможно задать явную функцию переходов. В таких случаях модель переходов может быть обучена на основе опыта агента, используя данные о предыдущих взаимодействиях с окружающей средой. Например, в задаче управления роботом модель переходов может быть обучена на основе данных о движении робота и его реакции на внешние воздействия.
Давайте представим простой пример использования модели переходов в контексте игры на шахматной доске.
Предположим, у нас есть шахматная доска, и агент (шахматная программа или игрок) хочет предсказать, в какие состояния он может попасть после совершения определенного хода. В этом случае модель переходов определяет вероятности перехода между состояниями (расположениями фигур на доске) в результате выполнения определенного действия (хода фигурой).
Конец ознакомительного фрагмента.
Текст предоставлен ООО «Литрес».
Прочитайте эту книгу целиком, купив полную легальную версию на Литрес.
Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.