Агент изучения укрепления получает наблюдения и вознаграждение от среды. Используя его политику, агент выбирает действие на основе наблюдений и вознаграждения, и отправляет действие в среду. Во время обучения агент постоянно обновляет параметры политики на основе действия, наблюдений и вознаграждения. Выполнение так, позволяет агенту изучать оптимальную политику для данной среды и премиального сигнала.
Программное обеспечение Reinforcement Learning Toolbox™ обеспечивает агенты изучения укрепления, которые используют несколько общих алгоритмов, таких как SARSA, DQN, DDPG и A2C. Можно также реализовать другие алгоритмы агента путем создания собственных агентов. Для получения дополнительной информации смотрите, что Укрепление Изучает Агенты.
Для получения дополнительной информации об определении представлений политики смотрите, Создают политику и Представления Функции Значения.
Можно создать агент с помощью одного из нескольких стандартных алгоритмов изучения укрепления или задать собственный агент.
Создайте агенты Q-изучения для изучения укрепления.
Создайте агенты SARSA для изучения укрепления.
Создайте агенты DQN для изучения укрепления.
Глубоко детерминированные агенты градиента политики
Создайте агенты DDPG для изучения укрепления.
Создайте агенты PG для изучения укрепления.
Создайте агенты AC для изучения укрепления.
Создайте агенты, которые используют пользовательские алгоритмы изучения укрепления.