Агент обучения с подкреплением получает наблюдения и вознаграждение средой. Используя его политику, агент выбирает действие на основе наблюдений и вознаграждения, и отправляет действие в среду. Во время обучения агент постоянно обновляет параметры политики на основе действия, наблюдений и вознаграждения. Выполнение так, позволяет агенту изучать оптимальную политику для данной среды и сигнала вознаграждения.
Пакет Reinforcement Learning Toolbox™ обеспечивает агентов обучения с подкреплением, которые используют несколько общих алгоритмов, таких как SARSA, DQN, DDPG и A2C. Можно также реализовать другие алгоритмы агента путем создания собственных агентов. Для получения дополнительной информации смотрите Агентов Обучения с подкреплением.
Для получения дополнительной информации об определении представлений политики смотрите, Создают политику и Представления Функции Значения.
Агенты обучения с подкреплением
Можно создать агента с помощью одного из нескольких стандартных алгоритмов обучения с подкреплением или задать собственного агента.
Создайте агентов Q-изучения для обучения с подкреплением.
Создайте агентов SARSA для обучения с подкреплением.
Создайте агентов DQN для обучения с подкреплением.
Глубоко детерминированные агенты градиента политики
Создайте агентов DDPG для обучения с подкреплением.
Создайте агентов PG для обучения с подкреплением.
Создайте агентов AC для обучения с подкреплением.
Ближайшие агенты оптимизации политики
Создайте агентов PPO для обучения с подкреплением.
Создайте агентов, которые используют пользовательские алгоритмы обучения с подкреплением.