Агент обучения с подкреплением получает наблюдения и вознаграждение от окружения. Используя свою политику, агент выбирает действие на основе наблюдений и вознаграждения и отправляет действие в окружение. Во время обучения агент постоянно обновляет параметры политики на основе действия, наблюдений и вознаграждения. Это позволяет агенту научиться оптимальной политике при заданных окружении и сигнале вознаграждения.
Пакет Reinforcement Learning Toolbox™ предоставляет агентов обучения с подкреплением, которые используют несколько общих алгоритмов, таких как SARSA, DQN, DDPG и A2C. Можно также реализовать другие алгоритмы агента путем создания собственных агентов.
Для получения дополнительной информации смотрите Агентов Обучения с подкреплением. Для получения дополнительной информации об определении представлений политики смотрите, Создают Представления Функции ценности и политика.
Агенты обучения с подкреплением
Можно создать агента с помощью одного из нескольких стандартных алгоритмов обучения с подкреплением или описать собственного агента.
Создайте агентов Q-обучения для обучения с подкреплением.
Создайте агентов SARSA для обучения с подкреплением.
Создайте агентов DQN для обучения с подкреплением.
Создайте агентов PG для обучения с подкреплением.
Глубоко детерминированные агенты градиента политики
Создайте агентов DDPG для обучения с подкреплением.
Задержанный близнецами глубоко детерминированные агенты градиента политики
Создайте агентов DDPG для обучения с подкреплением.
Создайте агентов AC для обучения с подкреплением.
Ближайшие агенты оптимизации политики
Создайте агентов PPO для обучения с подкреплением.
Создайте агентов SAC для обучения с подкреплением.
Создайте агентов, которые используют пользовательские алгоритмы обучения с подкреплением.