Агенты

Создайте и сконфигурируйте агентов обучения с подкреплением с помощью общих алгоритмов, таких как SARSA, DQN, DDPG и A2C

Агент обучения с подкреплением получает наблюдения и вознаграждение от окружения. Используя свою политику, агент выбирает действие на основе наблюдений и вознаграждения и отправляет действие в окружение. Во время обучения агент постоянно обновляет параметры политики на основе действия, наблюдений и вознаграждения. Это позволяет агенту научиться оптимальной политике при заданных окружении и сигнале вознаграждения.

Пакет Reinforcement Learning Toolbox™ предоставляет агентов обучения с подкреплением, которые используют несколько общих алгоритмов, таких как SARSA, DQN, DDPG и A2C. Можно также реализовать другие алгоритмы агента путем создания собственных агентов. Для получения дополнительной информации смотрите Агентов Обучения с подкреплением.

Для получения дополнительной информации об определении представлений политики смотрите, Создают Представления Функции ценности и политика.

Функции

развернуть все

rlQAgentАгент обучения с подкреплением Q-изучения
rlSARSAAgentАгент обучения с подкреплением SARSA
rlDQNAgentГлубокий агент обучения с подкреплением Q-сети
rlPGAgentАгент обучения с подкреплением градиента политики
rlDDPGAgentГлубоко детерминированный агент обучения с подкреплением градиента политики
rlTD3AgentЗадержанный близнецами глубоко детерминированный агент обучения с подкреплением градиента политики
rlACAgentАгент обучения с подкреплением критика агента
rlPPOAgentБлижайший агент обучения с подкреплением оптимизации политики
rlQAgentOptionsОпции для агента Q-обучения
rlSARSAAgentOptionsОпции для агента SARSA
rlDQNAgentOptionsОпции для агента DQN
rlPGAgentOptionsОпции для агента градиента политики
rlDDPGAgentOptionsОпции для агента DDPG
rlTD3AgentOptionsОпции для агента TD3
rlACAgentOptionsОпции для агента AC
rlPPOAgentOptionsОпции для ближайшего агента обучения с подкреплением оптимизации политики
getActorПолучите представление актера от агента обучения с подкреплением
getCriticПолучите представление критика от агента обучения с подкреплением
setActorУстановите представление актера агента обучения с подкреплением
setCriticУстановите представление критика агента обучения с подкреплением
getActionПолучите действие из агента или представления актера, данного наблюдения среды

Темы

Агенты обучения с подкреплением

Можно создать агента с помощью одного из нескольких стандартных алгоритмов обучения с подкреплением или описать собственного агента.

Агенты Q-обучения

Создайте агентов Q-обучения для обучения с подкреплением.

Агенты SARSA

Создайте агентов SARSA для обучения с подкреплением.

Глубокие агенты Q-сети

Создайте агентов DQN для обучения с подкреплением.

Агенты градиента политики

Создайте агентов PG для обучения с подкреплением.

Глубоко детерминированные агенты градиента политики

Создайте агентов DDPG для обучения с подкреплением.

Задержанный близнецами глубоко детерминированные агенты градиента политики

Создайте агентов DDPG для обучения с подкреплением.

Агенты критика агента

Создайте агентов AC для обучения с подкреплением.

Ближайшие агенты оптимизации политики

Создайте агентов PPO для обучения с подкреплением.

Пользовательские агенты

Создайте агентов, которые используют пользовательские алгоритмы обучения с подкреплением.