Агент обучения с подкреплением с двумя задержками в глубоком детерминировании политики
Алгоритм глубокого детерминированного градиента политики (DDPG) с двумя задержками является онлайновым методом обучения с подкреплением без моделей и без политики, который вычисляет оптимальную политику, максимизирующую долгосрочное вознаграждение. Пространство действий может быть только непрерывным.
Использовать rlTD3Agent
для создания одного из следующих типов агентов.
Агент с двумя задержками глубокой детерминированной политики (TD3) с двумя функциями Q-значения. Этот агент предотвращает переоценку функции ценности, изучая две функции ценности Q-значений и используя минимальные значения для обновлений политики.
Задержанный агент глубокого детерминированного градиента политики (DDPG с задержкой) с одним Q- функции ценности. Этот агент является агентом DDPG с целевым сглаживанием политики и отложенными обновлениями политики и цели.
Для получения дополнительной информации смотрите Twin-Delayed Deep Deterministic Policy Gradient Agents. Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Reinforcement Learning Agents.
создает агента TD3 для окружения с заданным наблюдением и спецификаций действия, используя опции инициализации по умолчанию. Представления актёра и критика в агенте используют глубокие нейронные сети по умолчанию, созданные из спецификации наблюдений agent
= rlTD3Agent(observationInfo
,actionInfo
)observationInfo
и спецификация действия actionInfo
.
создает глубокий детерминированный агент градиента политики для окружения с заданным наблюдением и спецификаций действия. Агент использует сети по умолчанию, настроенные с помощью опций, заданных в agent
= rlTD3Agent(observationInfo
,actionInfo
,initOpts
)initOpts
объект. Для получения дополнительной информации об опциях инициализации смотрите rlAgentInitializationOptions
.
создает агента TD3 и устанавливает agent
= rlTD3Agent(___,agentOptions
)AgentOptions
свойство для agentOptions
входной параметр. Используйте этот синтаксис после любого из входных параметров в предыдущих синтаксисах.
train | Обучите агентов обучения с подкреплением в заданном окружении |
sim | Симулируйте обученных агентов обучения с подкреплением в заданном окружении |
getAction | Получите действие от агента или представления актера заданных наблюдений окружения |
getActor | Получите представление актера от агента обучения с подкреплением |
setActor | Установите представление актера агента обучения с подкреплением |
getCritic | Получите представление критика от агента обучения с подкреплением |
setCritic | Установите представление критика агента обучения с подкреплением |
generatePolicyFunction | Создайте функцию, которая оценивает обученную политику агента обучения с подкреплением |
Deep Network Designer | rlAgentInitializationOptions
| rlDeterministicActorRepresentation
| rlQValueRepresentation
| rlTD3AgentOptions