Глубоко детерминированный агент обучения с подкреплением градиента политики
Алгоритм глубоко детерминированного градиента политики (DDPG) является критиком агента, онлайновый, метод обучения с подкреплением вне политики без моделей, который вычисляет оптимальную политику, которая максимизирует долгосрочное вознаграждение. Пространство действий может только быть непрерывным.
Для получения дополнительной информации смотрите Глубоко Детерминированных Агентов Градиента политики. Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Агентов Обучения с подкреплением.
создает глубокого детерминированного агента градиента политики для среды с заданным наблюдением и спецификациями действия, с помощью опций инициализации по умолчанию. Представления актёра и критика в агенте используют глубокие нейронные сети по умолчанию, созданные из спецификации наблюдений agent
= rlDDPGAgent(observationInfo
,actionInfo
)observationInfo
и спецификация действия actionInfo
.
создает глубокого детерминированного агента градиента политики для среды с заданным наблюдением и спецификациями действия. Агент использует сети по умолчанию, сконфигурированные с помощью опций, заданных в agent
= rlDDPGAgent(observationInfo
,actionInfo
,initOpts
)initOpts
объект. Для получения дополнительной информации об опциях инициализации смотрите rlAgentInitializationOptions
.
создает агента DDPG и устанавливает agent
= rlDDPGAgent(___,agentOptions
)AgentOptions
свойство к agentOptions
входной параметр. Используйте этот синтаксис после любого из входных параметров в предыдущих синтаксисах.
train | Обучите агентов обучения с подкреплением в заданной среде |
sim | Симулируйте обученных агентов обучения с подкреплением в заданной среде |
getAction | Получите действие из агента или представления актера, данного наблюдения среды |
getActor | Получите представление актера от агента обучения с подкреплением |
setActor | Установите представление актера агента обучения с подкреплением |
getCritic | Получите представление критика от агента обучения с подкреплением |
setCritic | Установите представление критика агента обучения с подкреплением |
generatePolicyFunction | Создайте функцию, которая оценивает обученную политику агента обучения с подкреплением |
rlAgentInitializationOptions
| rlDDPGAgentOptions
| rlQValueRepresentation
| rlDeterministicActorRepresentation
| Deep Network Designer