Доверительный агент обучения с подкреплением оптимизации политики области
Доверительная оптимизация политики области (TRPO) является без моделей, онлайн, на политике, методом обучения с подкреплением градиента политики. Этот алгоритм предотвращает значительные отбрасывания эффективности по сравнению со стандартными градиентными методами политики путем хранения обновленной политики в доверительной области близко к текущей политике. Пространство действий может быть или дискретным или непрерывным.
Для получения дополнительной информации об агентах TRPO смотрите Доверительных Агентов Оптимизации политики области. Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Агентов Обучения с подкреплением.
создает агента доверительной оптимизации политики области (TRPO) для среды с заданным наблюдением и спецификациями действия, с помощью опций инициализации по умолчанию. Представления актёра и критика в агенте используют глубокие нейронные сети по умолчанию, созданные из спецификации наблюдений agent = rlTRPOAgent(observationInfo,actionInfo)observationInfo и спецификация действия actionInfo.
создает агента TRPO для среды с заданным наблюдением и спецификациями действия. Агент использует сети по умолчанию, сконфигурированные с помощью опций, заданных в agent = rlTRPOAgent(observationInfo,actionInfo,initOpts)initOpts объект. Агенты TRPO не поддерживают рекуррентные нейронные сети. Для получения дополнительной информации об опциях инициализации смотрите rlAgentInitializationOptions.
создает агента TRPO и устанавливает свойство AgentOptions на agent = rlTRPOAgent(___,agentOptions)agentOptions входной параметр. Используйте этот синтаксис после любого из входных параметров в предыдущих синтаксисах.
train | Обучите агентов обучения с подкреплением в заданной среде |
sim | Симулируйте обученных агентов обучения с подкреплением в заданной среде |
getAction | Получите действие из агента или представления актера, данного наблюдения среды |
getActor | Получите представление актера от агента обучения с подкреплением |
setActor | Установите представление актера агента обучения с подкреплением |
getCritic | Получите представление критика от агента обучения с подкреплением |
setCritic | Установите представление критика агента обучения с подкреплением |
generatePolicyFunction | Создайте функцию, которая оценивает обученную политику агента обучения с подкреплением |
Для непрерывных пространств действий этот агент не осуществляет ограничения, установленные спецификацией действия. В этом случае необходимо осуществить ограничения пространства действий в среде.
В то время как настройка скорости обучения сети агента необходима для агентов PPO, это не необходимо для агентов TRPO.
Для высоко-размерных наблюдений, такой что касается изображений, рекомендуется использовать PPO, SAC или агентов TD3.
rlTRPOAgentOptions | rlStochasticActorRepresentation | rlValueRepresentation | Deep Network Designer