Агент обучения с подкреплением градиента политики
Алгоритм градиента политики (PG) является онлайновым, методом обучения с подкреплением на политике без моделей. Агент PG является основанным на политике агентом обучения с подкреплением, который непосредственно вычисляет оптимальную политику, которая максимизирует долгосрочное вознаграждение. Пространство действий может быть или дискретным или непрерывным.
Для получения дополнительной информации об агентах PG смотрите Агентов Градиента политики. Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Агентов Обучения с подкреплением.
создает агента градиента политики для среды с заданным наблюдением и спецификациями действия, с помощью опций инициализации по умолчанию. Представления актёра и критика в агенте используют глубокие нейронные сети по умолчанию, созданные из спецификации наблюдений agent
= rlPGAgent(observationInfo
,actionInfo
)observationInfo
и спецификация действия actionInfo
.
создает агента градиента политики для среды с заданным наблюдением и спецификациями действия. Агент использует сети по умолчанию, в которых каждый скрытый полносвязный слой имеет количество модулей, заданных в agent
= rlPGAgent(observationInfo
,actionInfo
,initOpts
)initOpts
объект. Агенты градиента политики не поддерживают рекуррентные нейронные сети. Для получения дополнительной информации об опциях инициализации смотрите rlAgentInitializationOptions
.
создает агента PG с заданной сетью агента. По умолчанию, agent
= rlPGAgent(actor
)UseBaseline
свойством агента является false
в этом случае.
создает агента PG и устанавливает agent
= rlPGAgent(___,agentOptions
)AgentOptions
свойство к agentOptions
входной параметр. Используйте этот синтаксис после любого из входных параметров в предыдущих синтаксисах.
train | Обучите агентов обучения с подкреплением в заданной среде |
sim | Симулируйте обученных агентов обучения с подкреплением в заданной среде |
getAction | Получите действие из агента или представления актера, данного наблюдения среды |
getActor | Получите представление актера от агента обучения с подкреплением |
setActor | Установите представление актера агента обучения с подкреплением |
getCritic | Получите представление критика от агента обучения с подкреплением |
setCritic | Установите представление критика агента обучения с подкреплением |
generatePolicyFunction | Создайте функцию, которая оценивает обученную политику агента обучения с подкреплением |
Для непрерывных пространств действий, rlPGAgent
агент не осуществляет ограничения, установленные спецификацией действия, таким образом, необходимо осуществить ограничения пространства действий в среде.
Deep Network Designer | rlAgentInitializationOptions
| rlPGAgentOptions
| rlStochasticActorRepresentation
| rlValueRepresentation