Агент обучения с подкреплением градиента политики
Алгоритм градиента политики (PG) является онлайновым, методом обучения с подкреплением на политике без моделей. Агент PG является основанным на политике агентом обучения с подкреплением, который использует алгоритм REINFORCE, чтобы непосредственно вычислить оптимальную политику, которая максимизирует долгосрочное вознаграждение. Пространство действий может быть или дискретным или непрерывным.
Для получения дополнительной информации об агентах PG и алгоритме REINFORCE, смотрите Агентов Градиента политики. Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Агентов Обучения с подкреплением.
создает агента градиента политики для среды с заданным наблюдением и спецификациями действия, с помощью опций инициализации по умолчанию. Представления актёра и критика в агенте используют глубокие нейронные сети по умолчанию, созданные из спецификации наблюдений agent = rlPGAgent(observationInfo,actionInfo)observationInfo и спецификация действия actionInfo.
создает агента градиента политики для среды с заданным наблюдением и спецификациями действия. Агент использует сети по умолчанию, в которых каждый скрытый полносвязный слой имеет количество модулей, заданных в agent = rlPGAgent(observationInfo,actionInfo,initOpts)initOpts объект. Агенты градиента политики не поддерживают рекуррентные нейронные сети. Для получения дополнительной информации об опциях инициализации смотрите rlAgentInitializationOptions.
создает агента PG с заданной сетью агента. По умолчанию, agent = rlPGAgent(actor)UseBaseline свойством агента является false в этом случае.
создает агента PG и устанавливает agent = rlPGAgent(___,agentOptions)AgentOptions свойство к agentOptions входной параметр. Используйте этот синтаксис после любого из входных параметров в предыдущих синтаксисах.
train | Обучите агентов обучения с подкреплением в заданной среде |
sim | Симулируйте обученных агентов обучения с подкреплением в заданной среде |
getAction | Получите действие из агента или представления актера, данного наблюдения среды |
getActor | Получите представление актера от агента обучения с подкреплением |
setActor | Установите представление актера агента обучения с подкреплением |
getCritic | Получите представление критика от агента обучения с подкреплением |
setCritic | Установите представление критика агента обучения с подкреплением |
generatePolicyFunction | Создайте функцию, которая оценивает обученную политику агента обучения с подкреплением |
Для непрерывных пространств действий, rlPGAgent агент не осуществляет ограничения, установленные спецификацией действия, таким образом, необходимо осуществить ограничения пространства действий в среде.
Deep Network Designer | rlAgentInitializationOptions | rlPGAgentOptions | rlStochasticActorRepresentation | rlValueRepresentation