Агент обучения с подкреплением с градиентом политики
Алгоритм градиента политики (PG) является онлайновым методом обучения с подкреплением без моделей и без политики. Агент PG является агентом обучения с подкреплением на основе политики, который использует алгоритм REINFORCE, чтобы непосредственно вычислить оптимальную политику, которая максимизирует долгосрочное вознаграждение. Пространство действий может быть дискретным или непрерывным.
Дополнительные сведения об агентах PG и алгоритме REINFORCE см. в разделе Агенты градиента политики. Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Reinforcement Learning Agents.
создает агент градиента политики для окружения с заданным наблюдением и спецификаций действия, используя опции инициализации по умолчанию. Представления актёра и критика в агенте используют глубокие нейронные сети по умолчанию, созданные из спецификации наблюдений agent
= rlPGAgent(observationInfo
,actionInfo
)observationInfo
и спецификация действия actionInfo
.
создает агент градиента политики для окружения с заданным наблюдением и спецификаций действия. Агент использует сети по умолчанию, в которых каждый скрытый полностью соединенный слой имеет количество модулей, заданное в agent
= rlPGAgent(observationInfo
,actionInfo
,initOpts
)initOpts
объект. Агенты градиента политики не поддерживают рекуррентные нейронные сети. Для получения дополнительной информации об опциях инициализации смотрите rlAgentInitializationOptions
.
создает агента PG с указанной сетью актёра. По умолчанию в agent
= rlPGAgent(actor
)UseBaseline
свойство агента false
в этом случае.
создает агента PG и устанавливает agent
= rlPGAgent(___,agentOptions
)AgentOptions
свойство для agentOptions
входной параметр. Используйте этот синтаксис после любого из входных параметров в предыдущих синтаксисах.
train | Обучите агентов обучения с подкреплением в заданном окружении |
sim | Симулируйте обученных агентов обучения с подкреплением в заданном окружении |
getAction | Получите действие от агента или представления актера заданных наблюдений окружения |
getActor | Получите представление актера от агента обучения с подкреплением |
setActor | Установите представление актера агента обучения с подкреплением |
getCritic | Получите представление критика от агента обучения с подкреплением |
setCritic | Установите представление критика агента обучения с подкреплением |
generatePolicyFunction | Создайте функцию, которая оценивает обученную политику агента обучения с подкреплением |
Для непрерывных пространств действий, rlPGAgent
агент не применяет ограничения, заданные спецификацией действия, поэтому необходимо применять ограничения пространства действий в окружении.
Deep Network Designer | rlAgentInitializationOptions
| rlPGAgentOptions
| rlStochasticActorRepresentation
| rlValueRepresentation