Ближайший агент обучения с подкреплением оптимизации политики
Ближайшая оптимизация политики (PPO) является без моделей, онлайн, на политике, методом обучения с подкреплением градиента политики. Этот алгоритм чередуется между выборкой данных через экологическое взаимодействие и оптимизацией отсеченной суррогатной целевой функции с помощью стохастического градиентного спуска.
Для получения дополнительной информации об агентах PPO смотрите Ближайших Агентов Оптимизации политики.
Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Агентов Обучения с подкреплением.
создает агента ближайшей оптимизации политики (PPO) с заданным агентом и сетями критика и устанавливает agent
= rlPPOAgent(actor
,critic
,agentOptions
)AgentOptions
свойство.
train | Обучите агента обучения с подкреплением в заданной среде |
sim | Симулируйте обученного агента обучения с подкреплением в заданной среде |
getActor | Получите представление актера от агента обучения с подкреплением |
setActor | Установите представление актера агента обучения с подкреплением |
getCritic | Получите представление критика от агента обучения с подкреплением |
setCritic | Установите представление критика агента обучения с подкреплением |
generatePolicyFunction | Создайте функцию, которая оценивает обученную политику агента обучения с подкреплением |