Агент обучения с подкреплением градиента политики
Алгоритм градиента политики (PG) является онлайновым, методом обучения с подкреплением на политике без моделей. Агент PG является основанным на политике агентом обучения с подкреплением, который непосредственно вычисляет оптимальную политику, которая максимизирует долгосрочное вознаграждение.
Для получения дополнительной информации об агентах PG смотрите Агентов Градиента политики.
Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Агентов Обучения с подкреплением.
создает агента PG с заданной сетью агента. По умолчанию, agent
= rlPGAgent(actor
)UseBaseline
свойством агента является false
в этом случае.
создает агента PG и устанавливает agent
= rlPGAgent(___,agentOptions
)AgentOptions
свойство.
train | Обучите агента обучения с подкреплением в заданной среде |
sim | Симулируйте обученного агента обучения с подкреплением в заданной среде |
getActor | Получите представление актера от агента обучения с подкреплением |
setActor | Установите представление актера агента обучения с подкреплением |
getCritic | Получите представление критика от агента обучения с подкреплением |
setCritic | Установите представление критика агента обучения с подкреплением |
generatePolicyFunction | Создайте функцию, которая оценивает обученную политику агента обучения с подкреплением |