Агент обучения с подкреплением SARSA
Алгоритм SARSA является онлайновым, методом обучения с подкреплением на политике без моделей. Агент SARSA является основанным на значении агентом обучения с подкреплением, который обучает критика оценивать возврат или будущие вознаграждения.
Для получения дополнительной информации об агентах SARSA см. Агентов SARSA.
Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Агентов Обучения с подкреплением.
создает агента SARSA с заданной сетью критика и устанавливает agent
= rlSARSAAgent(critic
,agentOptions
)AgentOptions
свойство.
train | Обучите агентов обучения с подкреплением в заданной среде |
sim | Симулируйте обученных агентов обучения с подкреплением в заданной среде |
getAction | Получите действие из агента или представления актера, данного наблюдения среды |
getActor | Получите представление актера от агента обучения с подкреплением |
setActor | Установите представление актера агента обучения с подкреплением |
getCritic | Получите представление критика от агента обучения с подкреплением |
setCritic | Установите представление критика агента обучения с подкреплением |
generatePolicyFunction | Создайте функцию, которая оценивает обученную политику агента обучения с подкреплением |