Агент обучения с подкреплением Q-обучения
Алгоритм Q-обучения является онлайновым методом обучения с подкреплением без моделей и без политики. Агент Q-обучения является агентом обучения с подкреплением на базе ценностей, который обучает критика оценивать текущее или будущее вознаграждения.
Для получения дополнительной информации об агентах Q-обучения см. Раздел «Агенты Q-обучения».
Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Reinforcement Learning Agents.
создает агента Q-обучения с заданной сетью критика и устанавливает agent
= rlQAgent(critic
,agentOptions
)AgentOptions
свойство.
train | Обучите агентов обучения с подкреплением в заданном окружении |
sim | Симулируйте обученных агентов обучения с подкреплением в заданном окружении |
getAction | Получите действие от агента или представления актера заданных наблюдений окружения |
getActor | Получите представление актера от агента обучения с подкреплением |
setActor | Установите представление актера агента обучения с подкреплением |
getCritic | Получите представление критика от агента обучения с подкреплением |
setCritic | Установите представление критика агента обучения с подкреплением |
generatePolicyFunction | Создайте функцию, которая оценивает обученную политику агента обучения с подкреплением |