Задержанный близнецами глубоко детерминированный агент обучения с подкреплением градиента политики
Задержанный близнецами алгоритм глубоко детерминированного градиента политики (DDPG) является критиком агента, онлайновый, метод обучения с подкреплением вне политики без моделей, который вычисляет оптимальную политику, которая максимизирует долгосрочное вознаграждение.
Используйте rlTD3Agent
создать один из следующих типов агентов.
Задержанный близнецами глубоко детерминированный градиент политики (TD3) агент с двумя Q-функциями-ценности. Этот агент предотвращает переоценку функции ценности путем изучения двух функций ценности Q и использования минимальных значений в обновлениях политики.
Задержанный глубоко детерминированный градиент политики (задержал DDPG), агент с одной функцией ценности Q. Этот агент является агентом DDPG с целевым сглаживанием политики и задержанной политикой и целевыми обновлениями.
Для получения дополнительной информации смотрите Задержанный Близнецами Глубоко Детерминированные Агенты Градиента политики.
Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Агентов Обучения с подкреплением.
создает агента с заданными представлениями актёра и критика и устанавливает agent
= rlTD3Agent(actor
,critics
,agentOptions
)AgentOptions
свойство. Создать a:
Агент TD3, задайте двухэлементный вектор-строку из представлений критика.
Задержанный агент DDPG, задайте одно представление критика.
train | Обучите агента обучения с подкреплением в заданной среде |
sim | Симулируйте обученного агента обучения с подкреплением в заданной среде |
getActor | Получите представление актера от агента обучения с подкреплением |
setActor | Установите представление актера агента обучения с подкреплением |
getCritic | Получите представление критика от агента обучения с подкреплением |
setCritic | Установите представление критика агента обучения с подкреплением |
generatePolicyFunction | Создайте функцию, которая оценивает обученную политику агента обучения с подкреплением |