Двойная задержка глубокого детерминированного усиления градиента политики обучающий агент
Алгоритм с двойным отложенным глубоким детерминированным градиентом политики (DDPG) - это метод обучения, не содержащий моделей, онлайн, вне политики, который вычисляет оптимальную политику, которая максимизирует долгосрочное вознаграждение. Пространство действий может быть только непрерывным.
Использовать rlTD3Agent для создания одного из следующих типов агентов.
Агент с двойным отложенным глубоким детерминированным градиентом политики (TD3) с двумя функциями Q-значения. Этот агент предотвращает переоценку функции значения, изучая две функции значения Q и используя минимальные значения для обновления политики.
Задержанный глубокий детерминированный агент градиента политики (задержанный DDPG) с одной функцией значения Q. Этот агент представляет собой агент DDPG со сглаживанием целевой политики и отложенными обновлениями политики и цели.
Дополнительные сведения см. в разделе Агенты градиента глубоких детерминированных политик с двойной задержкой. Дополнительные сведения о различных типах агентов обучения усилению см. в разделе Агенты обучения усилению.
создает агент TD3 для среды с заданными спецификациями наблюдения и действий, используя параметры инициализации по умолчанию. Представления актера и критика в агенте используют глубокие нейронные сети по умолчанию, построенные из спецификации наблюдения agent = rlTD3Agent(observationInfo,actionInfo)observationInfo и спецификацию действия actionInfo.
создает глубокий детерминированный агент градиента политики для среды с заданными спецификациями наблюдения и действия. Агент использует сети по умолчанию, настроенные с помощью параметров, указанных в agent = rlTD3Agent(observationInfo,actionInfo,initOpts)initOpts объект. Дополнительные сведения о параметрах инициализации см. в разделе rlAgentInitializationOptions.
создает агент TD3 и задает agent = rlTD3Agent(___,agentOptions)AgentOptions к свойству agentOptions входной аргумент. Используйте этот синтаксис после любого из входных аргументов в предыдущих синтаксисах.
train | Подготовка обучающих агентов по усилению в определенной среде |
sim | Моделирование обученных агентов по обучению подкреплению в определенной среде |
getAction | Получить действие от агента или актора при наблюдении за окружающей средой |
getActor | Получение представления актера от обучающего агента усиления |
setActor | Задать представление актора обучающего агента усиления |
getCritic | Получение критического представления от агента обучения усиления |
setCritic | Задать критическое представление агента обучения усилению |
generatePolicyFunction | Создание функции, оценивающей обученную политику усиления агента обучения |
Конструктор глубоких сетей | rlAgentInitializationOptions | rlDeterministicActorRepresentation | rlQValueRepresentation | rlTD3AgentOptions