Глубокая детерминированная политика градиентного усиления обучающий агент
Алгоритм глубокого детерминированного градиента политики (DDPG) - это метод обучения с усилением политики без модели, онлайн, вне политики, который вычисляет оптимальную политику, которая максимизирует долгосрочное вознаграждение. Пространство действий может быть только непрерывным.
Дополнительные сведения см. в разделе Агенты градиента глубокой детерминированной политики. Дополнительные сведения о различных типах агентов обучения усилению см. в разделе Агенты обучения усилению.
создает глубокий детерминированный агент градиента политики для среды с заданными спецификациями наблюдения и действия, используя параметры инициализации по умолчанию. Представления актера и критика в агенте используют глубокие нейронные сети по умолчанию, построенные из спецификации наблюдения agent = rlDDPGAgent(observationInfo,actionInfo)observationInfo и спецификацию действия actionInfo.
создает глубокий детерминированный агент градиента политики для среды с заданными спецификациями наблюдения и действия. Агент использует сети по умолчанию, настроенные с помощью параметров, указанных в agent = rlDDPGAgent(observationInfo,actionInfo,initOpts)initOpts объект. Дополнительные сведения о параметрах инициализации см. в разделе rlAgentInitializationOptions.
создает агент DDPG и устанавливает agent = rlDDPGAgent(___,agentOptions)AgentOptions к свойству agentOptions входной аргумент. Используйте этот синтаксис после любого из входных аргументов в предыдущих синтаксисах.
train | Подготовка обучающих агентов по усилению в определенной среде |
sim | Моделирование обученных агентов по обучению подкреплению в определенной среде |
getAction | Получить действие от агента или актора при наблюдении за окружающей средой |
getActor | Получение представления актера от обучающего агента усиления |
setActor | Задать представление актора обучающего агента усиления |
getCritic | Получение критического представления от агента обучения усиления |
setCritic | Задать критическое представление агента обучения усилению |
generatePolicyFunction | Создание функции, оценивающей обученную политику усиления агента обучения |
Конструктор глубоких сетей | rlAgentInitializationOptions | rlDDPGAgentOptions | rlDeterministicActorRepresentation | rlQValueRepresentation