rlDDPGAgent

Глубоко детерминированный агент обучения с подкреплением градиента политики

Описание

Алгоритм глубоко детерминированного градиента политики (DDPG) является критиком агента, онлайновый, метод обучения с подкреплением вне политики без моделей, который вычисляет оптимальную политику, которая максимизирует долгосрочное вознаграждение. Пространство действий может только быть непрерывным.

Для получения дополнительной информации смотрите Глубоко Детерминированных Агентов Градиента политики. Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Агентов Обучения с подкреплением.

Создание

Синтаксис

agent = rlDDPGAgent(observationInfo,actionInfo)

agent = rlDDPGAgent(observationInfo,actionInfo,initOpts)

agent = rlDDPGAgent(actor,critic,agentOptions)

agent = rlDDPGAgent(___,agentOptions)

Описание

Создайте агента из спецификаций наблюдений и спецификаций действия

пример

agent = rlDDPGAgent(observationInfo,actionInfo) создает глубокого детерминированного агента градиента политики для среды с заданным наблюдением и спецификациями действия, с помощью опций инициализации по умолчанию. Представления актёра и критика в агенте используют глубокие нейронные сети по умолчанию, созданные из спецификации наблюдений observationInfo и спецификация действия actionInfo.

пример

agent = rlDDPGAgent(observationInfo,actionInfo,initOpts) создает глубокого детерминированного агента градиента политики для среды с заданным наблюдением и спецификациями действия. Агент использует сети по умолчанию, сконфигурированные с помощью опций, заданных в initOpts объект. Для получения дополнительной информации об опциях инициализации смотрите rlAgentInitializationOptions.

Создайте агента из представлений актёра и критика

пример

agent = rlDDPGAgent(actor,critic,agentOptions) создает агента DDPG с заданным агентом и сетями критика, с помощью опций агента DDPG по умолчанию.

Задайте опции агента

agent = rlDDPGAgent(___,agentOptions) создает агента DDPG и устанавливает AgentOptions свойство к agentOptions входной параметр. Используйте этот синтаксис после любого из входных параметров в предыдущих синтаксисах.

Входные параметры

развернуть все

`observationInfo` — Спецификации наблюдений
объект спецификации | массив объектов спецификации

Спецификации наблюдений в виде спецификации обучения с подкреплением возражают или массив свойств определения объектов спецификации, таких как размерности, тип данных и имена сигналов наблюдения.

Можно извлечь observationInfo существующей средой или использованием агента getObservationInfo. Можно также создать технические требования вручную с помощью rlFiniteSetSpec или rlNumericSpec.

`actionInfo` — Спецификация действия
объект спецификации

Спецификации действия в виде объекта спецификации обучения с подкреплением определение свойств, таких как размерности, тип данных и имена сигналов действия.

Поскольку агент DDPG действует в непрерывном пространстве действий, необходимо задать actionInfo как rlNumericSpec объект.

Можно извлечь actionInfo существующей средой или использованием агента getActionInfo. Можно также создать спецификацию вручную с помощью rlNumericSpec.

`initOpts` — Опции инициализации агента
`rlAgentInitializationOptions` объект

Опции инициализации агента в виде rlAgentInitializationOptions объект.

`actor` — Представление сети Actor
`rlDeterministicActorRepresentation` объект

Представление сети Actor в виде rlDeterministicActorRepresentation. Для получения дополнительной информации о создании представлений актера смотрите, Создают Представления Функции ценности и политика.

`critic` — Представление сети Critic
`rlQValueRepesentation` объект

Представление сети Critic в виде rlQValueRepresentation объект. Для получения дополнительной информации о создании представлений критика смотрите, Создают Представления Функции ценности и политика.

Свойства

развернуть все

`AgentOptions` — Опции агента
`rlDDPGAgentOptions` объект

Опции агента в виде rlDDPGAgentOptions объект.

Если вы создаете агента DDPG с представлениями актёра и критика по умолчанию, которые используют рекуррентные нейронные сети, значение по умолчанию AgentOptions.SequenceLength 32.

`ExperienceBuffer` — Буфер опыта
`ExperienceBuffer` объект

Буфер опыта в виде ExperienceBuffer объект. Во время обучения агент хранит каждое из своих событий (S, A, R, S') в буфере. Здесь:

S является текущим наблюдением за средой.
A является мерами, принятыми агентом.
R является вознаграждением за принимающий меры A.
S' является следующим наблюдением после принимающего меры A.

Для получения дополнительной информации о как демонстрационный опыт агента от буфера во время обучения, смотрите Глубоко Детерминированных Агентов Градиента политики.

Функции объекта

`train`	Обучите агентов обучения с подкреплением в заданной среде
`sim`	Симулируйте обученных агентов обучения с подкреплением в заданной среде
`getAction`	Получите действие из агента или представления актера, данного наблюдения среды
`getActor`	Получите представление актера от агента обучения с подкреплением
`setActor`	Установите представление актера агента обучения с подкреплением
`getCritic`	Получите представление критика от агента обучения с подкреплением
`setCritic`	Установите представление критика агента обучения с подкреплением
`generatePolicyFunction`	Создайте функцию, которая оценивает обученную политику агента обучения с подкреплением

Примеры

свернуть все

Создайте агента DDPG из спецификаций наблюдений и спецификаций действия

Скрипт Open Live Script

Создайте среду с непрерывным пространством действий и получите его спецификации наблюдений и спецификации действия. В данном примере загрузите среду, используемую в примере, Обучают Агента DDPG Управлять Двойной Системой Интегратора. Наблюдение средой является вектором, содержащим положение и скорость массы. Действие является скаляром, представляющим силу, применился к массе, располагаясь постоянно от-2 к 2 Ньютон.

% load predefined environment
env = rlPredefinedEnv("DoubleIntegrator-Continuous");

% obtain observation and action specifications
obsInfo = getObservationInfo(env);
actInfo = getActionInfo(env);

Функция создания агента инициализирует агента и сети критика случайным образом. Можно гарантировать воспроизводимость путем фиксации seed случайного генератора. Для этого не прокомментируйте следующую линию.

% rng(0)

Создайте агента градиента политики из спецификаций наблюдений среды и спецификаций действия.

agent = rlDDPGAgent(obsInfo,actInfo);

Чтобы проверять вашего агента, используйте getAction возвратить действие в случайное наблюдение.

getAction(agent,{rand(obsInfo(1).Dimension)})

ans = 1x1 cell array
    {[0.0182]}

Можно теперь протестировать и обучить агента в среде.

Создайте агента DDPG Используя опции инициализации

Скрипт Open Live Script

Создайте среду с непрерывным пространством действий и получите его спецификации наблюдений и спецификации действия. В данном примере загрузите среду, используемую в примере, Обучают Агента DDPG к Swing и Маятнику Баланса с Наблюдением Изображений. Эта среда имеет два наблюдения: 50 50 полутоновое изображение и скаляр (скорость вращения маятника). Действие является скаляром, представляющим крутящий момент, располагающийся постоянно от-2 к 2 Nm.

% load predefined environment
env = rlPredefinedEnv("SimplePendulumWithImage-Continuous");

% obtain observation and action specifications
obsInfo = getObservationInfo(env);
actInfo = getActionInfo(env);

Создайте объект опции инициализации агента, указав, что каждый скрытый полносвязный слой в сети должен иметь 128 нейроны (вместо номера по умолчанию, 256).

initOpts = rlAgentInitializationOptions('NumHiddenUnit',128);

% rng(0)

Создайте агента DDPG из спецификаций наблюдений среды и спецификаций действия.

agent = rlDDPGAgent(obsInfo,actInfo,initOpts);

Уменьшайте скорость обучения критика до 1e-3.

critic = getCritic(agent);
critic.Options.LearnRate = 1e-3;
agent  = setCritic(agent,critic);

Извлеките глубокие нейронные сети и из агента агента и из критика.

actorNet = getModel(getActor(agent));
criticNet = getModel(getCritic(agent));

Отобразите слои сети критика и проверьте, что каждый скрытый полносвязный слой имеет 128 нейронов

criticNet.Layers

ans = 
  14x1 Layer array with layers:

     1   'concat'               Concatenation       Concatenation of 3 inputs along dimension 3
     2   'relu_body'            ReLU                ReLU
     3   'fc_body'              Fully Connected     128 fully connected layer
     4   'body_output'          ReLU                ReLU
     5   'input_1'              Image Input         50x50x1 images
     6   'conv_1'               Convolution         64 3x3x1 convolutions with stride [1  1] and padding [0  0  0  0]
     7   'relu_input_1'         ReLU                ReLU
     8   'fc_1'                 Fully Connected     128 fully connected layer
     9   'input_2'              Image Input         1x1x1 images
    10   'fc_2'                 Fully Connected     128 fully connected layer
    11   'input_3'              Image Input         1x1x1 images
    12   'fc_3'                 Fully Connected     128 fully connected layer
    13   'output'               Fully Connected     1 fully connected layer
    14   'RepresentationLoss'   Regression Output   mean-squared-error

Постройте сети критика и агент

plot(actorNet)

Figure contains an axes. The axes contains an object of type graphplot.

plot(criticNet)

Figure contains an axes. The axes contains an object of type graphplot.

Чтобы проверять вашего агента, используйте getAction возвратить действие в случайное наблюдение.

getAction(agent,{rand(obsInfo(1).Dimension),rand(obsInfo(2).Dimension)})

ans = 1x1 cell array
    {[-0.0364]}

Можно теперь протестировать и обучить агента в среде.

Создайте агента DDPG из агента и критика

Скрипт Open Live Script

Создайте среду с непрерывным пространством действий и получите его спецификации наблюдений и спецификации действия. В данном примере загрузите среду, используемую в примере, Обучают Агента DDPG Управлять Двойной Системой Интегратора. Наблюдение средой является вектором, содержащим положение и скорость массы. Действие является скаляром, представляющим силу, располагающуюся постоянно от-2 к 2 Ньютон.

env = rlPredefinedEnv("DoubleIntegrator-Continuous");
obsInfo = getObservationInfo(env);
actInfo = getActionInfo(env);

Создайте представление критика.

% create a network to be used as underlying critic approximator
statePath = imageInputLayer([obsInfo.Dimension(1) 1 1],'Normalization','none','Name','state');
actionPath = imageInputLayer([numel(actInfo) 1 1],'Normalization','none','Name','action');
commonPath = [concatenationLayer(1,2,'Name','concat')
             quadraticLayer('Name','quadratic')
             fullyConnectedLayer(1,'Name','StateValue','BiasLearnRateFactor', 0, 'Bias', 0)];
criticNetwork = layerGraph(statePath);
criticNetwork = addLayers(criticNetwork, actionPath);
criticNetwork = addLayers(criticNetwork, commonPath);
criticNetwork = connectLayers(criticNetwork,'state','concat/in1');
criticNetwork = connectLayers(criticNetwork,'action','concat/in2');

% set some options for the critic
criticOpts = rlRepresentationOptions('LearnRate',5e-3,'GradientThreshold',1);

% create the critic based on the network approximator
critic = rlQValueRepresentation(criticNetwork,obsInfo,actInfo,...
    'Observation',{'state'},'Action',{'action'},criticOpts);

Создайте представление актера.

% create a network to be used as underlying actor approximator
actorNetwork = [
    imageInputLayer([obsInfo.Dimension(1) 1 1],'Normalization','none','Name','state')
    fullyConnectedLayer(numel(actInfo),'Name','action','BiasLearnRateFactor',0,'Bias',0)];

% set some options for the actor
actorOpts = rlRepresentationOptions('LearnRate',1e-04,'GradientThreshold',1);

% create the actor based on the network approximator
actor = rlDeterministicActorRepresentation(actorNetwork,obsInfo,actInfo,...
    'Observation',{'state'},'Action',{'action'},actorOpts);

Задайте опции агента и создайте агента DDPG с помощью среды, агента и критика.

agentOpts = rlDDPGAgentOptions(...
    'SampleTime',env.Ts,...
    'TargetSmoothFactor',1e-3,...
    'ExperienceBufferLength',1e6,...
    'DiscountFactor',0.99,...
    'MiniBatchSize',32);
agent = rlDDPGAgent(actor,critic,agentOpts);

Чтобы проверять вашего агента, используйте getAction возвратить действие в случайное наблюдение.

getAction(agent,{rand(2,1)})

ans = 1x1 cell array
    {[-0.4719]}

Можно теперь протестировать и обучить агента в среде.

Создайте агента DDPG с рекуррентными нейронными сетями

Скрипт Open Live Script

В данном примере загрузите среду, используемую в примере, Обучают Агента DDPG Управлять Двойной Системой Интегратора. Наблюдение средой является вектором, содержащим положение и скорость массы. Действие является скаляром, представляющим силу, располагающуюся постоянно от-2 к 2 Ньютон.

env = rlPredefinedEnv("DoubleIntegrator-Continuous");

Получите информация о спецификации действия и спецификация наблюдений.

obsInfo = getObservationInfo(env);
actInfo = getActionInfo(env);

Создайте представление критика. Чтобы создать рекуррентную нейронную сеть, используйте sequenceInputLayer как входной слой и включают lstmLayer как один из других слоев сети.

statePath = sequenceInputLayer(obsInfo.Dimension(1), 'Normalization', 'none', 'Name', 'myobs');
actionPath = sequenceInputLayer(numel(actInfo), 'Normalization', 'none', 'Name', 'myact');
commonPath = [concatenationLayer(1,2,'Name','concat')
              reluLayer('Name','relu')
              lstmLayer(8,'OutputMode','sequence','Name','lstm')    
              fullyConnectedLayer(1,'Name','StateValue','BiasLearnRateFactor', 0, 'Bias', 0)];
criticNetwork = layerGraph(statePath);
criticNetwork = addLayers(criticNetwork, actionPath);
criticNetwork = addLayers(criticNetwork, commonPath);
criticNetwork = connectLayers(criticNetwork,'myobs','concat/in1');
criticNetwork = connectLayers(criticNetwork,'myact','concat/in2');

Установите некоторые опции для критика.

criticOpts = rlRepresentationOptions('LearnRate',5e-3,'GradientThreshold',1);

Создайте критика на основе сетевой аппроксимации.

critic = rlQValueRepresentation(criticNetwork,obsInfo,actInfo,...
    'Observation',{'myobs'},'Action',{'myact'},criticOpts);

Создайте представление актера.

Поскольку у критика есть текущая сеть, агент должен иметь текущую сеть также. Задайте рекуррентную нейронную сеть для агента.

actorNetwork = [
    sequenceInputLayer(obsInfo.Dimension(1), 'Normalization', 'none', 'Name', 'myobs')
    lstmLayer(8,'OutputMode','sequence','Name','lstm')
    fullyConnectedLayer(numel(actInfo), 'Name', 'myact', 'BiasLearnRateFactor', 0, 'Bias', 0)];

Установите опции агента.

actorOpts = rlRepresentationOptions('LearnRate',1e-04,'GradientThreshold',1);

Создайте агента.

actor = rlDeterministicActorRepresentation(actorNetwork,obsInfo,actInfo,...
    'Observation',{'myobs'},'Action',{'myact'},actorOpts);

Задайте опции агента и создайте агента DDPG с помощью среды, агента и критика. Чтобы использовать агента DDPG с рекуррентными нейронными сетями, необходимо задать SequenceLength больше, чем 1.

agentOpts = rlDDPGAgentOptions(...
    'SampleTime',env.Ts,...
    'TargetSmoothFactor',1e-3,...
    'ExperienceBufferLength',1e6,...
    'DiscountFactor',0.99,...
    'SequenceLength',20,...
    'MiniBatchSize',32);
agent = rlDDPGAgent(actor,critic,agentOpts);

Чтобы проверять вашего агента, используйте getAction возвратить действие в случайное наблюдение.

getAction(agent,{obsInfo.Dimension})

ans = 1x1 cell array
    {[-0.1483]}

Можно теперь протестировать и обучить агента в среде.

Темы

Введенный в R2019a

Документация

rlDDPGAgent

Описание

Создание

Синтаксис

Описание

Создайте агента из спецификаций наблюдений и спецификаций действия

Создайте агента из представлений актёра и критика

Задайте опции агента

Входные параметры

`observationInfo` — Спецификации наблюдений
объект спецификации | массив объектов спецификации

`actionInfo` — Спецификация действия
объект спецификации

`initOpts` — Опции инициализации агента
`rlAgentInitializationOptions` объект

`actor` — Представление сети Actor
`rlDeterministicActorRepresentation` объект

`critic` — Представление сети Critic
`rlQValueRepesentation` объект

Свойства

`AgentOptions` — Опции агента
`rlDDPGAgentOptions` объект

`ExperienceBuffer` — Буфер опыта
`ExperienceBuffer` объект

Функции объекта

Примеры

Создайте агента DDPG из спецификаций наблюдений и спецификаций действия

Создайте агента DDPG Используя опции инициализации

Создайте агента DDPG из агента и критика

Создайте агента DDPG с рекуррентными нейронными сетями

Смотрите также

Темы

Документация Reinforcement Learning Toolbox

Поддержка

Документация

rlDDPGAgent

Описание

Создание

Синтаксис

Описание

Создайте агента из спецификаций наблюдений и спецификаций действия

Создайте агента из представлений актёра и критика

Задайте опции агента

Входные параметры

observationInfo — Спецификации наблюдений объект спецификации | массив объектов спецификации

actionInfo — Спецификация действия объект спецификации

initOpts — Опции инициализации агента rlAgentInitializationOptions объект

actor — Представление сети Actor rlDeterministicActorRepresentation объект

critic — Представление сети Critic rlQValueRepesentation объект

Свойства

AgentOptions — Опции агента rlDDPGAgentOptions объект

ExperienceBuffer — Буфер опыта ExperienceBuffer объект

Функции объекта

Примеры

Создайте агента DDPG из спецификаций наблюдений и спецификаций действия

Создайте агента DDPG Используя опции инициализации

Создайте агента DDPG из агента и критика

Создайте агента DDPG с рекуррентными нейронными сетями

Смотрите также

Темы

Документация Reinforcement Learning Toolbox

Поддержка

`observationInfo` — Спецификации наблюдений
объект спецификации | массив объектов спецификации

`actionInfo` — Спецификация действия
объект спецификации

`initOpts` — Опции инициализации агента
`rlAgentInitializationOptions` объект

`actor` — Представление сети Actor
`rlDeterministicActorRepresentation` объект

`critic` — Представление сети Critic
`rlQValueRepesentation` объект

`AgentOptions` — Опции агента
`rlDDPGAgentOptions` объект

`ExperienceBuffer` — Буфер опыта
`ExperienceBuffer` объект