rlDDPGAgent

Создайте глубоко детерминированный агент изучения укрепления градиента политики

Синтаксис

agent = rlDDPGAgent(actor,critic,opt)

Описание

agent = rlDDPGAgent(actor,critic,opt) создает агент DDPG с заданным агентом и сетями критика, с помощью заданных опций агента DDPG. Для получения дополнительной информации об агентах DDPG смотрите Глубоко Детерминированные Агенты Градиента политики.

Примеры

свернуть все

Создайте агент DDPG

Создайте агент DDPG с агентом и критиком и получите его наблюдение и спецификации действия.

env = rlPredefinedEnv("DoubleIntegrator-Continuous");
obsInfo = getObservationInfo(env);
numObservations = obsInfo.Dimension(1);
actInfo = getActionInfo(env);
numActions = numel(actInfo);

Создайте представление критика.

statePath = imageInputLayer([numObservations 1 1], 'Normalization', 'none', 'Name', 'state');
actionPath = imageInputLayer([numActions 1 1], 'Normalization', 'none', 'Name', 'action');
commonPath = [concatenationLayer(1,2,'Name','concat')
             quadraticLayer('Name','quadratic')
             fullyConnectedLayer(1,'Name','StateValue','BiasLearnRateFactor', 0, 'Bias', 0)];
criticNetwork = layerGraph(statePath);
criticNetwork = addLayers(criticNetwork, actionPath);
criticNetwork = addLayers(criticNetwork, commonPath);
criticNetwork = connectLayers(criticNetwork,'state','concat/in1');
criticNetwork = connectLayers(criticNetwork,'action','concat/in2');
criticOpts = rlRepresentationOptions('LearnRate',5e-3,'GradientThreshold',1);
critic = rlRepresentation(criticNetwork,obsInfo,actInfo,...
    'Observation',{'state'},'Action',{'action'},criticOpts);

Создайте представление агента.

actorNetwork = [
    imageInputLayer([numObservations 1 1], 'Normalization', 'none', 'Name', 'state')
    fullyConnectedLayer(numActions, 'Name', 'action', 'BiasLearnRateFactor', 0, 'Bias', 0)];
actorOpts = rlRepresentationOptions('LearnRate',1e-04,'GradientThreshold',1);
actor = rlRepresentation(actorNetwork,obsInfo,actInfo,...
    'Observation',{'state'},'Action',{'action'},actorOpts);

Задайте опции агента и создайте агент PG с помощью среды, агента и критика.

agentOpts = rlDDPGAgentOptions(...
    'SampleTime',env.Ts,...
    'TargetSmoothFactor',1e-3,...
    'ExperienceBufferLength',1e6,...
    'DiscountFactor',0.99,...
    'MiniBatchSize',32);
agent = rlDDPGAgent(actor,critic,agentOpts);

Входные параметры

свернуть все

Представление сети `actor` — Actor
Объект `rlLayerRepresentation`

Представление сети Actor, заданное как объект rlLayerRepresentation, созданный с помощью rlRepresentation. Для получения дополнительной информации о создании представлений агента смотрите, Создают политику и Представления Функции Значения.

Представление сети `critic` — Critic
Объект `rlLayerRepresentation`

Представление сети Critic, заданное как объект rlLayerRepresentation, созданный с помощью rlRepresentation. Для получения дополнительной информации о создании представлений критика смотрите, Создают политику и Представления Функции Значения.

`opt` — Опции агента
Объект `rlDDPGAgentOptions`

Опции агента, заданные как объект rlDDPGAgentOptions.

Выходные аргументы

свернуть все

`agent` — Агент DDPG
Объект `rlDDPGAgent`

Агент DDPG, возвращенный как объект rlDDPGAgent.

Смотрите также

rlDDPGAgentOptions | train

Темы

Введенный в R2019a

Документация Reinforcement Learning Toolbox

Поддержка

Памятка переводчика

1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.

2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.

3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.

4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.

5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.

Документация

rlDDPGAgent

Синтаксис

Описание

Примеры

Создайте агент DDPG

Входные параметры

Представление сети actor — Actor Объект rlLayerRepresentation

Представление сети critic — Critic Объект rlLayerRepresentation

opt — Опции агента Объект rlDDPGAgentOptions

Выходные аргументы

agent — Агент DDPG Объект rlDDPGAgent

Смотрите также

Темы

Введенный в R2019a

Документация Reinforcement Learning Toolbox

Поддержка

Представление сети `actor` — Actor
Объект `rlLayerRepresentation`

Представление сети `critic` — Critic
Объект `rlLayerRepresentation`

`opt` — Опции агента
Объект `rlDDPGAgentOptions`

`agent` — Агент DDPG
Объект `rlDDPGAgent`