getCritic

Получите представление критика от агента обучения с подкреплением

Синтаксис

critic = getCritic(agent)

Описание

critic = getCritic(agent) возвращает объект представления критика для заданного свойства агента обучения с подкреплением.

Примеры

свернуть все

Измените значения параметров критика

Скрипт Open Live Script

Примите, что у вас есть существующий обученный агент обучения с подкреплением. В данном примере загрузите обученного агента от, Обучают Агента DDPG Управлять Двойной Системой Интегратора.

load('DoubleIntegDDPG.mat','agent')

Получите представление критика от агента.

critic = getCritic(agent);

Получите настраиваемые параметры от критика.

params = getLearnableParameters(critic);

Измените значения параметров. В данном примере просто умножьте все параметры 2.

modifiedParams = cellfun(@(x) x*2,params,'UniformOutput',false);

Установите значения параметров критика к новым модифицированным значениям.

critic = setLearnableParameters(critic,modifiedParams);

Установите критика в агенте новому модифицированному критику.

agent = setCritic(agent,critic);

Измените глубокие нейронные сети в агенте обучения с подкреплением

Скрипт Open Live Script

Создайте среду с непрерывным пространством действий и получите его спецификации наблюдений и спецификации действия. В данном примере загрузите среду, используемую в примере, Обучают Агента DDPG Управлять Двойной Системой Интегратора.

Загрузите предопределенную среду.

env = rlPredefinedEnv("DoubleIntegrator-Continuous")

env = 
  DoubleIntegratorContinuousAction with properties:

             Gain: 1
               Ts: 0.1000
      MaxDistance: 5
    GoalThreshold: 0.0100
                Q: [2x2 double]
                R: 0.0100
         MaxForce: Inf
            State: [2x1 double]

Получите спецификации наблюдений и спецификации действия.

obsInfo = getObservationInfo(env);
actInfo = getActionInfo(env);

Создайте агента PPO из спецификаций наблюдений среды и спецификаций действия.

agent = rlPPOAgent(obsInfo,actInfo);

Чтобы изменить глубокие нейронные сети в агенте обучения с подкреплением, необходимо сначала извлечь представления актёра и критика.

actor = getActor(agent);
critic = getCritic(agent);

Извлеките глубокие нейронные сети от обоих представления актёра и критика.

actorNet = getModel(actor);
criticNet = getModel(critic);

Чтобы просмотреть сеть, используйте plot функция. Например, просмотрите сеть агента.

plot(actorNet)

Можно изменить агента и сети критика и сохранить их назад в агента. Чтобы изменить сети, можно использовать приложение Deep Network Designer. Открыть приложение для каждого объединяется в сеть, используйте следующие команды.

deepNetworkDesigner(criticNet)
deepNetworkDesigner(actorNet)

В Deep Network Designer измените сети. Например, можно добавить дополнительные слои в сеть. Когда вы измените сети, не изменяйте входные и выходные слои сетей, возвращенных getModel. Для получения дополнительной информации о создании сетей смотрите Сети Сборки с Deep Network Designer.

Чтобы экспортировать модифицированные структуры сети в рабочую область MATLAB®, сгенерируйте код для создания новых сетей и запустите этот код из командной строки. Не используйте опцию экспорта в Deep Network Designer. Для примера, который показывает, как сгенерировать и запустить код, смотрите, Создают Агента Используя Deep Network Designer и Обучаются Используя Наблюдения Изображений.

В данном примере код для создания модифицированного агента и сетей критика находится в createModifiedNetworks.m.

createModifiedNetworks

Каждая из модифицированных сетей включает дополнительный fullyConnectedLayer и reluLayer в их выходе path. Просмотрите модифицированную сеть агента.

plot(modifiedActorNet)

После экспорта сетей вставьте сети в представления актёра и критика.

actor = setModel(actor,modifiedActorNet);
critic = setModel(critic,modifiedCriticNet);

Наконец, вставьте модифицированные представления актёра и критика в объекты критика и агента.

agent = setActor(agent,actor);
agent = setCritic(agent,critic);

Входные параметры

свернуть все

`agent` — Агент обучения с подкреплением
`rlQAgent` объект | `rlSARSAAgent` объект | `rlDQNAgent` объект | `rlDDPGAgent` объект | `rlTD3Agent` объект | `rlPGAgent` объект | `rlACAgent` объект | `rlPPOAgent` объект | `rlSACAgent` объект

Агент обучения с подкреплением, который содержит представление критика в виде одного из следующего:

rlQAgent объект
rlSARSAAgent объект
rlDQNAgent объект
rlDDPGAgent объект
rlTD3Agent объект
rlACAgent объект
rlPPOAgent объект
rlSACAgent объект
rlPGAgent возразите, что оценивает базовую функцию ценности с помощью критика

Выходные аргументы

свернуть все

`critic` — Представление критика
`rlValueRepresentation` объект | `rlQValueRepresentation` возразите | двухэлементный вектор-строка из `rlQValueRepresentation` объекты

Объект представления критика, возвращенный как одно из следующего:

rlValueRepresentation объект — Возвратился когда agent rlACAgent, rlPGAgent, или rlPPOAgent объект
rlQValueRepresentation объект — Возвратился когда agent rlQAgent, rlSARSAAgent, rlDQNAgent, rlDDPGAgent, или rlTD3Agent объект с одним критиком
Двухэлементный вектор-строка из rlQValueRepresentation объекты — Возвратились когда agent rlTD3Agent или rlSACAgent объект с двумя критиками

Темы

Введенный в R2019a

Документация

getCritic

Синтаксис

Описание

Примеры

Измените значения параметров критика

Измените глубокие нейронные сети в агенте обучения с подкреплением

Входные параметры

Выходные аргументы

`critic` — Представление критика
`rlValueRepresentation` объект | `rlQValueRepresentation` возразите | двухэлементный вектор-строка из `rlQValueRepresentation` объекты

Смотрите также

Темы

Документация Reinforcement Learning Toolbox

Поддержка

Документация

getCritic

Синтаксис

Описание

Примеры

Измените значения параметров критика

Измените глубокие нейронные сети в агенте обучения с подкреплением

Входные параметры

agent — Агент обучения с подкреплением rlQAgent объект | rlSARSAAgent объект | rlDQNAgent объект | rlDDPGAgent объект | rlTD3Agent объект | rlPGAgent объект | rlACAgent объект | rlPPOAgent объект | rlSACAgent объект

Выходные аргументы

critic — Представление критика rlValueRepresentation объект | rlQValueRepresentation возразите | двухэлементный вектор-строка из rlQValueRepresentation объекты

Смотрите также

Темы

Документация Reinforcement Learning Toolbox

Поддержка

`critic` — Представление критика
`rlValueRepresentation` объект | `rlQValueRepresentation` возразите | двухэлементный вектор-строка из `rlQValueRepresentation` объекты