rlPGAgent

Создайте агента обучения с подкреплением градиента политики

Синтаксис

agent = rlPGAgent(actor)

agent = rlPGAgent(actor,critic)

agent = rlPGAgent(___,opt)

Описание

agent = rlPGAgent(actor) создает агента PG с заданной сетью агента. По умолчанию, UseBaseline свойством агента является false для этого случая. Для получения дополнительной информации об агентах PG смотрите Агентов Градиента политики.

agent = rlPGAgent(actor,critic) создает агента PG с заданным агентом и сетями критика. По умолчанию, UseBaseline опцией является true для этого случая.

agent = rlPGAgent(___,opt) создает агента PG с помощью заданных опций агента, чтобы заменить значения по умолчанию агента.

Примеры

свернуть все

Создайте агента PG

Создайте интерфейс среды.

env = rlPredefinedEnv("DoubleIntegrator-Discrete");
obsInfo = getObservationInfo(env);
numObservations = obsInfo.Dimension(1);
actInfo = getActionInfo(env);
numActions = numel(actInfo);

Создайте представление критика, чтобы использовать в качестве базовой линии.

baselineNetwork = [
    imageInputLayer([numObservations 1 1], 'Normalization', 'none', 'Name', 'state')
    fullyConnectedLayer(8, 'Name', 'BaselineFC')
    reluLayer('Name', 'CriticRelu1')
    fullyConnectedLayer(1, 'Name', 'BaselineFC2', 'BiasLearnRateFactor', 0)];
baselineOpts = rlRepresentationOptions('LearnRate',5e-3,'GradientThreshold',1);
baseline = rlRepresentation(baselineNetwork,baselineOpts,'Observation',{'state'},obsInfo);

Создайте представление агента.

actorNetwork = [
    imageInputLayer([numObservations 1 1], 'Normalization', 'none', 'Name', 'state')
    fullyConnectedLayer(numActions, 'Name', 'action', 'BiasLearnRateFactor', 0)];
actorOpts = rlRepresentationOptions('LearnRate',5e-3,'GradientThreshold',1);
actor = rlRepresentation(actorNetwork,actorOpts,...
    'Observation',{'state'},obsInfo,'Action',{'action'},actInfo);

Задайте опции агента и создайте агента PG с помощью среды, агента и критика.

agentOpts = rlPGAgentOptions(...
    'UseBaseline',true, ...
    'DiscountFactor', 0.99);
agent = rlPGAgent(actor,baseline,agentOpts);

Входные параметры

свернуть все

`actor` — Представление сети Actor
`rlLayerRepresentation` объект

Представление сети Actor, заданное как rlLayerRepresentation объект, созданный с помощью rlRepresentation. Для получения дополнительной информации о создании представлений агента смотрите, Создают политику и Представления Функции Значения.

`critic` — Представление сети Critic
`rlLayerRepresentation` объект

Представление сети Critic, заданное как rlLayerRepresentation объект, созданный с помощью rlRepresentation. Для получения дополнительной информации о создании представлений критика смотрите, Создают политику и Представления Функции Значения.

`opt` — Опции агента
`rlPGAgentOptions` объект

Опции агента, заданные как rlPGAgentOptions объект.

Выходные аргументы

свернуть все

`agent` — Агент PG
`rlPGAgent`

Агент PG, возвращенный как rlPGAgent объект.

Смотрите также

rlPGAgentOptions | train

Документация

rlPGAgent

Синтаксис

Описание

Примеры

Создайте агента PG

Входные параметры

`actor` — Представление сети Actor
`rlLayerRepresentation` объект

`critic` — Представление сети Critic
`rlLayerRepresentation` объект

`opt` — Опции агента
`rlPGAgentOptions` объект

Выходные аргументы

`agent` — Агент PG
`rlPGAgent`

Смотрите также

Темы

Введенный в R2019a

Документация Reinforcement Learning Toolbox

Поддержка

Документация

rlPGAgent

Синтаксис

Описание

Примеры

Создайте агента PG

Входные параметры

actor — Представление сети Actor rlLayerRepresentation объект

critic — Представление сети Critic rlLayerRepresentation объект

opt — Опции агента rlPGAgentOptions объект

Выходные аргументы

agent — Агент PG rlPGAgent

Смотрите также

Темы

Введенный в R2019a

Документация Reinforcement Learning Toolbox

Поддержка

`actor` — Представление сети Actor
`rlLayerRepresentation` объект

`critic` — Представление сети Critic
`rlLayerRepresentation` объект

`opt` — Опции агента
`rlPGAgentOptions` объект

`agent` — Агент PG
`rlPGAgent`