rlPGAgent

Создайте агента обучения с подкреплением градиента политики

Описание

пример

agent = rlPGAgent(actor) создает агента PG с заданной сетью агента. По умолчанию, UseBaseline свойством агента является false для этого случая. Для получения дополнительной информации об агентах PG смотрите Агентов Градиента политики.

agent = rlPGAgent(actor,critic) создает агента PG с заданным агентом и сетями критика. По умолчанию, UseBaseline опцией является true для этого случая.

agent = rlPGAgent(___,opt) создает агента PG с помощью заданных опций агента, чтобы заменить значения по умолчанию агента.

Примеры

свернуть все

Создайте интерфейс среды.

env = rlPredefinedEnv("DoubleIntegrator-Discrete");
obsInfo = getObservationInfo(env);
numObservations = obsInfo.Dimension(1);
actInfo = getActionInfo(env);
numActions = numel(actInfo);

Создайте представление критика, чтобы использовать в качестве базовой линии.

baselineNetwork = [
    imageInputLayer([numObservations 1 1], 'Normalization', 'none', 'Name', 'state')
    fullyConnectedLayer(8, 'Name', 'BaselineFC')
    reluLayer('Name', 'CriticRelu1')
    fullyConnectedLayer(1, 'Name', 'BaselineFC2', 'BiasLearnRateFactor', 0)];
baselineOpts = rlRepresentationOptions('LearnRate',5e-3,'GradientThreshold',1);
baseline = rlRepresentation(baselineNetwork,baselineOpts,'Observation',{'state'},obsInfo);

Создайте представление агента.

actorNetwork = [
    imageInputLayer([numObservations 1 1], 'Normalization', 'none', 'Name', 'state')
    fullyConnectedLayer(numActions, 'Name', 'action', 'BiasLearnRateFactor', 0)];
actorOpts = rlRepresentationOptions('LearnRate',5e-3,'GradientThreshold',1);
actor = rlRepresentation(actorNetwork,actorOpts,...
    'Observation',{'state'},obsInfo,'Action',{'action'},actInfo);

Задайте опции агента и создайте агента PG с помощью среды, агента и критика.

agentOpts = rlPGAgentOptions(...
    'UseBaseline',true, ...
    'DiscountFactor', 0.99);
agent = rlPGAgent(actor,baseline,agentOpts);

Входные параметры

свернуть все

Представление сети Actor, заданное как rlLayerRepresentation объект, созданный с помощью rlRepresentation. Для получения дополнительной информации о создании представлений агента смотрите, Создают политику и Представления Функции Значения.

Представление сети Critic, заданное как rlLayerRepresentation объект, созданный с помощью rlRepresentation. Для получения дополнительной информации о создании представлений критика смотрите, Создают политику и Представления Функции Значения.

Опции агента, заданные как rlPGAgentOptions объект.

Выходные аргументы

свернуть все

Агент PG, возвращенный как rlPGAgent объект.

Введенный в R2019a