getAction

Получить действие от агента или актора при наблюдении за окружающей средой

свернуть все на странице

Синтаксис

agentAction = getAction (агент, obs)

actorAction = getAction (actorRep, obs)

[Действие, nextState] = getAction (Представление, obs)

Описание

Агент

пример

agentAction = getAction(agent,obs) возвращает действие, полученное из политики агента обучения усиления, заданного для наблюдений среды.

Представление актера

пример

actorAction = getAction(actorRep,obs) возвращает действие, полученное из представления политики actorRep данные наблюдения за окружающей средой obs.

[actorAction,nextState] = getAction(actorRep,obs) возвращает обновленное состояние представления актера, когда актер использует повторяющуюся нейронную сеть в качестве аппроксиматора функции.

Примеры

свернуть все

Получить действия от агента

Открыть сценарий в реальном времени

Создайте интерфейс среды и получите его спецификации наблюдения и действий. Для этой среды загрузите предварительно определенную среду, используемую для дискретной системы тележек.

env = rlPredefinedEnv("CartPole-Discrete");
obsInfo = getObservationInfo(env);
actInfo = getActionInfo(env);

Создайте критическое представление.

statePath = [
    featureInputLayer(4,'Normalization','none','Name','state')
    fullyConnectedLayer(24, 'Name', 'CriticStateFC1')
    reluLayer('Name','CriticRelu1')
    fullyConnectedLayer(24,'Name','CriticStateFC2')];
actionPath = [
    featureInputLayer(1,'Normalization','none','Name','action')
    fullyConnectedLayer(24, 'Name', 'CriticActionFC1')];
commonPath = [
    additionLayer(2,'Name','add')
    reluLayer('Name','CriticCommonRelu')
    fullyConnectedLayer(1,'Name','output')];
criticNetwork = layerGraph(statePath);
criticNetwork = addLayers(criticNetwork, actionPath);
criticNetwork = addLayers(criticNetwork, commonPath);    
criticNetwork = connectLayers(criticNetwork,'CriticStateFC2','add/in1');
criticNetwork = connectLayers(criticNetwork,'CriticActionFC1','add/in2');

Создайте представление для критика.

criticOpts = rlRepresentationOptions('LearnRate',0.01,'GradientThreshold',1);
critic = rlQValueRepresentation(criticNetwork,obsInfo,actInfo,...
    'Observation',{'state'},'Action',{'action'},criticOpts);

Укажите параметры агента и создайте агент DQN с помощью среды и критика.

agentOpts = rlDQNAgentOptions(...
    'UseDoubleDQN',false, ...    
    'TargetUpdateMethod',"periodic", ...
    'TargetUpdateFrequency',4, ...   
    'ExperienceBufferLength',100000, ...
    'DiscountFactor',0.99, ...
    'MiniBatchSize',256);
agent = rlDQNAgent(critic,agentOpts);

Получение дискретного действия от агента для одного наблюдения. В этом примере используется случайный массив наблюдений.

act = getAction(agent,{rand(4,1)})

act = 10

Также можно получить действия для пакета наблюдений. Например, получить действия для партии из 10 наблюдений.

actBatch = getAction(agent,{rand(4,1,10)});
size(actBatch)

ans = 1×2

     1    10

actBatch содержит одно действие для каждого наблюдения в пакете, причем каждое действие является одним из возможных дискретных действий.

Получить действие от детерминированного исполнителя

Открыть сценарий в реальном времени

Создание сведений о наблюдениях и действиях. Эти спецификации также можно получить из среды.

obsinfo = rlNumericSpec([4 1]);
actinfo = rlNumericSpec([2 1]);
numObs = obsinfo.Dimension(1);
numAct = actinfo.Dimension(1);

Создать повторяющуюся глубокую нейронную сеть для актера.

net = [featureInputLayer(4,'Normalization','none','Name','state')
            fullyConnectedLayer(10,'Name','fc1')
            reluLayer('Name','relu1')
            fullyConnectedLayer(20,'Name','CriticStateFC2')
            fullyConnectedLayer(numAct,'Name','action')
            tanhLayer('Name','tanh1')];

Создайте детерминированное представление актера для сети.

actorOptions = rlRepresentationOptions('LearnRate',1e-3,'GradientThreshold',1);
actor = rlDeterministicActorRepresentation(net,obsinfo,actinfo,...
    'Observation',{'state'},'Action',{'tanh1'});

Получить действие от этого актера для случайной партии из 20 наблюдений.

act = getAction(actor,{rand(4,1,10)})

act = 1x1 cell array
    {2x1x10 single}

act содержит два вычисленных действия для всех 10 наблюдений в пакете.

Входные аргументы

свернуть все

`agent` - Усиливающий обучающий агент
`rlQAgent` | `rlSARSAAgent` | `rlDQNAgent` | `rlPGAgent` | `rlDDPGAgent` | `rlTD3Agent` | `rlACAgent` | `rlPPOAgent`

Усиливающий обучающий агент, указанный как один из следующих объектов:

`actorRep` - Представление актера
`rlDeterministicActorRepresentation` объект | `rlStochasticActorRepresentation` объект

Представление актера, указанное как rlDeterministicActorRepresentation или rlStochasticActorRepresentation объект.

`obs` - Наблюдения за окружающей средой
массив ячеек

Наблюдения окружающей среды, определяемые как массив ячеек с таким количеством элементов, как есть входные каналы наблюдения. Каждый элемент obs содержит массив наблюдений для одного входного канала наблюдения.

Размеры каждого элемента в obs MO-за-LB-за-LS, где:

_КО соответствует размерам соответствующего входного канала наблюдения.
_LB - размер партии. Чтобы задать одно наблюдение, задайте _LB = 1. Чтобы указать пакет наблюдений, укажите _LB > 1. Если valueRep или qValueRep имеет несколько входных каналов наблюдения, то _LB должен быть одинаковым для всех элементов obs.
_LS определяет длину последовательности для рецидивирующей нейронной сети. Если valueRep или qValueRep не использует рецидивирующую нейронную сеть, то _LS = 1. Если valueRep или qValueRep имеет несколько входных каналов наблюдения, тогда _LS должен быть одинаковым для всех элементов obs.

_LB и _LS должны быть одинаковыми для обоих act и obs.

Выходные аргументы

свернуть все

`agentAction` - Значение действия от агента
множество

Значение действия от агента, возвращаемое как массив с измерениями _{MA-by-LB-by-LS}, где:

_MA соответствует размерам связанной спецификации действия.
_LB - размер партии.
_LS - длина последовательности для рецидивирующих нейронных сетей. Если актер и критик в agent не использовать рекуррентные нейронные сети, то _LS = 1.

Примечание

Когда агенты, такие как rlACAgent, rlPGAgent, или rlPPOAgent использовать rlStochasticActorRepresentation исполнитель с непрерывным пространством действий, ограничения, заданные спецификацией действия, не применяются агентом. В этих случаях необходимо принудительно применять ограничения пространства действий в среде.

`actorAction` - Значение действия из представления актера
одноэлементный массив ячеек

Значение действия из представления актера, возвращаемое как одноэлементный массив ячеек, содержащий массив измерений _{MA-by-LB-by-LS}, где:

_MA соответствует размерам спецификации действия.
_LB - размер партии.
_LS - длина последовательности для рецидивирующей нейронной сети. Если actorRep не использует рецидивирующую нейронную сеть, то _LS = 1.

Примечание

rlStochasticActorRepresentation исполнители с непрерывными пространствами действий не применяют ограничения, заданные спецификацией действия. В этих случаях необходимо принудительно применять ограничения пространства действий в среде.

`nextState` - Обновленное состояние представления актера
массив ячеек

Обновленное состояние представления актера, возвращенное в виде массива ячеек. Если actorRep не использует рецидивирующую нейронную сеть, то state является пустым массивом ячеек.

Можно задать состояние представления как state с использованием setState функция. Например:

valueRep = setState(actorRep,state);

См. также

getMaxQValue | getValue

Темы

Представлен в R2020a

Документация

getAction

Синтаксис

Описание

Агент

Представление актера

Примеры

Получить действия от агента

Получить действие от детерминированного исполнителя

Входные аргументы

`agent` - Усиливающий обучающий агент
`rlQAgent` | `rlSARSAAgent` | `rlDQNAgent` | `rlPGAgent` | `rlDDPGAgent` | `rlTD3Agent` | `rlACAgent` | `rlPPOAgent`

`actorRep` - Представление актера
`rlDeterministicActorRepresentation` объект | `rlStochasticActorRepresentation` объект

`obs` - Наблюдения за окружающей средой
массив ячеек

Выходные аргументы

`agentAction` - Значение действия от агента
множество

`actorAction` - Значение действия из представления актера
одноэлементный массив ячеек

`nextState` - Обновленное состояние представления актера
массив ячеек

См. также

Темы

Документация по инструментам обучения для усиления

Поддержка

Документация

getAction

Синтаксис

Описание

Агент

Представление актера

Примеры

Получить действия от агента

Получить действие от детерминированного исполнителя

Входные аргументы

agent - Усиливающий обучающий агент rlQAgent | rlSARSAAgent | rlDQNAgent | rlPGAgent | rlDDPGAgent | rlTD3Agent | rlACAgent | rlPPOAgent

actorRep - Представление актера rlDeterministicActorRepresentation объект | rlStochasticActorRepresentation объект

obs - Наблюдения за окружающей средой массив ячеек

Выходные аргументы

agentAction - Значение действия от агента множество

actorAction - Значение действия из представления актера одноэлементный массив ячеек

nextState - Обновленное состояние представления актера массив ячеек

См. также

Темы

Документация по инструментам обучения для усиления

Поддержка

`agent` - Усиливающий обучающий агент
`rlQAgent` | `rlSARSAAgent` | `rlDQNAgent` | `rlPGAgent` | `rlDDPGAgent` | `rlTD3Agent` | `rlACAgent` | `rlPPOAgent`

`actorRep` - Представление актера
`rlDeterministicActorRepresentation` объект | `rlStochasticActorRepresentation` объект

`obs` - Наблюдения за окружающей средой
массив ячеек

`agentAction` - Значение действия от агента
множество

`actorAction` - Значение действия из представления актера
одноэлементный массив ячеек

`nextState` - Обновленное состояние представления актера
массив ячеек