rlRepresentation

(Не рекомендуется) Представление модели для агентов обучения усилению

rlRepresentation не рекомендуется. Использовать rlValueRepresentation, rlQValueRepresentation, rlDeterministicActorRepresentation, или rlStochasticActorRepresentation вместо этого. Дополнительные сведения см. в разделе Вопросы совместимости.

Синтаксис

rep = rlRepresentation (сеть, obsInfo, «Наблюдение», obsNames)

rep = rlRepresentation (сеть, obsInfo, actInfo, «Наблюдение», obsNames, «Действие», actNames)

taureCritic = rlRepresentation (вкладка)

critic = rlRepresentation (basisFcn,W0,obsInfo)

critic = rlRepresentation (basisFcn,W0,oaInfo)

actor = rlПредставление (basisFcn,W0,obsInfo,actInfo)

rep = rlПредставление (___, repOpts)

Описание

Использовать rlRepresentation для создания представления аппроксиматора функции для актера или критика агента обучения усиления. Для этого задаются сигналы наблюдения и действия для учебной среды и опции, влияющие на обучение агента, использующего представление. Дополнительные сведения о создании представлений см. в разделе Создание представлений политик и функций значений.

пример

rep = rlRepresentation(net,obsInfo,'Observation',obsNames) создает представление для глубокой нейронной сети net. Имена наблюдений obsNames - имена сетевых входных уровней. obsInfo содержит соответствующие спецификации наблюдения для среды обучения. Этот синтаксис используется для создания представления для критика, не требующего ввода действий, например, для критика rlACAgent или rlPGAgent агент.

пример

rep = rlRepresentation(net,obsInfo,actInfo,'Observation',obsNames,'Action',actNames) создает представление с сигналами действий, заданными именами actNames и спецификации actInfo. Используйте этот синтаксис, чтобы создать представление для любого актера или для критика, который принимает как наблюдение, так и действие в качестве входных данных, например критика для rlDQNAgent или rlDDPGAgent агент.

пример

tableCritic = rlRepresentation(tab) создает критическое представление для таблицы значений или таблицы Q tab. При создании табличного представления задаются параметры наблюдения и действия при создании tab.

critic = rlRepresentation(basisFcn,W0,obsInfo) создает представление линейной базисной функции с использованием маркера перемещения к пользовательской базисной функции basisFcn и исходный весовой вектор W0. obsInfo содержит соответствующие спецификации наблюдения для среды обучения. Этот синтаксис используется для создания представления для критика, не требующего ввода действий, например, для критика rlACAgent или rlPGAgent агент.

critic = rlRepresentation(basisFcn,W0,oaInfo) создает представление линейной базисной функции с использованием массива ячеек спецификации oaInfo, где oaInfo = {obsInfo,actInfo}. Используйте этот синтаксис, чтобы создать представление для критика, который принимает как наблюдения, так и действия в качестве входных данных, например критика для rlDQNAgent или rlDDPGAgent агент.

actor = rlRepresentation(basisFcn,W0,obsInfo,actInfo) создает представление линейной базисной функции с использованием заданных характеристик наблюдения и действия; obsInfo и actInfoсоответственно. Этот синтаксис используется для создания представления для актера, принимающего наблюдения в качестве входных данных и генерирующего действия.

пример

rep = rlRepresentation(___,repOpts) создает представление с помощью дополнительных опций, задающих параметры обучения для представления при обучении агента. Доступные варианты включают оптимизатор, используемый для обучения, и скорость обучения. Использовать rlRepresentationOptions для создания набора опций repOpts. Этот синтаксис можно использовать с любой из предыдущих комбинаций входных аргументов.

Примеры

свернуть все

Создание представлений актера и критика

Создайте представление актера и представление критика, которое можно использовать для определения агента обучения усилению, такого как агент критика актера (AC).

Для этого примера создайте представления актера и критика для агента, который может быть обучен работе с средой тележек, описанной в документе Train AC Agent to Balance Cart-Pole System. Сначала создайте среду. Затем извлеките спецификации наблюдения и действий из среды. Эти спецификации необходимы для определения представлений агента и критика.

env = rlPredefinedEnv("CartPole-Discrete");
obsInfo = getObservationInfo(env);
actInfo = getActionInfo(env);

Для критиков state-value-function, таких как используемые для агентов AC или PG, входами являются наблюдения, а выходом должно быть скалярное значение, значение состояния. Для этого примера создайте критическое представление с помощью глубокой нейронной сети с одним выходом и с сигналами наблюдения, соответствующими x,xdot,theta,thetadot как описано в документе «Подготовка агента переменного тока к балансированию системы тележек-полюсов». Количество наблюдений можно получить из obsInfo спецификация. Присвойте имя входному сигналу сетевого уровня 'observation'.

numObservation = obsInfo.Dimension(1);
criticNetwork = [
    imageInputLayer([numObservation 1 1],'Normalization','none','Name','observation')
    fullyConnectedLayer(1,'Name','CriticFC')];

Укажите параметры критического представления с помощью rlRepresentationOptions. Эти опции управляют параметрами сетевого обучения критиков, когда вы обучаете агента, который включает представление критиков. Для этого примера установите коэффициент обучения 0,05, а порог градиента - 1.

repOpts = rlRepresentationOptions('LearnRate',5e-2,'GradientThreshold',1);

Создайте критическое представление, используя указанную нейронную сеть и опции. Также укажите для критика информацию о действиях и наблюдениях. Задайте для имени наблюдения значение 'observation', которое используется при создании уровня сетевого ввода для criticNetwork.

critic = rlRepresentation(criticNetwork,obsInfo,'Observation',{'observation'},repOpts)

critic = 
  rlValueRepresentation with properties:

            Options: [1x1 rl.option.rlRepresentationOptions]
    ObservationInfo: [1x1 rl.util.rlNumericSpec]
         ActionInfo: {1x0 cell}

Аналогично, создайте сеть для актера. Агент AC решает, какое действие следует предпринять для данных наблюдений, используя представление актера. Для актера входами являются наблюдения, а выход зависит от того, является ли пространство действия дискретным или непрерывным. Для актёра этого примера существует два возможных дискретных действия, -10 или 10. Таким образом, для создания актёра используйте глубокую нейронную сеть с тем же входом наблюдения, что и критик, которая может выводить эти два значения. Вы можете получить количество действий из actInfo спецификация. Назовите выходные данные 'action'.

numAction = numel(actInfo.Elements); 
actorNetwork = [
    imageInputLayer([4 1 1], 'Normalization','none','Name','observation')
    fullyConnectedLayer(numAction,'Name','action')];

Создайте представление актера, используя имя наблюдения и спецификацию, а также имя действия и спецификацию. Используйте те же параметры представления.

actor = rlRepresentation(actorNetwork,obsInfo,actInfo,...
    'Observation',{'observation'},'Action',{'action'},repOpts)

actor = 
  rlStochasticActorRepresentation with properties:

            Options: [1x1 rl.option.rlRepresentationOptions]
    ObservationInfo: [1x1 rl.util.rlNumericSpec]
         ActionInfo: [1x1 rl.util.rlFiniteSetSpec]

Теперь можно использовать представление актера и критика для создания агента AC.

agentOpts = rlACAgentOptions(...
    'NumStepsToLookAhead',32,...
    'DiscountFactor',0.99);
agent = rlACAgent(actor,critic,agentOpts)

agent = 
  rlACAgent with properties:

    AgentOptions: [1x1 rl.option.rlACAgentOptions]

Создание представления таблицы Q

В этом примере показано, как создать представление таблицы Q:

Создайте интерфейс среды.

env = rlPredefinedEnv("BasicGridWorld");

Создайте таблицу Q, используя спецификации действий и наблюдений из среды.

qTable = rlTable(getObservationInfo(env),getActionInfo(env));

Создайте представление для таблицы Q.

tableRep = rlRepresentation(qTable);

Создание критического представления квадратичной базовой функции

В этом примере показано, как создать представление критика линейной базовой функции.

Предположим, что у вас есть среда, env. В этом примере следует загрузить среду, используемую в примере Train Custom LQR Agent.

load myLQREnv.mat

Получение спецификаций наблюдения и действий из среды.

obsInfo = getObservationInfo(env);
actInfo = getActionInfo(env);

Создайте пользовательскую базисную функцию. В этом случае используйте функцию квадратичного базиса из Train Custom LQR Agent.

Задайте размеры и параметры, необходимые для базовой функции.

n = 6;

Задайте начальный весовой вектор.

w0 = 0.1*ones(0.5*(n+1)*n,1);

Создайте представление, используя маркер перемещения для пользовательской базисной функции.

critic = rlRepresentation(@(x,u) computeQuadraticBasis(x,u,n),w0,{obsInfo,actInfo});

Функция для вычисления квадратичного базиса от Train Custom LQR Agent.

function B = computeQuadraticBasis(x,u,n)
z = cat(1,x,u);
idx = 1;
for r = 1:n
    for c = r:n
        if idx == 1
            B = z(r)*z(c);
        else
            B = cat(1,B,z(r)*z(c));
        end
        idx = idx + 1;
    end
end
end

Входные аргументы

свернуть все

`net` - Глубокая нейронная сеть для актера или критика
массив `Layer` объекты | `layerGraph` объект | `DAGNetwork` объект | `SeriesNetwork` объект

Глубокая нейронная сеть для актера или критика, указанная как одно из следующих:

Массив Layer объекты
layerGraph объект
DAGNetwork объект
SeriesNetwork объект
dlnetwork объект

Список слоев глубоких нейронных сетей см. в разделе Список слоев глубокого обучения. Дополнительные сведения о создании глубоких нейронных сетей для обучения усилению см. в разделе Создание представлений политик и функций значений.

`obsNames` - Названия наблюдений
массив ячеек символьных векторов

Имена наблюдений, заданные как массив ячеек векторов символов. Имена наблюдений - это имена сетевых входных слоев, задаваемые при создании net. Имена в obsNames должны быть в том же порядке, что и спецификации наблюдения в obsInfo.

Пример: {'observation'}

`obsInfo` - Технические условия на наблюдение
объект спецификации | массив объектов спецификации

Спецификация наблюдения, заданная как объект спецификации обучения армированию или массив объектов спецификации. Вы можете извлечь obsInfo из существующей среды с использованием getObservationInfo. Можно также создать спецификации вручную с помощью команды спецификации, например: rlFiniteSetSpec или rlNumericSpec. Эта спецификация определяет такую информацию о наблюдениях, как размеры и названия сигналов наблюдения.

`actNames` - Название действия
одноэлементный массив ячеек, содержащий символьный вектор

Имя действия, указанное как одноэлементный массив ячеек, содержащий символьный вектор. Имя действия - это имя сетевого слоя, указанное при создании net. Для критических сетей этот уровень является первым уровнем входного пути действия. Для актёров этот слой является последним слоем выходного пути действия.

Пример: {'action'}

`actInfo` - Спецификация действия
объект спецификации

Спецификация действия, заданная как объект спецификации обучения усилению. Вы можете извлечь actInfo из существующей среды с использованием getActionInfo. Кроме того, можно создать спецификацию вручную с помощью команды спецификации, например: rlFiniteSetSpec или rlNumericSpec. Эта спецификация определяет такую информацию о действии как размеры и имя сигнала действия.

Для представления линейной базисной функции сигнал действия должен быть скаляром, вектором столбца или дискретным действием.

`tab` - Таблица значений или таблица Q для критика
`rlTable` объект

Таблица значений или таблица Q для критика, указанная как rlTable объект. Обучаемые параметры представления таблицы являются элементами tab.

`basisFcn` - Пользовательская базисная функция
дескриптор функции

Пользовательская базисная функция, заданная как дескриптор функции для определяемой пользователем функции. Для представления линейной базисной функции выводом представления является f = W'B, где W является массивом весов и B - вектор столбца, возвращаемый пользовательской базисной функцией. Обучаемые параметры представления линейной базисной функции являются элементами W.

При создании:

Критическое представление только с входными данными наблюдения, базовая функция должна иметь следующую сигнатуру.
```
B = myBasisFunction(obs1,obs2,...,obsN)
```
Здесь obs1 кому obsN являются наблюдениями в том же порядке и с тем же типом данных и размерами, что и спецификации наблюдения в obsInfo.
Критическое представление с входными данными наблюдения и действий, базовая функция должна иметь следующую сигнатуру.
```
B = myBasisFunction(obs1,obs2,...,obsN,act)
```
Здесь obs1 кому obsN являются наблюдениями в том же порядке и с тем же типом данных и размерами, что и спецификации наблюдения в первом элементе oaInfo, и act имеет тот же тип данных и размеры, что и спецификация действия во втором элементе oaInfo.
Представление актера, базовая функция должна иметь следующую подпись.
```
B = myBasisFunction(obs1,obs2,...,obsN)
```
Здесь, obs1 кому obsN являются наблюдениями в том же порядке и с тем же типом данных и размерами, что и спецификации наблюдения в obsInfo. Типы данных и размеры спецификации действия в actInfo влияют на тип данных и измерения f.

Пример: @(x,u) myBasisFunction(x,u)

`W0` - Начальное значение для вектора веса линейной базисной функции
вектор столбца | массив

Начальное значение для массива веса линейной базисной функции, W, указано как одно из следующих:

Вектор столбца - при создании критического представления или представления актера с непрерывным скалярным сигналом действия
Массив - при создании представления актера с помощью сигнала непрерывного действия вектора столбца или дискретного пространства действия.

`oaInfo` - Технические требования к наблюдению и действиям
массив ячеек

Спецификации наблюдения и действия для создания представлений критиков линейных базисных функций, заданных как массив ячеек {obsInfo,actInfo}.

`repOpts` - Параметры представления
`rlRepresentationOptions` объект

Опции представления, заданные как набор опций, созданный с помощью rlRepresentationOptions. Доступные варианты включают оптимизатор, используемый для обучения, и скорость обучения. Посмотрите rlRepresentationOptions для получения подробной информации.

Выходные аргументы

свернуть все

`rep` - Представление глубокой нейронной сети
`rlLayerRepresentation` объект

Глубокое представление нейронной сети, возвращенное как rlLayerRepresentation объект. Это представление используется для создания агента для обучения усилению. Дополнительные сведения см. в разделе Усиление агентов обучения.

`tableCritic` - Представление критика таблицы Value или Q
`rlTableRepresentation` объект

Значение или представление критика таблицы Q, возвращенное как rlTableRepresentation объект. Это представление используется для создания агента для обучения усилению. Дополнительные сведения см. в разделе Усиление агентов обучения.

`critic` - Представление критика линейной базовой функции
`rlLinearBasisRepresentation` объект

Представление критика линейной базовой функции, возвращаемое как и rlLinearBasisRepresentation объект. Это представление используется для создания агента для обучения усилению. Дополнительные сведения см. в разделе Усиление агентов обучения.

`actor` - Представление акторов линейных базисных функций
`rlLinearBasisRepresentation` объект

Представление актера линейной базовой функции, возвращаемое как и rlLinearBasisRepresentation объект. Это представление используется для создания агента для обучения усилению. Дополнительные сведения см. в разделе Усиление агентов обучения.

Вопросы совместимости

развернуть все

`rlRepresentation` не рекомендуется

Не рекомендуется начинать с R2020a

rlRepresentation не рекомендуется. В зависимости от типа создаваемого представления используйте один из следующих объектов:

rlValueRepresentation - критик государственной ценности, вычисленный на основе наблюдений из окружающей среды.
rlQValueRepresentation - критик значения state-action, вычисляемый на основе как действий, так и наблюдений из окружающей среды.
rlDeterministicActorRepresentation - Актер с детерминированными действиями, основанными на наблюдениях из окружающей среды.
rlStochasticActorRepresentation - Актер со стохастическими действиями, основанными на наблюдениях из окружающей среды.

В следующей таблице показаны некоторые типичные виды использования rlRepresentation функция для создания нейросетевых критиков и актеров, а также для обновления кода одним из новых объектов.

Сетевые представления: не рекомендуется	Сетевые представления: Рекомендуется
`rep = rlRepresentation(net,obsInfo,'Observation',obsName)`, с `net` имеет только наблюдения в качестве входных данных и один скалярный выход.	`rep = rlValueRepresentation(net,obsInfo,'Observation',obsName)`. Этот синтаксис используется для создания представления для критика, не требующего ввода действий, например, для критика `rlACAgent` или `rlPGAgent` агент.
`rep = rlRepresentation(net,obsInfo,actInfo,'Observation',obsName,'Action',actName)`, с `net` с наблюдениями и действием в качестве входных данных и с одним скалярным выходом.	`rep = rlQValueRepresentation(net,obsInfo,actInfo,'Observation',obsName,'Action',actName)`. Используйте этот синтаксис для создания представления значения состояния-действия с одним выходом для критика, который принимает как наблюдение, так и действие в качестве входных данных, например, для критика `rlDQNAgent` или `rlDDPGAgent` агент.
`rep = rlRepresentation(net,obsInfo,actInfo,'Observation',obsName,'Action',actName)`, с `net` наличие наблюдений в качестве входных данных и действий в качестве выходных данных, и `actInfo` определение непрерывного пространства действий.	`rep = rlDeterministicActorRepresentation(net,obsInfo,actInfo,'Observation',obsName,'Action',actName)`. Этот синтаксис используется для создания детерминированного представления для непрерывного пространства действий.
`rep = rlRepresentation(net,obsInfo,actInfo,'Observation',obsName,'Action',actName)`, с `net` наличие наблюдений в качестве входных данных и действий в качестве выходных данных, и `actInfo` определение пространства дискретных действий.	`rep = rlStochasticActorRepresentation(net,obsInfo,actInfo,'Observation',obsName)`. Этот синтаксис используется для создания стохастического представления актера для пространства дискретных действий.

В следующей таблице показаны некоторые типичные виды использования rlRepresentation объекты для выражения критиков на основе таблиц с дискретными пространствами наблюдения и действий, а также для обновления кода с помощью одного из новых объектов.

Табличные представления: не рекомендуется Табличные представления: Рекомендуется

Табличные представления: не рекомендуется	Табличные представления: Рекомендуется
`rep = rlRepresentation(tab)`, с `tab` содержит таблицу значений, состоящую из вектора-столбца, в пределах возможного количества наблюдений.	`rep = rlValueRepresentation(tab,obsInfo)`. Этот синтаксис используется для создания представления для критика, не требующего ввода действий, например, для критика `rlACAgent` или `rlPGAgent` агент.
`rep = rlRepresentation(tab)`, с `tab` содержит таблицу Q-значений с максимально возможным количеством строк и максимально возможным количеством столбцов.	`rep = rlQValueRepresentation(tab,obsInfo,actInfo)`. Используйте этот синтаксис для создания представления значения состояния-действия с одним выходом для критика, который принимает как наблюдение, так и действие в качестве входных данных, например, для критика `rlDQNAgent` или `rlDDPGAgent` агент.

rep = rlRepresentation(tab), с tab содержит таблицу значений, состоящую из вектора-столбца, в пределах возможного количества наблюдений.

rep = rlValueRepresentation(tab,obsInfo). Этот синтаксис используется для создания представления для критика, не требующего ввода действий, например, для критика rlACAgent или rlPGAgent агент.

rep = rlRepresentation(tab), с tab содержит таблицу Q-значений с максимально возможным количеством строк и максимально возможным количеством столбцов.

rep = rlQValueRepresentation(tab,obsInfo,actInfo). Используйте этот синтаксис для создания представления значения состояния-действия с одним выходом для критика, который принимает как наблюдение, так и действие в качестве входных данных, например, для критика rlDQNAgent или rlDDPGAgent агент.

В следующей таблице показаны некоторые типичные виды использования rlRepresentation для создания критиков и актеров, использующих пользовательскую базисную функцию, а также для обновления кода с помощью одного из новых объектов. В рекомендуемых вызовах функций первым входным аргументом является ячейка из двух элементов, содержащая как дескриптор пользовательской базовой функции, так и начальный весовой вектор или матрицу.

Представления на основе пользовательских функций: не рекомендуется	Представления на основе пользовательских функций: рекомендуется
`rep = rlRepresentation(basisFcn,W0,obsInfo)`, где базисная функция имеет только наблюдения в качестве входных данных и `W0` является вектором-столбцом.	`rep = rlValueRepresentation({basisFcn,W0},obsInfo)`. Этот синтаксис используется для создания представления для критика, не требующего ввода действий, например, для критика `rlACAgent` или `rlPGAgent` агент.
`rep = rlRepresentation(basisFcn,W0,{obsInfo,actInfo})`, где базовая функция имеет как наблюдения, так и действия в качестве входных данных и `W0` является вектором-столбцом.	`rep = rlQValueRepresentation({basisFcn,W0},obsInfo,actInfo)`. Используйте этот синтаксис для создания представления значения состояния-действия с одним выходом для критика, который принимает как наблюдение, так и действие в качестве входных данных, например, для критика `rlDQNAgent` или `rlDDPGAgent` агент.
`rep = rlRepresentation(basisFcn,W0,obsInfo,actInfo)`, где базовая функция имеет наблюдения в качестве входных данных и действия в качестве выходных данных, `W0` является матрицей, и `actInfo` определяет непрерывное пространство действий.	`rep = rlDeterministicActorRepresentation({basisFcn,W0},obsInfo,actInfo)`. Этот синтаксис используется для создания детерминированного представления для непрерывного пространства действий.
`rep = rlRepresentation(basisFcn,W0,obsInfo,actInfo)`, где базовая функция имеет наблюдения в качестве входных данных и действия в качестве выходных данных, `W0` является матрицей, и `actInfo` определяет пространство дискретных действий.	`rep = rlStochasticActorRepresentation({basisFcn,W0},obsInfo,actInfo)`. Этот синтаксис используется для создания детерминированного представления для пространства дискретных действий.

См. также

Функции

getActionInfo | getObservationInfo | rlDeterministicActorRepresentation | rlQValueRepresentation | rlRepresentationOptions | rlStochasticActorRepresentation | rlValueRepresentation

Темы

Представлен в R2019a

Документация

rlRepresentation

Синтаксис

Описание

Примеры

Создание представлений актера и критика

Создание представления таблицы Q

Создание критического представления квадратичной базовой функции

Входные аргументы

`net` - Глубокая нейронная сеть для актера или критика
массив `Layer` объекты | `layerGraph` объект | `DAGNetwork` объект | `SeriesNetwork` объект

`obsNames` - Названия наблюдений
массив ячеек символьных векторов

`obsInfo` - Технические условия на наблюдение
объект спецификации | массив объектов спецификации

`actNames` - Название действия
одноэлементный массив ячеек, содержащий символьный вектор

`actInfo` - Спецификация действия
объект спецификации

`tab` - Таблица значений или таблица Q для критика
`rlTable` объект

`basisFcn` - Пользовательская базисная функция
дескриптор функции

`W0` - Начальное значение для вектора веса линейной базисной функции
вектор столбца | массив

`oaInfo` - Технические требования к наблюдению и действиям
массив ячеек

`repOpts` - Параметры представления
`rlRepresentationOptions` объект

Выходные аргументы

`rep` - Представление глубокой нейронной сети
`rlLayerRepresentation` объект

`tableCritic` - Представление критика таблицы Value или Q
`rlTableRepresentation` объект

`critic` - Представление критика линейной базовой функции
`rlLinearBasisRepresentation` объект

`actor` - Представление акторов линейных базисных функций
`rlLinearBasisRepresentation` объект

Вопросы совместимости

`rlRepresentation` не рекомендуется

См. также

Функции

Темы

Документация по инструментам обучения для усиления

Поддержка

Документация

rlRepresentation

Синтаксис

Описание

Примеры

Создание представлений актера и критика

Создание представления таблицы Q

Создание критического представления квадратичной базовой функции

Входные аргументы

net - Глубокая нейронная сеть для актера или критика массив Layer объекты | layerGraph объект | DAGNetwork объект | SeriesNetwork объект

obsNames - Названия наблюдений массив ячеек символьных векторов

obsInfo - Технические условия на наблюдение объект спецификации | массив объектов спецификации

actNames - Название действия одноэлементный массив ячеек, содержащий символьный вектор

actInfo - Спецификация действия объект спецификации

tab - Таблица значений или таблица Q для критика rlTable объект

basisFcn - Пользовательская базисная функция дескриптор функции

W0 - Начальное значение для вектора веса линейной базисной функции вектор столбца | массив

oaInfo - Технические требования к наблюдению и действиям массив ячеек

repOpts - Параметры представления rlRepresentationOptions объект

Выходные аргументы

rep - Представление глубокой нейронной сети rlLayerRepresentation объект

tableCritic - Представление критика таблицы Value или Q rlTableRepresentation объект

critic - Представление критика линейной базовой функции rlLinearBasisRepresentation объект

actor - Представление акторов линейных базисных функций rlLinearBasisRepresentation объект

Вопросы совместимости

rlRepresentation не рекомендуется

См. также

Функции

Темы

Документация по инструментам обучения для усиления

Поддержка

`net` - Глубокая нейронная сеть для актера или критика
массив `Layer` объекты | `layerGraph` объект | `DAGNetwork` объект | `SeriesNetwork` объект

`obsNames` - Названия наблюдений
массив ячеек символьных векторов

`obsInfo` - Технические условия на наблюдение
объект спецификации | массив объектов спецификации

`actNames` - Название действия
одноэлементный массив ячеек, содержащий символьный вектор

`actInfo` - Спецификация действия
объект спецификации

`tab` - Таблица значений или таблица Q для критика
`rlTable` объект

`basisFcn` - Пользовательская базисная функция
дескриптор функции

`W0` - Начальное значение для вектора веса линейной базисной функции
вектор столбца | массив

`oaInfo` - Технические требования к наблюдению и действиям
массив ячеек

`repOpts` - Параметры представления
`rlRepresentationOptions` объект

`rep` - Представление глубокой нейронной сети
`rlLayerRepresentation` объект

`tableCritic` - Представление критика таблицы Value или Q
`rlTableRepresentation` объект

`critic` - Представление критика линейной базовой функции
`rlLinearBasisRepresentation` объект

`actor` - Представление акторов линейных базисных функций
`rlLinearBasisRepresentation` объект

`rlRepresentation` не рекомендуется