rlDeterministicActorRepresentation

Детерминированное представление актера для агентов обучения с подкреплением

Описание

Этот объект реализует функциональную аппроксимацию, которая будет использоваться в качестве детерминированного агента в агенте обучения с подкреплением с непрерывным пространством действий. Детерминированный агент берет наблюдения в качестве входных параметров и возвращается, как выводит действие, которое максимизирует ожидаемое совокупное долгосрочное вознаграждение, таким образом, представляя детерминированную политику. После того, как вы создаете rlDeterministicActorRepresentation объект, используйте его, чтобы создать подходящего агента, такого как rlDDPGAgent агент. Для получения дополнительной информации о создании представлений смотрите, Создают Представления Функции ценности и политика.

Создание

Синтаксис

actor = rlDeterministicActorRepresentation(net,observationInfo,actionInfo,'Observation',obsName,'Action',actName)

actor = rlDeterministicActorRepresentation({basisFcn,W0},observationInfo,actionInfo)

actor = rlDeterministicActorRepresentation(___,options)

Описание

пример

actor = rlDeterministicActorRepresentation(net,observationInfo,actionInfo,'Observation',obsName,'Action',actName) создает детерминированного агента с помощью глубокой нейронной сети net как аппроксимация. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo actor к входным параметрам observationInfo и actionInfo, содержа технические требования для наблюдений и действий, соответственно. observationInfo должен задать непрерывное пространство действий, дискретные пространства действий не поддержаны. obsName должен содержать имена входных слоев net это сопоставлено со спецификациями наблюдений. Действие называет actName должны быть имена выходных слоев net это сопоставлено со спецификациями действия.

пример

actor = rlDeterministicActorRepresentation({basisFcn,W0},observationInfo,actionInfo) создает детерминированного агента с помощью пользовательской основной функции в качестве базовой аппроксимации. Первый входной параметр является ячейкой 2D элементов, в которой первый элемент содержит указатель basisFcn к пользовательской основной функции и второму элементу содержит начальную матрицу веса W0. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo actor соответственно к входным параметрам observationInfo и actionInfo.

actor = rlDeterministicActorRepresentation(___,options) создает детерминированного агента с помощью набора дополнительных опций options, который является rlRepresentationOptions объект. Этот синтаксис устанавливает свойство Options actor к theoptions входной параметр. Можно использовать этот синтаксис с любой из предыдущих комбинаций входных аргументов.

Входные параметры

развернуть все

`net` — Глубокая нейронная сеть
массив `Layer` объекты | `layerGraph` возразите | `DAGNetwork` возразите | `SeriesNetwork` возразите | `dlNetwork` объект

Глубокая нейронная сеть, используемая в качестве базовой аппроксимации в агенте в виде одного из следующего:

Массив Layer объекты
layerGraph объект
DAGNetwork объект
SeriesNetwork объект
dlnetwork объект

Сетевые входные слои должны быть в том же порядке и с совпадающим типом данных и размерностями как сигналы, заданные в ObservationInfo. Кроме того, имена этих входных слоев должны совпадать с именами наблюдения, перечисленными в obsName.

Сетевой выходной слой должен иметь совпадающий тип данных и размерность как сигнал, заданный в ActionInfo. Его имя должно быть именем действия, заданным в actName.

rlDeterministicActorRepresentation объекты поддерживают текущие глубокие нейронные сети.

Для списка слоев глубокой нейронной сети смотрите Список слоев глубокого обучения (Deep Learning Toolbox). Для получения дополнительной информации о создании глубоких нейронных сетей для обучения с подкреплением смотрите, Создают Представления Функции ценности и политика.

`obsName` — Имена наблюдения
представьте в виде строки | вектор символов | массив ячеек из символьных векторов

Наблюдение называет в виде массива ячеек строк или векторов символов. Имена наблюдения должны быть именами входных слоев в net.

Пример: {'my_obs'}

`actName` — Имя действия
представьте в виде строки | вектор символов | одноэлементный массив ячеек, содержащий вектор символов

Имя действия в виде одноэлементного массива ячеек, который содержит вектор символов. Это должно быть имя выходного слоя net.

Пример: {'my_act'}

`basisFcn` — Пользовательская основная функция
указатель на функцию

Пользовательская основная функция в виде указателя на функцию к пользовательской функции MATLAB. Определяемая пользователем функция может или быть анонимной функцией или функцией на пути MATLAB. Действием, которое будет взято на основе текущего наблюдения, которое является выходом агента, является векторный a = W'*B, где W матрица веса, содержащая настраиваемые параметры и B вектор-столбец, возвращенный пользовательской основной функцией.

При создании детерминированного представления актера основная функция должна иметь следующую подпись.

B = myBasisFunction(obs1,obs2,...,obsN)

Здесь obs1 к obsN наблюдения в том же порядке и с совпадающим типом данных и размерностями как сигналы, заданные в observationInfo

Пример: @(obs1,obs2,obs3) [obs3(2)*obs1(1)^2; abs(obs2(5)+obs3(1))]

`W0` — Начальное значение весов основной функции
вектор-столбец

Начальное значение весов основной функции, WВ виде матрицы, имеющей столько же строк сколько длина вектора, возвращенного основной функцией и столькими же столбцов сколько размерность пространства действий.

Свойства

развернуть все

`Options` — Опции представления
`rlRepresentationOptions` объект

Опции представления в виде rlRepresentationOptions объект. Доступные параметры включают оптимизатор, используемый в обучении и скорости обучения.

`ObservationInfo` — Спецификации наблюдений
объект спецификации | массив объектов спецификации

Спецификации наблюдений, спецификация обучения с подкреплением возражает или массив свойств определения объектов спецификации, таких как размерности, тип данных и имена сигналов наблюдения.

Можно извлечь observationInfo существующей средой или агентом с помощью getObservationInfo. Можно также создать технические требования вручную с помощью rlFiniteSetSpec или rlNumericSpec.

`ActionInfo` — Спецификации действия
`rlNumericSpec` объект

Спецификации действия для непрерывного пространства действий, rlNumericSpec свойства определения объекта, такие как размерности, тип данных и имя сигналов действия. Детерминированное представление актера не поддерживает дискретные действия.

Можно извлечь actionInfo существующей средой или агентом с помощью getActionInfo. Можно также создать спецификацию вручную с помощью rlNumericSpec.

Для пользовательских представлений основной функции сигнал действия должен быть скаляром, вектор-столбцом или дискретным действием.

Функции объекта

`rlDDPGAgent`	Глубоко детерминированный агент обучения с подкреплением градиента политики
`rlTD3Agent`	Задержанный близнецами глубоко детерминированный агент обучения с подкреплением градиента политики
`getAction`	Получите действие из агента или представления актера, данного наблюдения среды

Примеры

свернуть все

Создайте детерминированного агента из глубокой нейронной сети

Скрипт Open Live Script

Создайте объект спецификации наблюдений (или альтернативно используйте getObservationInfo чтобы извлечь спецификацию возражают средой). В данном примере задайте пространство наблюдений как непрерывный четырехмерный пробел, так, чтобы одно наблюдение было вектор-столбцом, содержащим 4, удваивается.

obsInfo = rlNumericSpec([4 1]);

Создайте объект спецификации действия (или альтернативно используйте getActionInfo чтобы извлечь спецификацию возражают средой). В данном примере задайте пространство действий как непрерывное двумерное пространство, так, чтобы одно действие было вектор-столбцом, содержащим 2, удваивается.

actInfo = rlNumericSpec([2 1]);

Создайте аппроксимацию глубокой нейронной сети для агента. Вход сети (здесь названный myobs) должен принять четырехмерный вектор (вектор наблюдения, только заданный obsInfo), и его выход должен быть действием (здесь названный myact) и будьте двумерным вектором, как задано actInfo.

net = [imageInputLayer([4 1 1], 'Normalization','none','Name','myobs') 
    fullyConnectedLayer(2,'Name','myact')];

Создайте критика с rlQValueRepresentation, с помощью сети, наблюдений и объектов спецификации действия, а также имен сетевых входных и выходных слоев.

actor = rlDeterministicActorRepresentation(net,obsInfo,actInfo, ...
    'Observation',{'myobs'},'Action',{'myact'})

actor = 
  rlDeterministicActorRepresentation with properties:

         ActionInfo: [1x1 rl.util.rlNumericSpec]
    ObservationInfo: [1x1 rl.util.rlNumericSpec]
            Options: [1x1 rl.option.rlRepresentationOptions]

Чтобы проверять вашего агента, используйте getAction возвратить действие в случайное наблюдение, с помощью текущих сетевых весов.

act = getAction(actor,{rand(4,1)}); act{1}

ans = 2x1 single column vector

   -0.5054
    1.5390

Можно теперь использовать агента, чтобы создать подходящего агента (такого как rlACAgent, rlPGAgent, или rlDDPGAgent агент).

Создайте детерминированного агента из пользовательской основной функции

Скрипт Open Live Script

obsInfo = rlNumericSpec([3 1]);

Детерминированный агент не поддерживает дискретные пространства действий. Поэтому создайте объект спецификации непрерывного пространства действий (или альтернативно используйте getActionInfo чтобы извлечь спецификацию возражают средой). В данном примере задайте пространство действий как непрерывное двумерное пространство, так, чтобы одно действие было вектор-столбцом, содержащим 2, удваивается.

actInfo = rlNumericSpec([2 1]);

Создайте пользовательскую основную функцию. Каждым элементом является функция наблюдений, заданных obsInfo.

myBasisFcn = @(myobs) [myobs(2)^2; myobs(1); 2*myobs(2)+myobs(1); -myobs(3)]

myBasisFcn = function_handle with value:
    @(myobs)[myobs(2)^2;myobs(1);2*myobs(2)+myobs(1);-myobs(3)]

Выходом агента является векторный W'*myBasisFcn(myobs), который является мерами, принятыми в результате заданного наблюдения. Матрица веса W содержит настраиваемые параметры и должен иметь столько же строк сколько продолжительность основной функции выход и столько же столбцов сколько размерность пространства действий.

Задайте начальную матрицу параметра.

W0 = rand(4,2);

Создайте агента. Первый аргумент является двухэлементной ячейкой, содержащей и указатель на пользовательскую функцию и начальную матрицу веса. Вторые и третьи аргументы являются, соответственно, спецификацией наблюдений и объектами спецификации действия.

actor = rlDeterministicActorRepresentation({myBasisFcn,W0},obsInfo,actInfo)

actor = 
  rlDeterministicActorRepresentation with properties:

         ActionInfo: [1×1 rl.util.rlNumericSpec]
    ObservationInfo: [1×1 rl.util.rlNumericSpec]
            Options: [1×1 rl.option.rlRepresentationOptions]

Чтобы проверять вашего агента, используйте getAction функционируйте, чтобы возвратить действие в заданное наблюдение, с помощью текущей матрицы параметра.

a = getAction(actor,{[1 2 3]'});
a{1}

ans = 
  2×1 dlarray

    2.0595
    2.3788

Можно теперь использовать агента (вместе с критиком), чтобы создать подходящего агента непрерывного пространства действий.

Создайте детерминированного агента из рекуррентной нейронной сети

Скрипт Open Live Script

Создайте информацию о наблюдении и действии. Можно также получить эти технические требования из среды.

obsinfo = rlNumericSpec([4 1]);
actinfo = rlNumericSpec([2 1]);
numObs = obsinfo.Dimension(1);
numAct = actinfo.Dimension(1);

Создайте текущую глубокую нейронную сеть для агента. Чтобы создать рекуррентную нейронную сеть, используйте sequenceInputLayer как входной слой и включают по крайней мере один lstmLayer.

net = [sequenceInputLayer(numObs,'Normalization','none','Name','state')
            fullyConnectedLayer(10,'Name','fc1')
            reluLayer('Name','relu1')
            lstmLayer(8,'OutputMode','sequence','Name','ActorLSTM')
            fullyConnectedLayer(20,'Name','CriticStateFC2')
            fullyConnectedLayer(numAct,'Name','action')
            tanhLayer('Name','tanh1')];

Создайте детерминированное представление актера для сети.

actorOptions = rlRepresentationOptions('LearnRate',1e-3,'GradientThreshold',1);
actor = rlDeterministicActorRepresentation(net,obsinfo,actinfo,...
    'Observation',{'state'},'Action',{'tanh1'});

Документация

rlDeterministicActorRepresentation

Описание

Создание

Синтаксис

Описание

Входные параметры

`net` — Глубокая нейронная сеть
массив `Layer` объекты | `layerGraph` возразите | `DAGNetwork` возразите | `SeriesNetwork` возразите | `dlNetwork` объект

`obsName` — Имена наблюдения
представьте в виде строки | вектор символов | массив ячеек из символьных векторов

`actName` — Имя действия
представьте в виде строки | вектор символов | одноэлементный массив ячеек, содержащий вектор символов

`basisFcn` — Пользовательская основная функция
указатель на функцию

`W0` — Начальное значение весов основной функции
вектор-столбец

Свойства

`Options` — Опции представления
`rlRepresentationOptions` объект

`ObservationInfo` — Спецификации наблюдений
объект спецификации | массив объектов спецификации

`ActionInfo` — Спецификации действия
`rlNumericSpec` объект

Функции объекта

Примеры

Создайте детерминированного агента из глубокой нейронной сети

Создайте детерминированного агента из пользовательской основной функции

Создайте детерминированного агента из рекуррентной нейронной сети

Смотрите также

Функции

Темы

Введенный в R2020a

Документация Reinforcement Learning Toolbox

Поддержка

Документация

rlDeterministicActorRepresentation

Описание

Создание

Синтаксис

Описание

Входные параметры

net — Глубокая нейронная сеть массив Layer объекты | layerGraph возразите | DAGNetwork возразите | SeriesNetwork возразите | dlNetwork объект

obsName — Имена наблюдения представьте в виде строки | вектор символов | массив ячеек из символьных векторов

actName — Имя действия представьте в виде строки | вектор символов | одноэлементный массив ячеек, содержащий вектор символов

basisFcn — Пользовательская основная функция указатель на функцию

W0 — Начальное значение весов основной функции вектор-столбец

Свойства

Options — Опции представления rlRepresentationOptions объект

ObservationInfo — Спецификации наблюдений объект спецификации | массив объектов спецификации

ActionInfo — Спецификации действия rlNumericSpec объект

Функции объекта

Примеры

Создайте детерминированного агента из глубокой нейронной сети

Создайте детерминированного агента из пользовательской основной функции

Создайте детерминированного агента из рекуррентной нейронной сети

Смотрите также

Функции

Темы

Введенный в R2020a

Документация Reinforcement Learning Toolbox

Поддержка

`net` — Глубокая нейронная сеть
массив `Layer` объекты | `layerGraph` возразите | `DAGNetwork` возразите | `SeriesNetwork` возразите | `dlNetwork` объект

`obsName` — Имена наблюдения
представьте в виде строки | вектор символов | массив ячеек из символьных векторов

`actName` — Имя действия
представьте в виде строки | вектор символов | одноэлементный массив ячеек, содержащий вектор символов

`basisFcn` — Пользовательская основная функция
указатель на функцию

`W0` — Начальное значение весов основной функции
вектор-столбец

`Options` — Опции представления
`rlRepresentationOptions` объект

`ObservationInfo` — Спецификации наблюдений
объект спецификации | массив объектов спецификации

`ActionInfo` — Спецификации действия
`rlNumericSpec` объект