rlPGAgentOptions

Создайте опции для агента PG

Синтаксис

opt = rlPGAgentOptions

opt = rlPGAgentOptions(Name,Value)

Описание

opt = rlPGAgentOptions создает rlPGAgentOptions объект для использования в качестве аргумента при создании агента PG с помощью всех настроек по умолчанию. Можно изменить свойства объектов с помощью записи через точку.

opt = rlPGAgentOptions(Name,Value) создает объект опций PG использование заданных пар "имя-значение", чтобы заменить значения свойств по умолчанию.

Примеры

свернуть все

Создайте объект опций агента PG

Создайте объект опций агента PG, задав коэффициент дисконтирования.

opt = rlPGAgentOptions('DiscountFactor',0.9)

opt = 

  rlPGAgentOptions with properties:

          UseBaseline: 1
    EntropyLossWeight: 0
           SampleTime: 1
       DiscountFactor: 0.9000

Можно изменить опции с помощью записи через точку. Например, установите шаг расчета агента на 0.5.

opt.SampleTime = 0.5;

Входные параметры

свернуть все

Аргументы в виде пар имя-значение

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: "DiscountFactor",0.95

`'UseBaseline'` — Используйте базовую линию в изучении
`true` (значение по умолчанию) | `false`

Инструкция использовать базовую линию в изучении, заданный как разделенная запятой пара, состоящая из 'UseBaseline' и логический true или false. WhenUseBaseline верно, необходимо задать сеть критика как базовую функцию approximator.

В общем случае для более простых проблем с меньшими сетями агента, агенты PG работают лучше без базовой линии.

`'SampleTime'` — Шаг расчета агента
1 (значение по умолчанию) | числовое значение

Шаг расчета агента, заданного как разделенная запятой пара, состоящая из 'SampleTime' и числовое значение.

`'DiscountFactor'` — Коэффициент дисконтирования
0.99 | числовое значение

Коэффициент дисконтирования применился к будущим вознаграждениям во время обучения, заданного как разделенная запятой пара, состоящая из 'DiscountFactor' и положительное числовое значение, меньше чем или равное 1.

`'EntropyLossWeight'` — Энтропийный вес потерь
0 (значение по умолчанию) | скалярное значение между `0` и `1`

Энтропийный вес потерь, заданный как разделенная запятой пара, состоящая из 'EntropyLossWeight' и скалярное значение между 0 и 1. Более высокое значение веса потерь способствует исследованию агента путем применения штрафа за то, что были слишком уверены в который действие взять. Выполнение так может помочь агенту переместиться из локальных оптимумов.

Энтропийная функция потерь для шага эпизода t:

$H_{t} = E \sum_{k = 1}^{M} μ_{k} (S_{t} | θ_{μ}) \ln μ_{k} (S_{t} | θ_{μ})$

Здесь:

E является энтропийным весом потерь.
M является количеством возможных действий.
_μk (_St) является вероятностью принимающего меры _Ak после текущей политики.

Когда градиенты вычисляются во время обучения, дополнительный компонент градиента вычисляется для минимизации этой функции потерь.

Выходные аргументы

свернуть все

`opt` — Опции агента PG
`rlPGAgentOptions`

Опции агента PG, возвращенные как rlPGAgentOptions объект. Свойства объектов описаны в Аргументах в виде пар имя-значение.

Документация

rlPGAgentOptions

Синтаксис

Описание

Примеры

Создайте объект опций агента PG

Входные параметры

Аргументы в виде пар имя-значение

`'UseBaseline'` — Используйте базовую линию в изучении
`true` (значение по умолчанию) | `false`

`'SampleTime'` — Шаг расчета агента
1 (значение по умолчанию) | числовое значение

`'DiscountFactor'` — Коэффициент дисконтирования
0.99 | числовое значение

`'EntropyLossWeight'` — Энтропийный вес потерь
0 (значение по умолчанию) | скалярное значение между `0` и `1`

Выходные аргументы

`opt` — Опции агента PG
`rlPGAgentOptions`

Смотрите также

Функции

Темы

Введенный в R2019a

Документация Reinforcement Learning Toolbox

Поддержка

Документация

rlPGAgentOptions

Синтаксис

Описание

Примеры

Создайте объект опций агента PG

Входные параметры

Аргументы в виде пар имя-значение

'UseBaseline' — Используйте базовую линию в изучении true (значение по умолчанию) | false

'SampleTime' — Шаг расчета агента1 (значение по умолчанию) | числовое значение

'DiscountFactor' — Коэффициент дисконтирования0.99 | числовое значение

'EntropyLossWeight' — Энтропийный вес потерь0 (значение по умолчанию) | скалярное значение между 0 и 1

Выходные аргументы

opt — Опции агента PG rlPGAgentOptions

Смотрите также

Функции

Темы

Введенный в R2019a

Документация Reinforcement Learning Toolbox

Поддержка

`'UseBaseline'` — Используйте базовую линию в изучении
`true` (значение по умолчанию) | `false`

`'SampleTime'` — Шаг расчета агента
1 (значение по умолчанию) | числовое значение

`'DiscountFactor'` — Коэффициент дисконтирования
0.99 | числовое значение

`'EntropyLossWeight'` — Энтропийный вес потерь
0 (значение по умолчанию) | скалярное значение между `0` и `1`

`opt` — Опции агента PG
`rlPGAgentOptions`