rlPGAgentOptions

Создайте опции для агента PG

Синтаксис

opt = rlPGAgentOptions
opt = rlPGAgentOptions(Name,Value)

Описание

пример

opt = rlPGAgentOptions создает объект rlPGAgentOptions для использования в качестве аргумента при создании агента PG с помощью всех настроек по умолчанию. Можно изменить свойства объектов с помощью записи через точку.

opt = rlPGAgentOptions(Name,Value) создает объект опций PG использование заданных пар "имя-значение", чтобы заменить значения свойств по умолчанию.

Примеры

свернуть все

Создайте объект опций агента PG, задав коэффициент дисконтирования.

opt = rlPGAgentOptions('DiscountFactor',0.9)
opt = 

  rlPGAgentOptions with properties:

          UseBaseline: 1
    EntropyLossWeight: 0
           SampleTime: 1
       DiscountFactor: 0.9000

Можно изменить опции с помощью записи через точку. Например, установите шаг расчета агента на 0.5.

opt.SampleTime = 0.5;

Входные параметры

свернуть все

Аргументы в виде пар имя-значение

Укажите необязательные аргументы в виде пар ""имя, значение"", разделенных запятыми. Имя (Name) — это имя аргумента, а значение (Value) — соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: "DiscountFactor",0.95

Инструкция использовать базовую линию для изучения, заданный как пара, разделенная запятой, состоящая из 'UseBaseline' и логического true или false. WhenUseBaseline верен, необходимо задать сеть критика как базовую функцию approximator.

В целом, для более простых проблем с меньшими сетями агента, агенты PG работают лучше без базовой линии.

Шаг расчета агента, заданного как пара, разделенная запятой, состоящая из 'SampleTime' и числового значения.

Коэффициент дисконтирования применился к будущим вознаграждениям во время обучения, заданного как пара, разделенная запятой, состоящая из 'DiscountFactor' и положительного числового значения, меньше чем или равного 1.

Энтропийный вес потерь, заданный как пара, разделенная запятой, состоящая из 'EntropyLossWeight' и скалярного значения между 0 и 1. Более высокое значение веса потерь способствует исследованию агента путем применения штрафа за то, что были слишком уверены в который действие взять. Выполнение так может помочь агенту переместиться из локальных оптимумов.

Энтропийная функция потерь для шага эпизода t:

Ht=Ek=1Mμk(St|θμ)lnμk(St|θμ)

Здесь:

  • E является энтропийным весом потерь.

  • M является количеством возможных действий.

  • μk (St) является вероятностью принимающего меры Ak после текущей политики.

Когда градиенты вычисляются во время обучения, дополнительный компонент градиента вычисляется для минимизации этой функции потерь.

Выходные аргументы

свернуть все

Опции агента PG, возвращенные как объект rlPGAgentOptions. Свойства объектов описаны в Аргументах в виде пар имя-значение.

Смотрите также

Функции

Введенный в R2019a

Для просмотра документации необходимо авторизоваться на сайте