rlPGAgentOptions

Создайте опции для агента PG

Описание

пример

opt = rlPGAgentOptions создает rlPGAgentOptions объект для использования в качестве аргумента при создании агента PG с помощью всех настроек по умолчанию. Можно изменить свойства объектов с помощью записи через точку.

opt = rlPGAgentOptions(Name,Value) создает объект опций PG использование заданных пар "имя-значение", чтобы заменить значения свойств по умолчанию.

Примеры

свернуть все

Создайте объект опций агента PG, задав коэффициент дисконтирования.

opt = rlPGAgentOptions('DiscountFactor',0.9)
opt = 

  rlPGAgentOptions with properties:

          UseBaseline: 1
    EntropyLossWeight: 0
           SampleTime: 1
       DiscountFactor: 0.9000

Можно изменить опции с помощью записи через точку. Например, установите шаг расчета агента на 0.5.

opt.SampleTime = 0.5;

Входные параметры

свернуть все

Аргументы в виде пар имя-значение

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: "DiscountFactor",0.95

Инструкция использовать базовую линию в изучении, заданный как разделенная запятой пара, состоящая из 'UseBaseline' и логический true или false. WhenUseBaseline верно, необходимо задать сеть критика как базовую функцию approximator.

В общем случае для более простых проблем с меньшими сетями агента, агенты PG работают лучше без базовой линии.

Шаг расчета агента, заданного как разделенная запятой пара, состоящая из 'SampleTime' и числовое значение.

Коэффициент дисконтирования применился к будущим вознаграждениям во время обучения, заданного как разделенная запятой пара, состоящая из 'DiscountFactor' и положительное числовое значение, меньше чем или равное 1.

Энтропийный вес потерь, заданный как разделенная запятой пара, состоящая из 'EntropyLossWeight' и скалярное значение между 0 и 1. Более высокое значение веса потерь способствует исследованию агента путем применения штрафа за то, что были слишком уверены в который действие взять. Выполнение так может помочь агенту переместиться из локальных оптимумов.

Энтропийная функция потерь для шага эпизода t:

Ht=Ek=1Mμk(St|θμ)lnμk(St|θμ)

Здесь:

  • E является энтропийным весом потерь.

  • M является количеством возможных действий.

  • μk (St) является вероятностью принимающего меры Ak после текущей политики.

Когда градиенты вычисляются во время обучения, дополнительный компонент градиента вычисляется для минимизации этой функции потерь.

Выходные аргументы

свернуть все

Опции агента PG, возвращенные как rlPGAgentOptions объект. Свойства объектов описаны в Аргументах в виде пар имя-значение.

Смотрите также

Функции

Введенный в R2019a