rlPGAgentOptions

Опции для агента PG

Описание

Используйте rlPGAgentOptions объект задать опции для агентов градиента политики (PG). Чтобы создать агента PG, используйте rlPGAgent

Для получения дополнительной информации об агентах PG смотрите Агентов Градиента политики.

Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Агентов Обучения с подкреплением.

Создание

Описание

opt = rlPGAgentOptions создает rlPGAgentOptions объект для использования в качестве аргумента при создании агента PG с помощью всех настроек по умолчанию. Можно изменить свойства объектов с помощью записи через точку.

пример

opt = rlPGAgentOptions(Name,Value) свойства опции наборов с помощью пар "имя-значение". Например, rlPGAgentOptions('DiscountFactor',0.95) создает набор опции с коэффициентом дисконтирования 0.95. Можно задать несколько пар "имя-значение". Заключите каждое имя свойства в кавычки.

Свойства

развернуть все

Опция, чтобы использовать базовую линию для изучения в виде логического значения. Когда UseBaseline true, необходимо задать сеть критика как базовую функциональную аппроксимацию.

В общем случае для более простых проблем с меньшими сетями агента, агенты PG работают лучше без базовой линии.

Опция, чтобы возвратить действие с наибольшим правдоподобием для симуляции и генерации политики в виде логического значения. Когда UseDeterministicExploitation установлен в true, действие с наибольшим правдоподобием всегда используется в sim и generatePolicyFunction, какой casues агент, чтобы вести себя детерминировано.

Когда UseDeterministicExploitation установлен в false, демонстрационные действия агента от вероятностных распределений, который заставляет агента вести себя стохастическим образом.

Шаг расчета агента в виде положительной скалярной величины.

В среде Simulink® агент выполняется каждый SampleTime секунды времени симуляции.

В среде MATLAB® агент выполняется каждый раз усовершенствования среды. Однако SampleTime временной интервал между последовательными элементами в выходном опыте, возвращенном sim или train.

Коэффициент дисконтирования применился к будущим вознаграждениям во время обучения в виде положительной скалярной величины, меньше чем или равной 1.

Энтропийный вес потерь в виде скалярного значения между 0 и 1. Более высокое значение веса потерь способствует исследованию агента путем применения штрафа за то, что были слишком уверены в который действие взять. Выполнение так может помочь агенту переместиться из локальных оптимумов.

Поскольку эпизод продвигается t, энтропийная функция потерь, которая добавляется к функции потерь для обновлений агента:

Ht=Ek=1Mμk(St|θμ)lnμk(St|θμ)

Здесь:

  • E является энтропийным весом потерь.

  • M является количеством возможных действий.

  • μk (St |θμ) является вероятностью принимающего меры Ak когда в St состояния после текущей политики.

Когда градиенты вычисляются во время обучения, дополнительный компонент градиента вычисляется для минимизации этой функции потерь.

Функции объекта

rlPGAgentАгент обучения с подкреплением градиента политики

Примеры

свернуть все

В этом примере показано, как создать и изменить объект опций агента PG.

Создайте объект опций агента PG, задав коэффициент дисконтирования.

opt = rlPGAgentOptions('DiscountFactor',0.9)
opt = 
  rlPGAgentOptions with properties:

                     UseBaseline: 1
               EntropyLossWeight: 0
    UseDeterministicExploitation: 0
                      SampleTime: 1
                  DiscountFactor: 0.9000

Можно изменить опции с помощью записи через точку. Например, установите шаг расчета агента на 0.5.

opt.SampleTime = 0.5;

Смотрите также

Введенный в R2019a