rlPPOAgentOptions

Создайте опции для агента PPO

Описание

пример

opt = rlPPOAgentOptions создает rlPPOAgentOptions объект для использования в качестве аргумента при создании агента PPO с помощью всех настроек по умолчанию. Можно изменить свойства объектов с помощью записи через точку.

opt = rlPPOAgentOptions(Name,Value) создает объект опций агента PPO использование заданных пар "имя-значение", чтобы заменить значения свойств по умолчанию.

Примеры

свернуть все

Создайте объект опций агента PPO, задав горизонт опыта.

opt = rlPPOAgentOptions('ExperienceHorizon',256)
opt = 
  rlPPOAgentOptions with properties:

          ExperienceHorizon: 256
              MiniBatchSize: 128
                 ClipFactor: 0.2000
          EntropyLossWeight: 0.0100
                   NumEpoch: 3
    AdvantageEstimateMethod: "gae"
                  GAEFactor: 0.9500
                 SampleTime: 1
             DiscountFactor: 0.9900

Можно изменить опции с помощью записи через точку. Например, установите шаг расчета агента на 0.5.

opt.SampleTime = 0.5;

Входные параметры

свернуть все

Аргументы в виде пар имя-значение

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: 'ExperienceHorizon',256

Количество шагов агент взаимодействует со средой перед учением из ее опыта, заданного как разделенная запятой пара, состоящая из 'ExperienceHorizon' и положительное целое число.

ExperienceHorizon значение должно быть больше или быть равно MiniBatchSize значение.

Фактор клипа для ограничения изменения в каждой политике обновляет шаг, заданный как разделенная запятой пара, состоящая из 'ClipFactor' и положительная скалярная величина меньше, чем 1.

Энтропийный вес потерь, заданный как разделенная запятой пара, состоящая из 'EntropyLossWeight' и скалярное значение между 0 и 1. Более высокое значение веса потерь способствует исследованию агента путем применения штрафа за то, что были слишком уверены в который действие взять. Выполнение так может помочь агенту переместиться из локальных оптимумов.

Поскольку эпизод продвигается t, энтропийная функция потерь, которая добавляется к функции потерь для обновлений агента:

Ht=Ek=1Mμk(St|θμ)lnμk(St|θμ)

Здесь:

  • E является энтропийным весом потерь.

  • M является количеством возможных действий.

  • μk (St |θμ) является вероятностью принимающего меры Ak когда в St состояния после текущей политики.

Мини-пакетный размер используется в течение каждой эпохи изучения, заданной как разделенная запятой пара, состоящая из 'MiniBatchSize' и положительное целое число.

MiniBatchSize значение должно быть меньше чем или равно ExperienceHorizon значение.

Номер эпох, в течение которых агент и сети критика извлекают уроки из текущего набора опыта, заданного как разделенная запятой пара, состоящая из 'NumEpoch' и положительное целое число.

Метод для оценки значений преимущества, заданных как разделенная запятой пара, состоящая из 'AdvantageEstimateMethod' и одно из следующего:

  • "gae" — Обобщенное средство оценки преимущества

  • "finite-horizon" — Конечная оценка горизонта

Для получения дополнительной информации об этих методах смотрите учебную информацию об алгоритме в Ближайших Агентах Оптимизации политики.

Сглаживание фактора для обобщенного средства оценки преимущества, заданного как разделенная запятой пара, состоящая из 'GAEFactor' и скалярное значение между 0 и 1, включительно. Эта опция применяется только когда AdvantageEstimateMethod опцией является "gae"

Шаг расчета агента, заданного как разделенная запятой пара, состоящая из 'SampleTime' и положительная скалярная величина.

Коэффициент дисконтирования применился к будущим вознаграждениям во время обучения, заданного как разделенная запятой пара, состоящая из 'DiscountFactor' и положительная скалярная величина, меньше чем или равная 1.

Выходные аргументы

свернуть все

Опции агента PPO, возвращенные как rlPPOAgentOptions объект. Свойства объектов описаны в Аргументах в виде пар имя-значение.

Введенный в R2019b