rlTRPOAgentOptions

Опции для агента TRPO

Описание

Используйте rlTRPOAgentOptions объект задать опции для агентов доверительной оптимизации политики области (TRPO). Чтобы создать агента TRPO, использовать rlTRPOAgent.

Для получения дополнительной информации об агентах TRPO смотрите Доверительных Агентов Оптимизации политики области.

Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Агентов Обучения с подкреплением.

Создание

Описание

opt = rlTRPOAgentOptions создает rlPPOAgentOptions объект для использования в качестве аргумента при создании агента TRPO с помощью всех настроек по умолчанию. Можно изменить свойства объектов с помощью записи через точку.

пример

opt = rlTRPOAgentOptions(Name,Value) свойства опции наборов с помощью аргументов name-value. Например, rlTRPOAgentOptions('DiscountFactor',0.95) создает набор опции с коэффициентом дисконтирования 0.95. Можно задать несколько аргументов name-value. Заключите каждое имя свойства в кавычки.

Свойства

развернуть все

Количество шагов агент взаимодействует со средой перед учением из ее опыта в виде положительного целого числа.

ExperienceHorizon значение должно быть больше или быть равно MiniBatchSize значение.

Мини-пакетный размер используется в течение каждой эпохи изучения в виде положительного целого числа. Когда агент использует рекуррентную нейронную сеть, MiniBatchSize обработан как учебная длина траектории.

MiniBatchSize значение должно быть меньше чем или равно ExperienceHorizon значение.

Энтропийный вес потерь в виде скалярного значения между 0 и 1. Более высокое энтропийное значение веса потерь способствует исследованию агента путем применения штрафа за то, что были слишком уверены в который действие взять. Выполнение так может помочь агенту переместиться из локальных оптимумов.

Когда градиенты вычисляются во время обучения, дополнительный компонент градиента вычисляется для минимизации энтропийной потери. Для получения дополнительной информации смотрите Энтропийную Потерю.

Номер эпох, в течение которых агент и сети критика извлекают уроки из текущего набора опыта в виде положительного целого числа.

Метод для оценки значений преимущества в виде одного из следующего:

  • "gae" — Обобщенное средство оценки преимущества

  • "finite-horizon" — Конечная оценка горизонта

Для получения дополнительной информации об этих методах смотрите информацию об алгоритме настройки в Ближайших Агентах Оптимизации политики.

Коэффициент сглаживания для обобщенного средства оценки преимущества в виде скалярного значения между 0 и 1, включительно. Эта опция применяется только когда AdvantageEstimateMethod опцией является "gae"

Опция, чтобы возвратить действие с наибольшим правдоподобием для симуляции и генерации политики в виде логического значения. Когда UseDeterministicExploitation установлен в true, действие с наибольшим правдоподобием всегда используется в sim и generatePolicyFunction, который заставляет агента вести себя детерминировано.

Когда UseDeterministicExploitation установлен в false, демонстрационные действия агента от вероятностных распределений, который заставляет агента вести себя стохастическим образом.

Верхний предел для расхождения Kullback-Leibler (KL) между старой политикой и текущей политикой в виде положительной скалярной величины.

Максимальное количество итераций для метода сопряженных градиентов, достойного в виде положительного целого числа.

Коэффициент затухания метода сопряженных градиентов для числовой устойчивости в виде неотрицательного скаляра.

Допуск невязки метода сопряженных градиентов в виде положительной скалярной величины. Если невязка для алгоритма метода сопряженных градиентов ниже этого допуска, остановок алгоритма.

Как правило, значение по умолчанию работает хорошо на большинство случаев.

Количество итераций для линии ищет в виде положительного целого числа.

Как правило, значение по умолчанию работает хорошо на большинство случаев.

Метод для нормализации значений функции преимущества в виде одного из следующего:

  • "none" — Не нормируйте значения преимущества

  • "current" — Нормируйте функцию преимущества использование среднего и стандартного отклонения для текущего мини-пакета событий.

  • "moving" — Нормируйте функцию преимущества использование среднего и стандартного отклонения для движущегося окна недавних событий. Чтобы задать размер окна, установите AdvantageNormalizingWindow опция.

В некоторых средах можно улучшать производительность агента путем нормализации функции преимущества во время обучения. Агент нормирует функцию преимущества путем вычитания среднего значения преимущества и масштабирования стандартным отклонением.

Размер окна для нормализации значений функции преимущества в виде положительного целого числа. Используйте эту опцию когда NormalizedAdvantageMethod опцией является "moving".

Шаг расчета агента в виде положительной скалярной величины.

В Simulink® среда, агент выполняется каждый SampleTime секунды времени симуляции.

В MATLAB® среда, агент выполняется каждый раз усовершенствования среды. Однако SampleTime временной интервал между последовательными элементами в выходном опыте, возвращенном sim или train.

Коэффициент дисконтирования применился к будущим вознаграждениям во время обучения в виде положительной скалярной величины, меньше чем или равной 1.

Функции объекта

rlTRPOAgentДоверительный агент обучения с подкреплением оптимизации политики области

Примеры

свернуть все

Создайте объект опций агента TRPO, задав коэффициент дисконтирования.

opt = rlTRPOAgentOptions('DiscountFactor',0.9)
opt = 
  rlTRPOAgentOptions with properties:

                     ExperienceHorizon: 512
                         MiniBatchSize: 128
                     EntropyLossWeight: 0.0100
                              NumEpoch: 1
               AdvantageEstimateMethod: "gae"
                             GAEFactor: 0.9500
          UseDeterministicExploitation: 0
              ConjugateGradientDamping: 1.0000e-04
                     KLDivergenceLimit: 0.0100
        NumIterationsConjugateGradient: 10
               NumIterationsLineSearch: 10
    ConjugateGradientResidualTolerance: 1.0000e-08
             NormalizedAdvantageMethod: "none"
            AdvantageNormalizingWindow: 1000000
                            SampleTime: 1
                        DiscountFactor: 0.9000

Можно изменить опции с помощью записи через точку. Например, установите шаг расчета агента на 0.1.

opt.SampleTime = 0.1;
Введенный в R2021b