rlACAgentOptions

Опции для агента AC

Описание

Используйте rlACAgentOptions объект задать опции для создания агентов критика агента (AC). Чтобы создать агента критика агента, используйте rlACAgent

Для получения дополнительной информации смотрите Агентов Критика Агента.

Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Агентов Обучения с подкреплением.

Создание

Описание

opt = rlACAgentOptions создает набор опции по умолчанию для агента AC. Можно изменить свойства объектов с помощью записи через точку.

пример

opt = rlACAgentOptions(Name,Value) свойства опции наборов с помощью пар "имя-значение". Например, rlDQNAgentOptions('DiscountFactor',0.95) создает набор опции с коэффициентом дисконтирования 0.95. Можно задать несколько пар "имя-значение". Заключите каждое имя свойства в кавычки.

Свойства

развернуть все

Количество шагов, чтобы смотреть вперед в обучении модели в виде положительного целого числа. Для агентов AC количество шагов, чтобы смотреть вперед соответствует длине эпизода тренировки.

Энтропийный вес потерь в виде скалярного значения между 0 и 1, включительно. Более высокое значение веса потерь способствует исследованию агента путем применения штрафа за то, что были слишком уверены в который действие взять. Выполнение так может помочь агенту переместиться из локальных оптимумов.

Энтропийная функция потерь для шага эпизода t:

Ht=Ek=1Mμk(St|θμ)lnμk(St|θμ)

Здесь:

  • E является энтропийным весом потерь.

  • M является количеством возможных действий.

  • μk (St) является вероятностью принимающего меры Ak когда в St состояния после текущей политики.

Когда градиенты вычисляются во время обучения, дополнительный компонент градиента вычисляется для минимизации этой функции потерь.

Шаг расчета агента в виде положительной скалярной величины.

В окружении Simulink агент выполняется каждый SampleTime секунды времени симуляции.

В среде MATLAB агент выполняется каждый раз усовершенствования среды. Однако SampleTime временной интервал между последовательными элементами в выходном опыте, возвращенном sim или train.

Коэффициент дисконтирования применился к будущим вознаграждениям во время обучения в виде положительной скалярной величины, меньше чем или равной 1.

Функции объекта

rlACAgentАгент обучения с подкреплением критика агента

Примеры

свернуть все

Создайте объект опций агента AC, задав коэффициент дисконтирования.

opt = rlACAgentOptions('DiscountFactor',0.95)
opt = 
  rlACAgentOptions with properties:

    NumStepsToLookAhead: 32
      EntropyLossWeight: 0
             SampleTime: 1
         DiscountFactor: 0.9500

Можно изменить опции с помощью записи через точку. Например, установите шаг расчета агента на 0.5.

opt.SampleTime = 0.5;

Вопросы совместимости

развернуть все

Изменение поведения в будущем релизе

Смотрите также

Введенный в R2019a