rlACAgentOptions

Создайте опции для агента AC

Синтаксис

opt = rlACAgentOptions
opt = rlACAgentOptions(Name,Value)

Описание

пример

opt = rlACAgentOptions создает объект rlACAgentOptions для использования в качестве аргумента при создании агента AC с помощью всех настроек по умолчанию. Можно изменить свойства объектов с помощью записи через точку.

opt = rlACAgentOptions(Name,Value) создает объект опций AC использование заданных пар "имя-значение", чтобы заменить значения свойств по умолчанию.

Примеры

свернуть все

Создайте объект опций агента AC, задав коэффициент дисконтирования.

opt = rlACAgentOptions('DiscountFactor',0.95)
opt = 

  rlACAgentOptions with properties:

    NumStepsToLookAhead: 1
      EntropyLossWeight: 0
             SampleTime: 1
         DiscountFactor: 0.9500

Можно изменить опции с помощью записи через точку. Например, установите шаг расчета агента на 0.5.

opt.SampleTime = 0.5;

Входные параметры

свернуть все

Аргументы в виде пар имя-значение

Укажите необязательные аргументы в виде пар ""имя, значение"", разделенных запятыми. Имя (Name) — это имя аргумента, а значение (Value) — соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: "ExperienceBufferLengh",8192

Шаг расчета агента, заданного как пара, разделенная запятой, состоящая из 'SampleTime' и числового значения.

Коэффициент дисконтирования применился к будущим вознаграждениям во время обучения, заданного как пара, разделенная запятой, состоящая из 'DiscountFactor' и положительного числового значения, меньше чем или равного 1.

Количество шагов, чтобы смотреть вперед в образцовом обучении, заданном как пара, разделенная запятой, состоящая из 'NumStepsToLookAhead' и числового положительного целочисленного значения. Для агентов AC количество шагов, чтобы смотреть вперед соответствует учебной длине эпизода.

Энтропийный вес потерь, заданный как пара, разделенная запятой, состоящая из 'EntropyLossWeight' и скалярного значения между 0 и 1. Более высокое значение веса потерь способствует исследованию агента путем применения штрафа за то, что были слишком уверены в который действие взять. Выполнение так может помочь агенту переместиться из локальных оптимумов.

Энтропийная функция потерь для шага эпизода t:

Ht=Ek=1Mμk(St|θμ)lnμk(St|θμ)

Здесь:

  • E является энтропийным весом потерь.

  • M является количеством возможных действий.

  • μk (St) является вероятностью принимающего меры Ak после текущей политики.

Когда градиенты вычисляются во время обучения, дополнительный компонент градиента вычисляется для минимизации этой функции потерь.

Выходные аргументы

свернуть все

Опции агента AC, возвращенные как объект rlACAgentOptions. Свойства объектов описаны в Аргументах в виде пар имя-значение.

Смотрите также

Функции

Введенный в R2019a

Для просмотра документации необходимо авторизоваться на сайте