exponenta event banner

rlACAgentOptions

Опции для агента переменного тока

Описание

Использовать rlACAgentOptions задание параметров для создания агентов «актер-критик» (AC). Для создания агента актера-критика используйте rlACAgent

Дополнительные сведения см. в разделе Агенты актера-критика.

Дополнительные сведения о различных типах агентов обучения усилению см. в разделе Агенты обучения усилению.

Создание

Описание

opt = rlACAgentOptions создает набор параметров по умолчанию для агента переменного тока. Свойства объекта можно изменить с помощью точечной нотации.

пример

opt = rlACAgentOptions(Name,Value) задает свойства опций, используя пары имя-значение. Например, rlDQNAgentOptions('DiscountFactor',0.95) создает набор опций с коэффициентом дисконтирования 0.95. Можно указать несколько пар имя-значение. Заключите каждое имя свойства в кавычки.

Свойства

развернуть все

Количество шагов, на которых агент взаимодействует с окружающей средой перед изучением опыта, определяемое как положительное целое число. Когда агент использует рецидивирующую нейронную сеть, NumStepsToLookAhead рассматривается как длина учебной траектории.

Вес потери энтропии, заданный как скалярное значение между 0 и 1. Более высокое значение веса потери способствует исследованию агента, применяя штраф за то, что он слишком уверен в том, какое действие предпринять. Это может помочь агенту выйти из локальной оптимизации.

Для шага t эпизода функция потери энтропии, которая добавляется к функции потери для обновлений актера, является:

Ht=E∑k=1Mμk (St 'ü

Здесь:

  • E - вес потери энтропии.

  • M - количество возможных действий.

  • мкК (St 'startλ) - вероятность осуществления действия Ak, когда в состоянии St следует текущей политике.

Когда градиенты вычисляются во время обучения, вычисляется дополнительный градиентный компонент для минимизации этой функции потерь.

Параметр для возврата действия с максимальной вероятностью для моделирования и создания политики, заданного как логическое значение. Когда UseDeterministicExploitation имеет значение true, действие с максимальной вероятностью всегда используется в sim и generatePolicyFunction, что заставляет агента вести себя детерминированно.

Когда UseDeterministicExploitation имеет значение falseагент выполняет выборку действий из распределения вероятностей, что заставляет агента вести себя стохастически.

Время выборки агента, указанное как положительный скаляр.

В среде Simulink ® агент выполняется каждыйSampleTime секунды времени моделирования.

В среде MATLAB ® агент выполняется каждый раз при продвижении среды. Однако SampleTime - интервал времени между последовательными элементами в опыте вывода, возвращаемый sim или train.

Коэффициент дисконтирования, применяемый к будущим вознаграждениям во время обучения, определяемый как положительный скаляр, меньший или равный 1.

Функции объекта

rlACAgentАктерско-критический агент по обучению

Примеры

свернуть все

Создайте объект параметров агента AC, указав коэффициент дисконтирования.

opt = rlACAgentOptions('DiscountFactor',0.95)
opt = 
  rlACAgentOptions with properties:

             NumStepsToLookAhead: 32
               EntropyLossWeight: 0
    UseDeterministicExploitation: 0
                      SampleTime: 1
                  DiscountFactor: 0.9500

Опции можно изменять с помощью точечных обозначений. Например, установите время выборки агента равным 0.5.

opt.SampleTime = 0.5;

Вопросы совместимости

развернуть все

Изменение поведения в будущем выпуске

См. также

Представлен в R2019a