rlACAgentOptions

Опции для агента переменного тока

Описание

Использовать rlACAgentOptions задание параметров для создания агентов «актер-критик» (AC). Для создания агента актера-критика используйте rlACAgent

Дополнительные сведения см. в разделе Агенты актера-критика.

Дополнительные сведения о различных типах агентов обучения усилению см. в разделе Агенты обучения усилению.

Создание

Синтаксис

opt = rlACAgentOptions

opt = rlACAgentOptions (имя, значение)

Описание

opt = rlACAgentOptions создает набор параметров по умолчанию для агента переменного тока. Свойства объекта можно изменить с помощью точечной нотации.

пример

opt = rlACAgentOptions(Name,Value) задает свойства опций, используя пары имя-значение. Например, rlDQNAgentOptions('DiscountFactor',0.95) создает набор опций с коэффициентом дисконтирования 0.95. Можно указать несколько пар имя-значение. Заключите каждое имя свойства в кавычки.

Свойства

развернуть все

`NumStepsToLookAhead` - Количество шагов вперед
`32` (по умолчанию) | положительное целое число

Количество шагов, на которых агент взаимодействует с окружающей средой перед изучением опыта, определяемое как положительное целое число. Когда агент использует рецидивирующую нейронную сеть, NumStepsToLookAhead рассматривается как длина учебной траектории.

`EntropyLossWeight` - Вес потери энтропии
`0` (по умолчанию) | скалярное значение между `0` и `1`

Вес потери энтропии, заданный как скалярное значение между 0 и 1. Более высокое значение веса потери способствует исследованию агента, применяя штраф за то, что он слишком уверен в том, какое действие предпринять. Это может помочь агенту выйти из локальной оптимизации.

Для шага t эпизода функция потери энтропии, которая добавляется к функции потери для обновлений актера, является:

$_{}_{}^{}_{Ht=E∑k=1Mμk} (_{}_{} St 'ü_{}_{}_{}$

Здесь:

E - вес потери энтропии.
M - количество возможных действий.
_мкК (_{St 'startλ}) - вероятность осуществления действия _Ak, когда в состоянии _St следует текущей политике.

Когда градиенты вычисляются во время обучения, вычисляется дополнительный градиентный компонент для минимизации этой функции потерь.

`UseDeterministicExploitation` - Использовать действие с максимальной вероятностью
`false` (по умолчанию) | `true`

Параметр для возврата действия с максимальной вероятностью для моделирования и создания политики, заданного как логическое значение. Когда UseDeterministicExploitation имеет значение true, действие с максимальной вероятностью всегда используется в sim и generatePolicyFunction, что заставляет агента вести себя детерминированно.

Когда UseDeterministicExploitation имеет значение falseагент выполняет выборку действий из распределения вероятностей, что заставляет агента вести себя стохастически.

`SampleTime` - Время пробы агента
`1` (по умолчанию) | положительный скаляр

Время выборки агента, указанное как положительный скаляр.

В среде Simulink ® агент выполняется каждыйSampleTime секунды времени моделирования.

В среде MATLAB ® агент выполняется каждый раз при продвижении среды. Однако SampleTime - интервал времени между последовательными элементами в опыте вывода, возвращаемый sim или train.

`DiscountFactor` - Коэффициент дисконтирования
`0.99` (по умолчанию) | положительный скаляр меньше или равен 1

Коэффициент дисконтирования, применяемый к будущим вознаграждениям во время обучения, определяемый как положительный скаляр, меньший или равный 1.

Функции объекта

rlACAgent Актерско-критический агент по обучению

Примеры

свернуть все

Создать объект параметров агента AC

Открыть сценарий в реальном времени

Создайте объект параметров агента AC, указав коэффициент дисконтирования.

opt = rlACAgentOptions('DiscountFactor',0.95)

opt = 
  rlACAgentOptions with properties:

             NumStepsToLookAhead: 32
               EntropyLossWeight: 0
    UseDeterministicExploitation: 0
                      SampleTime: 1
                  DiscountFactor: 0.9500

Опции можно изменять с помощью точечных обозначений. Например, установите время выборки агента равным 0.5.

opt.SampleTime = 0.5;

Вопросы совместимости

развернуть все

Значение по умолчанию для `NumStepsToLookAhead` изменено на 32

Изменение поведения в будущем выпуске

Значение 32 для этого свойства должно быть лучше 1 для большинства сред. Если вы несете MATLAB R2020b или более поздней версии и вы хотите воспроизвести, как rlACAgent вел себя в версиях до R2020b, установите для этого значения значение 1.

См. также

Темы

Актер-критик Агенты

Представлен в R2019a

Документация

rlACAgentOptions

Описание

Создание

Синтаксис

Описание

Свойства

`NumStepsToLookAhead` - Количество шагов вперед
`32` (по умолчанию) | положительное целое число

`EntropyLossWeight` - Вес потери энтропии
`0` (по умолчанию) | скалярное значение между `0` и `1`

`UseDeterministicExploitation` - Использовать действие с максимальной вероятностью
`false` (по умолчанию) | `true`

`SampleTime` - Время пробы агента
`1` (по умолчанию) | положительный скаляр

`DiscountFactor` - Коэффициент дисконтирования
`0.99` (по умолчанию) | положительный скаляр меньше или равен 1

Функции объекта

Примеры

Создать объект параметров агента AC

Вопросы совместимости

Значение по умолчанию для `NumStepsToLookAhead` изменено на 32

См. также

Темы

Документация по инструментам обучения для усиления

Поддержка

Документация

rlACAgentOptions

Описание

Создание

Синтаксис

Описание

Свойства

NumStepsToLookAhead - Количество шагов вперед 32 (по умолчанию) | положительное целое число

EntropyLossWeight - Вес потери энтропии 0 (по умолчанию) | скалярное значение между 0 и 1

UseDeterministicExploitation - Использовать действие с максимальной вероятностью false (по умолчанию) | true

SampleTime - Время пробы агента 1 (по умолчанию) | положительный скаляр

DiscountFactor - Коэффициент дисконтирования 0.99 (по умолчанию) | положительный скаляр меньше или равен 1

Функции объекта

Примеры

Создать объект параметров агента AC

Вопросы совместимости

Значение по умолчанию для NumStepsToLookAhead изменено на 32

См. также

Темы

Документация по инструментам обучения для усиления

Поддержка

`NumStepsToLookAhead` - Количество шагов вперед
`32` (по умолчанию) | положительное целое число

`EntropyLossWeight` - Вес потери энтропии
`0` (по умолчанию) | скалярное значение между `0` и `1`

`UseDeterministicExploitation` - Использовать действие с максимальной вероятностью
`false` (по умолчанию) | `true`

`SampleTime` - Время пробы агента
`1` (по умолчанию) | положительный скаляр

`DiscountFactor` - Коэффициент дисконтирования
`0.99` (по умолчанию) | положительный скаляр меньше или равен 1

Значение по умолчанию для `NumStepsToLookAhead` изменено на 32