rlPGAgentOptions

Опции для агента PG

Описание

Использовать rlPGAgentOptions объект для указания параметров агентов градиента политики (PG). Для создания агента PG используйте rlPGAgent

Дополнительные сведения об агентах PG см. в разделе Агенты градиента политики.

Дополнительные сведения о различных типах агентов обучения усилению см. в разделе Агенты обучения усилению.

Создание

Синтаксис

opt = rlPGAgentOptions

opt = rlPGAgentOptions (имя, значение)

Описание

opt = rlPGAgentOptions создает rlPGAgentOptions для использования в качестве аргумента при создании агента PG с использованием всех настроек по умолчанию. Свойства объекта можно изменить с помощью точечной нотации.

пример

opt = rlPGAgentOptions(Name,Value) задает свойства опций, используя пары имя-значение. Например, rlPGAgentOptions('DiscountFactor',0.95) создает набор опций с коэффициентом дисконтирования 0.95. Можно указать несколько пар имя-значение. Заключите каждое имя свойства в кавычки.

Свойства

развернуть все

`UseBaseline` - Использовать базовый уровень для обучения
`true` (по умолчанию) | `false`

Параметр использования базовой линии для обучения, определяемый как логическое значение. Когда UseBaseline является true, необходимо указать критическую сеть в качестве аппроксиматора базовой функции.

В общем, для более простых проблем с меньшими сетями акторов агенты PG работают лучше без базовой линии.

`UseDeterministicExploitation` - Использовать действие с максимальной вероятностью
`false` (по умолчанию) | `true`

Параметр для возврата действия с максимальной вероятностью для моделирования и создания политики, заданного как логическое значение. Когда UseDeterministicExploitation имеет значение true, действие с максимальной вероятностью всегда используется в sim и generatePolicyFunction, что заставляет агента вести себя детерминированно.

Когда UseDeterministicExploitation имеет значение falseагент выполняет выборку действий из распределения вероятностей, что заставляет агента вести себя стохастически.

`SampleTime` - Время пробы агента
`1` (по умолчанию) | положительный скаляр

Время выборки агента, указанное как положительный скаляр.

В среде Simulink ® агент выполняется каждыйSampleTime секунды времени моделирования.

В среде MATLAB ® агент выполняется каждый раз при продвижении среды. Однако SampleTime - интервал времени между последовательными элементами в опыте вывода, возвращаемый sim или train.

`DiscountFactor` - Коэффициент дисконтирования
`0.99` (по умолчанию) | положительный скаляр меньше или равен 1

Коэффициент дисконтирования, применяемый к будущим вознаграждениям во время обучения, определяемый как положительный скаляр, меньший или равный 1.

`EntropyLossWeight` - Вес потери энтропии
`0` (по умолчанию) | скалярное значение между `0` и `1`

Вес потери энтропии, заданный как скалярное значение между 0 и 1. Более высокое значение веса потери способствует исследованию агента, применяя штраф за то, что он слишком уверен в том, какое действие предпринять. Это может помочь агенту выйти из локальной оптимизации.

Для шага t эпизода функция потери энтропии, которая добавляется к функции потери для обновлений актера, является:

$_{}_{}^{}_{Ht=E∑k=1Mμk} (_{}_{} St 'ü_{}_{}_{}$

Здесь:

E - вес потери энтропии.
M - количество возможных действий.
_мкК (_{St 'startλ}) - вероятность осуществления действия _Ak, когда в состоянии _St следует текущей политике.

Когда градиенты вычисляются во время обучения, вычисляется дополнительный градиентный компонент для минимизации этой функции потерь.

Функции объекта

rlPGAgent Агент обучения для усиления градиента политики

Примеры

свернуть все

Создать объект параметров агента PG

Открыть сценарий в реальном времени

В этом примере показано, как создать и изменить объект параметров агента PG.

Создайте объект параметров агента PG, указав коэффициент дисконтирования.

opt = rlPGAgentOptions('DiscountFactor',0.9)

opt = 
  rlPGAgentOptions with properties:

                     UseBaseline: 1
               EntropyLossWeight: 0
    UseDeterministicExploitation: 0
                      SampleTime: 1
                  DiscountFactor: 0.9000

Опции можно изменять с помощью точечных обозначений. Например, установите время выборки агента равным 0.5.

opt.SampleTime = 0.5;

См. также

Темы

Агенты градиента политики

Представлен в R2019a

Документация

rlPGAgentOptions

Описание

Создание

Синтаксис

Описание

Свойства

`UseBaseline` - Использовать базовый уровень для обучения
`true` (по умолчанию) | `false`

`UseDeterministicExploitation` - Использовать действие с максимальной вероятностью
`false` (по умолчанию) | `true`

`SampleTime` - Время пробы агента
`1` (по умолчанию) | положительный скаляр

`DiscountFactor` - Коэффициент дисконтирования
`0.99` (по умолчанию) | положительный скаляр меньше или равен 1

`EntropyLossWeight` - Вес потери энтропии
`0` (по умолчанию) | скалярное значение между `0` и `1`

Функции объекта

Примеры

Создать объект параметров агента PG

См. также

Темы

Документация по инструментам обучения для усиления

Поддержка

Документация

rlPGAgentOptions

Описание

Создание

Синтаксис

Описание

Свойства

UseBaseline - Использовать базовый уровень для обучения true (по умолчанию) | false

UseDeterministicExploitation - Использовать действие с максимальной вероятностью false (по умолчанию) | true

SampleTime - Время пробы агента 1 (по умолчанию) | положительный скаляр

DiscountFactor - Коэффициент дисконтирования 0.99 (по умолчанию) | положительный скаляр меньше или равен 1

EntropyLossWeight - Вес потери энтропии 0 (по умолчанию) | скалярное значение между 0 и 1

Функции объекта

Примеры

Создать объект параметров агента PG

См. также

Темы

Документация по инструментам обучения для усиления

Поддержка

`UseBaseline` - Использовать базовый уровень для обучения
`true` (по умолчанию) | `false`

`UseDeterministicExploitation` - Использовать действие с максимальной вероятностью
`false` (по умолчанию) | `true`

`SampleTime` - Время пробы агента
`1` (по умолчанию) | положительный скаляр

`DiscountFactor` - Коэффициент дисконтирования
`0.99` (по умолчанию) | положительный скаляр меньше или равен 1

`EntropyLossWeight` - Вес потери энтропии
`0` (по умолчанию) | скалярное значение между `0` и `1`