rlPPOAgentOptions

Создайте опции для агента PPO

Синтаксис

opt = rlPPOAgentOptions

opt = rlPPOAgentOptions(Name,Value)

Описание

opt = rlPPOAgentOptions создает rlPPOAgentOptions объект для использования в качестве аргумента при создании агента PPO с помощью всех настроек по умолчанию. Можно изменить свойства объектов с помощью записи через точку.

opt = rlPPOAgentOptions(Name,Value) создает объект опций агента PPO использование заданных пар "имя-значение", чтобы заменить значения свойств по умолчанию.

Примеры

свернуть все

Создайте объект опций агента PPO

Скрипт Open Live Script

Создайте объект опций агента PPO, задав горизонт опыта.

opt = rlPPOAgentOptions('ExperienceHorizon',256)

opt = 
  rlPPOAgentOptions with properties:

          ExperienceHorizon: 256
              MiniBatchSize: 128
                 ClipFactor: 0.2000
          EntropyLossWeight: 0.0100
                   NumEpoch: 3
    AdvantageEstimateMethod: "gae"
                  GAEFactor: 0.9500
                 SampleTime: 1
             DiscountFactor: 0.9900

Можно изменить опции с помощью записи через точку. Например, установите шаг расчета агента на 0.5.

opt.SampleTime = 0.5;

Входные параметры

свернуть все

Аргументы в виде пар имя-значение

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: 'ExperienceHorizon',256

`'ExperienceHorizon'` — Количество шагов агент взаимодействует со средой перед изучением
512 (значение по умолчанию) | положительное целое число

Количество шагов агент взаимодействует со средой перед учением из ее опыта, заданного как разделенная запятой пара, состоящая из 'ExperienceHorizon' и положительное целое число.

ExperienceHorizon значение должно быть больше или быть равно MiniBatchSize значение.

`'ClipFactor'` — Фактор клипа
0.2 (значение по умолчанию) | положительная скалярная величина меньше, чем `1`

Фактор клипа для ограничения изменения в каждой политике обновляет шаг, заданный как разделенная запятой пара, состоящая из 'ClipFactor' и положительная скалярная величина меньше, чем 1.

`'EntropyLossWeight'` — Энтропийный вес потерь
0.01 (значение по умолчанию) | скалярное значение больший `0` и `1`

Энтропийный вес потерь, заданный как разделенная запятой пара, состоящая из 'EntropyLossWeight' и скалярное значение между 0 и 1. Более высокое значение веса потерь способствует исследованию агента путем применения штрафа за то, что были слишком уверены в который действие взять. Выполнение так может помочь агенту переместиться из локальных оптимумов.

Поскольку эпизод продвигается t, энтропийная функция потерь, которая добавляется к функции потерь для обновлений агента:

$H_{t} = E \sum_{k = 1}^{M} μ_{k} (S_{t} | θ_{μ}) \ln μ_{k} (S_{t} | θ_{μ})$

Здесь:

E является энтропийным весом потерь.
M является количеством возможных действий.
_μk (_St |_θμ) является вероятностью принимающего меры _Ak когда в _St состояния после текущей политики.

`'MiniBatchSize'` — Мини-пакетный размер
128 (значение по умолчанию) | положительное целое число

Мини-пакетный размер используется в течение каждой эпохи изучения, заданной как разделенная запятой пара, состоящая из 'MiniBatchSize' и положительное целое число.

MiniBatchSize значение должно быть меньше чем или равно ExperienceHorizon значение.

`'NumEpoch'` — Номер эпох
3 (значение по умолчанию) | положительное целое число

Номер эпох, в течение которых агент и сети критика извлекают уроки из текущего набора опыта, заданного как разделенная запятой пара, состоящая из 'NumEpoch' и положительное целое число.

`'AdvantageEstimateMethod'` — Метод для оценки значений преимущества
`"gae"` (значение по умолчанию) | `"finite-horizon"`

Метод для оценки значений преимущества, заданных как разделенная запятой пара, состоящая из 'AdvantageEstimateMethod' и одно из следующего:

"gae" — Обобщенное средство оценки преимущества
"finite-horizon" — Конечная оценка горизонта

Для получения дополнительной информации об этих методах смотрите учебную информацию об алгоритме в Ближайших Агентах Оптимизации политики.

`'GAEFactor'` — Сглаживание фактора для обобщенного средства оценки преимущества
0.95 (значение по умолчанию) | скалярное значение между `0` и `1`

Сглаживание фактора для обобщенного средства оценки преимущества, заданного как разделенная запятой пара, состоящая из 'GAEFactor' и скалярное значение между 0 и 1, включительно. Эта опция применяется только когда AdvantageEstimateMethod опцией является "gae"

`'SampleTime'` — Шаг расчета агента
1 (значение по умолчанию) | положительная скалярная величина

Шаг расчета агента, заданного как разделенная запятой пара, состоящая из 'SampleTime' и положительная скалярная величина.

`'DiscountFactor'` — Коэффициент дисконтирования
0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная `1`

Коэффициент дисконтирования применился к будущим вознаграждениям во время обучения, заданного как разделенная запятой пара, состоящая из 'DiscountFactor' и положительная скалярная величина, меньше чем или равная 1.

Выходные аргументы

свернуть все

`opt` — Опции агента PPO
`rlPPOAgentOptions` объект

Опции агента PPO, возвращенные как rlPPOAgentOptions объект. Свойства объектов описаны в Аргументах в виде пар имя-значение.

Документация

rlPPOAgentOptions

Синтаксис

Описание

Примеры

Создайте объект опций агента PPO

Входные параметры

Аргументы в виде пар имя-значение

`'ExperienceHorizon'` — Количество шагов агент взаимодействует со средой перед изучением
512 (значение по умолчанию) | положительное целое число

`'ClipFactor'` — Фактор клипа
0.2 (значение по умолчанию) | положительная скалярная величина меньше, чем `1`

`'EntropyLossWeight'` — Энтропийный вес потерь
0.01 (значение по умолчанию) | скалярное значение больший `0` и `1`

`'MiniBatchSize'` — Мини-пакетный размер
128 (значение по умолчанию) | положительное целое число

`'NumEpoch'` — Номер эпох
3 (значение по умолчанию) | положительное целое число

`'AdvantageEstimateMethod'` — Метод для оценки значений преимущества
`"gae"` (значение по умолчанию) | `"finite-horizon"`

`'GAEFactor'` — Сглаживание фактора для обобщенного средства оценки преимущества
0.95 (значение по умолчанию) | скалярное значение между `0` и `1`

`'SampleTime'` — Шаг расчета агента
1 (значение по умолчанию) | положительная скалярная величина

`'DiscountFactor'` — Коэффициент дисконтирования
0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная `1`

Выходные аргументы

`opt` — Опции агента PPO
`rlPPOAgentOptions` объект

Смотрите также

Функции

Темы

Введенный в R2019b

Документация Reinforcement Learning Toolbox

Поддержка

Документация

rlPPOAgentOptions

Синтаксис

Описание

Примеры

Создайте объект опций агента PPO

Входные параметры

Аргументы в виде пар имя-значение

'ExperienceHorizon' — Количество шагов агент взаимодействует со средой перед изучением512 (значение по умолчанию) | положительное целое число

'ClipFactor' — Фактор клипа0.2 (значение по умолчанию) | положительная скалярная величина меньше, чем 1

'EntropyLossWeight' — Энтропийный вес потерь0.01 (значение по умолчанию) | скалярное значение больший 0 и 1

'MiniBatchSize' — Мини-пакетный размер128 (значение по умолчанию) | положительное целое число

'NumEpoch' — Номер эпох3 (значение по умолчанию) | положительное целое число

'AdvantageEstimateMethod' — Метод для оценки значений преимущества "gae" (значение по умолчанию) | "finite-horizon"

'GAEFactor' — Сглаживание фактора для обобщенного средства оценки преимущества0.95 (значение по умолчанию) | скалярное значение между 0 и 1

'SampleTime' — Шаг расчета агента1 (значение по умолчанию) | положительная скалярная величина

'DiscountFactor' — Коэффициент дисконтирования0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

Выходные аргументы

opt — Опции агента PPO rlPPOAgentOptions объект

Смотрите также

Функции

Темы

Введенный в R2019b

Документация Reinforcement Learning Toolbox

Поддержка

`'ExperienceHorizon'` — Количество шагов агент взаимодействует со средой перед изучением
512 (значение по умолчанию) | положительное целое число

`'ClipFactor'` — Фактор клипа
0.2 (значение по умолчанию) | положительная скалярная величина меньше, чем `1`

`'EntropyLossWeight'` — Энтропийный вес потерь
0.01 (значение по умолчанию) | скалярное значение больший `0` и `1`

`'MiniBatchSize'` — Мини-пакетный размер
128 (значение по умолчанию) | положительное целое число

`'NumEpoch'` — Номер эпох
3 (значение по умолчанию) | положительное целое число

`'AdvantageEstimateMethod'` — Метод для оценки значений преимущества
`"gae"` (значение по умолчанию) | `"finite-horizon"`

`'GAEFactor'` — Сглаживание фактора для обобщенного средства оценки преимущества
0.95 (значение по умолчанию) | скалярное значение между `0` и `1`

`'SampleTime'` — Шаг расчета агента
1 (значение по умолчанию) | положительная скалярная величина

`'DiscountFactor'` — Коэффициент дисконтирования
0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная `1`

`opt` — Опции агента PPO
`rlPPOAgentOptions` объект