rlPPOAgentOptions

Опции для ближайшего агента обучения с подкреплением оптимизации политики

Описание

Используйте rlPPOAgentOptions объект задать опции для агентов ближайшей оптимизации политики (PPO). Чтобы создать агента PPO, используйте rlPPOAgent

Для получения дополнительной информации об агентах PPO смотрите Ближайших Агентов Оптимизации политики.

Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Агентов Обучения с подкреплением.

Создание

Синтаксис

opt = rlPPOAgentOptions

opt = rlPPOAgentOptions(Name,Value)

Описание

opt = rlPPOAgentOptions создает rlPPOAgentOptions объект для использования в качестве аргумента при создании агента PPO с помощью всех настроек по умолчанию. Можно изменить свойства объектов с помощью записи через точку.

пример

opt = rlPPOAgentOptions(Name,Value) свойства опции наборов с помощью пар "имя-значение". Например, rlPPOAgentOptions('DiscountFactor',0.95) создает набор опции с коэффициентом дисконтирования 0.95. Можно задать несколько пар "имя-значение". Заключите каждое имя свойства в кавычки.

Свойства

развернуть все

`ExperienceHorizon` — Количество шагов агент взаимодействует со средой перед изучением
512 (значение по умолчанию) | положительное целое число

Количество шагов агент взаимодействует со средой перед учением из ее опыта в виде положительного целого числа.

ExperienceHorizon значение должно быть больше или быть равно MiniBatchSize значение.

`ClipFactor` — Фактор клипа
0.2 (значение по умолчанию) | положительная скалярная величина меньше, чем `1`

Фактор клипа для ограничения изменения в каждой политике обновляет шаг в виде положительной скалярной величины меньше, чем 1.

`EntropyLossWeight` — Энтропийный вес потерь
0.01 (значение по умолчанию) | скалярное значение больший `0` и `1`

Энтропийный вес потерь в виде скалярного значения между 0 и 1. Более высокое значение веса потерь способствует исследованию агента путем применения штрафа за то, что были слишком уверены в который действие взять. Выполнение так может помочь агенту переместиться из локальных оптимумов.

Поскольку эпизод продвигается t, энтропийная функция потерь, которая добавляется к функции потерь для обновлений агента:

$H_{t} = E \sum_{k = 1}^{M} μ_{k} (S_{t} | θ_{μ}) \ln μ_{k} (S_{t} | θ_{μ})$

Здесь:

E является энтропийным весом потерь.
M является количеством возможных действий.
_μk (_St |_θμ) является вероятностью принимающего меры _Ak когда в _St состояния после текущей политики.

`MiniBatchSize` — Мини-пакетный размер
128 (значение по умолчанию) | положительное целое число

Мини-пакетный размер используется в течение каждой эпохи изучения в виде положительного целого числа.

MiniBatchSize значение должно быть меньше чем или равно ExperienceHorizon значение.

`NumEpoch` — Номер эпох
3 (значение по умолчанию) | положительное целое число

Номер эпох, в течение которых агент и сети критика извлекают уроки из текущего набора опыта в виде положительного целого числа.

`AdvantageEstimateMethod` — Метод для оценки значений преимущества
`"gae"` (значение по умолчанию) | `"finite-horizon"`

Метод для оценки значений преимущества в виде одного из следующего:

"gae" — Обобщенное средство оценки преимущества
"finite-horizon" — Конечная оценка горизонта

Для получения дополнительной информации об этих методах смотрите информацию об алгоритме настройки в Ближайших Агентах Оптимизации политики.

`GAEFactor` — Коэффициент сглаживания для обобщенного средства оценки преимущества
0.95 (значение по умолчанию) | скалярное значение между `0` и `1`

Коэффициент сглаживания для обобщенного средства оценки преимущества в виде скалярного значения между 0 и 1, включительно. Эта опция применяется только когда AdvantageEstimateMethod опцией является "gae"

`SampleTime` — Шаг расчета агента
1 (значение по умолчанию) | положительная скалярная величина

Шаг расчета агента в виде положительной скалярной величины.

`DiscountFactor` — Коэффициент дисконтирования
0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

Коэффициент дисконтирования применился к будущим вознаграждениям во время обучения в виде положительной скалярной величины, меньше чем или равной 1.

Функции объекта

rlPPOAgent Ближайший агент обучения с подкреплением оптимизации политики

Примеры

свернуть все

Создайте объект опций агента PPO

Скрипт Open Live Script

Создайте объект опций агента PPO, задав горизонт опыта.

opt = rlPPOAgentOptions('ExperienceHorizon',256)

opt = 
  rlPPOAgentOptions with properties:

          ExperienceHorizon: 256
              MiniBatchSize: 128
                 ClipFactor: 0.2000
          EntropyLossWeight: 0.0100
                   NumEpoch: 3
    AdvantageEstimateMethod: "gae"
                  GAEFactor: 0.9500
                 SampleTime: 1
             DiscountFactor: 0.9900

Можно изменить опции с помощью записи через точку. Например, установите шаг расчета агента на 0.5.

opt.SampleTime = 0.5;

Документация

rlPPOAgentOptions

Описание

Создание

Синтаксис

Описание

Свойства

`ExperienceHorizon` — Количество шагов агент взаимодействует со средой перед изучением
512 (значение по умолчанию) | положительное целое число

`ClipFactor` — Фактор клипа
0.2 (значение по умолчанию) | положительная скалярная величина меньше, чем `1`

`EntropyLossWeight` — Энтропийный вес потерь
0.01 (значение по умолчанию) | скалярное значение больший `0` и `1`

`MiniBatchSize` — Мини-пакетный размер
128 (значение по умолчанию) | положительное целое число

`NumEpoch` — Номер эпох
3 (значение по умолчанию) | положительное целое число

`AdvantageEstimateMethod` — Метод для оценки значений преимущества
`"gae"` (значение по умолчанию) | `"finite-horizon"`

`GAEFactor` — Коэффициент сглаживания для обобщенного средства оценки преимущества
0.95 (значение по умолчанию) | скалярное значение между `0` и `1`

`SampleTime` — Шаг расчета агента
1 (значение по умолчанию) | положительная скалярная величина

`DiscountFactor` — Коэффициент дисконтирования
0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

Функции объекта

Примеры

Создайте объект опций агента PPO

Смотрите также

Темы

Введенный в R2019b

Документация Reinforcement Learning Toolbox

Поддержка

Документация

rlPPOAgentOptions

Описание

Создание

Синтаксис

Описание

Свойства

ExperienceHorizon — Количество шагов агент взаимодействует со средой перед изучением512 (значение по умолчанию) | положительное целое число

ClipFactor — Фактор клипа0.2 (значение по умолчанию) | положительная скалярная величина меньше, чем 1

EntropyLossWeight — Энтропийный вес потерь0.01 (значение по умолчанию) | скалярное значение больший 0 и 1

MiniBatchSize — Мини-пакетный размер128 (значение по умолчанию) | положительное целое число

NumEpoch — Номер эпох3 (значение по умолчанию) | положительное целое число

AdvantageEstimateMethod — Метод для оценки значений преимущества "gae" (значение по умолчанию) | "finite-horizon"

GAEFactor — Коэффициент сглаживания для обобщенного средства оценки преимущества0.95 (значение по умолчанию) | скалярное значение между 0 и 1

SampleTime — Шаг расчета агента1 (значение по умолчанию) | положительная скалярная величина

DiscountFactor — Коэффициент дисконтирования0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

Функции объекта

Примеры

Создайте объект опций агента PPO

Смотрите также

Темы

Введенный в R2019b

Документация Reinforcement Learning Toolbox

Поддержка

`ExperienceHorizon` — Количество шагов агент взаимодействует со средой перед изучением
512 (значение по умолчанию) | положительное целое число

`ClipFactor` — Фактор клипа
0.2 (значение по умолчанию) | положительная скалярная величина меньше, чем `1`

`EntropyLossWeight` — Энтропийный вес потерь
0.01 (значение по умолчанию) | скалярное значение больший `0` и `1`

`MiniBatchSize` — Мини-пакетный размер
128 (значение по умолчанию) | положительное целое число

`NumEpoch` — Номер эпох
3 (значение по умолчанию) | положительное целое число

`AdvantageEstimateMethod` — Метод для оценки значений преимущества
`"gae"` (значение по умолчанию) | `"finite-horizon"`

`GAEFactor` — Коэффициент сглаживания для обобщенного средства оценки преимущества
0.95 (значение по умолчанию) | скалярное значение между `0` и `1`

`SampleTime` — Шаг расчета агента
1 (значение по умолчанию) | положительная скалярная величина

`DiscountFactor` — Коэффициент дисконтирования
0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1