rlPGAgentOptions

Опции для агента градиента политики

Описание

Используйте rlPGAgentOptions объект задать опции для агентов градиента политики (PG). Чтобы создать агента PG, используйте rlPGAgent

Для получения дополнительной информации об агентах PG смотрите Агентов Градиента политики.

Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Агентов Обучения с подкреплением.

Создание

Синтаксис

opt = rlPGAgentOptions

opt = rlPGAgentOptions(Name,Value)

Описание

opt = rlPGAgentOptions создает rlPGAgentOptions объект для использования в качестве аргумента при создании агента PG с помощью всех настроек по умолчанию. Можно изменить свойства объектов с помощью записи через точку.

пример

opt = rlPGAgentOptions(Name,Value) свойства опции наборов с помощью пар "имя-значение". Например, rlPGAgentOptions('DiscountFactor',0.95) создает набор опции с коэффициентом дисконтирования 0.95. Можно задать несколько пар "имя-значение". Заключите каждое имя свойства в кавычки.

Свойства

развернуть все

`UseBaseline` — Используйте базовую линию в изучении
`true` (значение по умолчанию) | `false`

Инструкция использовать базовую линию в изучении в виде логические значения. Когда UseBaseline верно, необходимо задать сеть критика как базовую функциональную аппроксимацию.

В общем случае для более простых проблем с меньшими сетями агента, агенты PG работают лучше без базовой линии.

`SampleTime` — Шаг расчета агента
1 (значение по умолчанию) | положительная скалярная величина

Шаг расчета агента в виде положительной скалярной величины.

`DiscountFactor` — Коэффициент дисконтирования
0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

Коэффициент дисконтирования применился к будущим вознаграждениям во время обучения в виде положительной скалярной величины, меньше чем или равной 1.

`EntropyLossWeight` — Энтропийный вес потерь
0 (значение по умолчанию) | скалярное значение между `0` и `1`

Энтропийный вес потерь в виде скалярного значения между 0 и 1. Более высокое значение веса потерь способствует исследованию агента путем применения штрафа за то, что были слишком уверены в который действие взять. Выполнение так может помочь агенту переместиться из локальных оптимумов.

Энтропийная функция потерь для шага эпизода t:

$H_{t} = E \sum_{k = 1}^{M} μ_{k} (S_{t} | θ_{μ}) \ln μ_{k} (S_{t} | θ_{μ})$

Здесь:

E является энтропийным весом потерь.
M является количеством возможных действий.
_μk (_St) является вероятностью принимающего меры _Ak после текущей политики.

Когда градиенты вычисляются во время обучения, дополнительный компонент градиента вычисляется для минимизации этой функции потерь.

Функции объекта

rlPGAgent Агент обучения с подкреплением градиента политики

Примеры

свернуть все

Создайте объект опций агента PG

Скрипт Open Live Script

В этом примере показано, как создать и изменить объект опций агента PG.

Создайте объект опций агента PG, задав коэффициент дисконтирования.

opt = rlPGAgentOptions('DiscountFactor',0.9)

opt = 
  rlPGAgentOptions with properties:

          UseBaseline: 1
    EntropyLossWeight: 0
           SampleTime: 1
       DiscountFactor: 0.9000

Можно изменить опции с помощью записи через точку. Например, установите шаг расчета агента на 0.5.

opt.SampleTime = 0.5;

Документация

rlPGAgentOptions

Описание

Создание

Синтаксис

Описание

Свойства

`UseBaseline` — Используйте базовую линию в изучении
`true` (значение по умолчанию) | `false`

`SampleTime` — Шаг расчета агента
1 (значение по умолчанию) | положительная скалярная величина

`DiscountFactor` — Коэффициент дисконтирования
0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

`EntropyLossWeight` — Энтропийный вес потерь
0 (значение по умолчанию) | скалярное значение между `0` и `1`

Функции объекта

Примеры

Создайте объект опций агента PG

Смотрите также

Темы

Введенный в R2019a

Документация Reinforcement Learning Toolbox

Поддержка

Документация

rlPGAgentOptions

Описание

Создание

Синтаксис

Описание

Свойства

UseBaseline — Используйте базовую линию в изучении true (значение по умолчанию) | false

SampleTime — Шаг расчета агента1 (значение по умолчанию) | положительная скалярная величина

DiscountFactor — Коэффициент дисконтирования0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

EntropyLossWeight — Энтропийный вес потерь0 (значение по умолчанию) | скалярное значение между 0 и 1

Функции объекта

Примеры

Создайте объект опций агента PG

Смотрите также

Темы

Введенный в R2019a

Документация Reinforcement Learning Toolbox

Поддержка

`UseBaseline` — Используйте базовую линию в изучении
`true` (значение по умолчанию) | `false`

`SampleTime` — Шаг расчета агента
1 (значение по умолчанию) | положительная скалярная величина

`DiscountFactor` — Коэффициент дисконтирования
0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

`EntropyLossWeight` — Энтропийный вес потерь
0 (значение по умолчанию) | скалярное значение между `0` и `1`