rlSARSAAgentOptions

Опции для агента SARSA

Описание

Использование rlSARSAAgentOptions объект для задания опций для создания агентов SARSA. Чтобы создать агента SARSA, используйте rlSARSAAgent

Для получения дополнительной информации об агентах SARSA см. Раздел «Агенты SARSA».

Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Reinforcement Learning Agents.

Создание

Синтаксис

opt = rlSARSAAgentOptions

opt = rlSARSAAgentOptions(Name,Value)

Описание

opt = rlSARSAAgentOptions создает rlSARSAAgentOptions объект для использования в качестве аргумента при создании агента SARSA с использованием всех настроек по умолчанию. Вы можете изменить свойства объекта с помощью записи через точку.

пример

opt = rlSARSAAgentOptions(Name,Value) устанавливает свойства опции с помощью пар "имя-значение". Для примера, rlSARSAAgentOptions('DiscountFactor',0.95) создает набор опций с коэффициентом скидки 0.95. Можно задать несколько пары "имя-значение". Заключайте каждое имя свойства в кавычки.

Свойства

расширить все

`EpsilonGreedyExploration` - Опции проведения эпсилоново-жадных геологоразведочных работ
`EpsilonGreedyExploration` объект

Опции эпсилоново-жадных исследований, заданные как EpsilonGreedyExploration объект со следующими свойствами.

Свойство	Описание	Значение по умолчанию
`Epsilon`	Порог вероятности для случайного выбора действия или для выбора действия, которое максимизирует функцию ценности состояния активности. Большее значение `Epsilon` означает, что агент случайным образом исследует пространство действий с более высокой частотой.	`1`
`EpsilonMin`	Минимальное значение `Epsilon`	`0.01`
`EpsilonDecay`	Скорость распада	`0.0050`

В конце каждого временного шага обучения, если Epsilon больше EpsilonMin, затем оно обновляется по следующей формуле.

Epsilon = Epsilon*(1-EpsilonDecay)

Если ваш агент сходится к локальному оптимуму слишком быстро, вы можете способствовать исследованию агента, увеличивая Epsilon.

Чтобы задать опции исследования, используйте запись через точку после создания rlSARSAAgentOptions opt объекта. Для примера установите значение эпсилона 0.9.

opt.EpsilonGreedyExploration.Epsilon = 0.9;

`SampleTime` - Шаг расчета агента
`1` (по умолчанию) | положительная скалярная величина

Шаг расчета агента, заданная как положительная скалярная величина.

В Simulink^® окружение, агент выполняется каждый SampleTime секунды времени симуляции.

В MATLAB^® окружение, агент выполняется каждый раз, когда окружение прогрессирует. Однако SampleTime - временной интервал между последовательными элементами в выходном опыте, возвращаемый sim или train.

`DiscountFactor` - Коэффициент дисконтирования
`0.99` (по умолчанию) | положительная скалярная величина, меньше или равный 1

Коэффициент дисконтирования, применяемый к будущим вознаграждениям во время обучения, задается как положительная скалярная величина, меньше или равная 1.

Функции объекта

rlSARSAAgent Агент обучения с подкреплением SARSA

Примеры

свернуть все

Создайте объект опций агента SARSA

Открыть Live Script

В этом примере показано, как создать объект опции агента SARSA.

Создайте rlSARSAAgentOptions объект, который задает шаг расчета агентом.

opt = rlSARSAAgentOptions('SampleTime',0.5)

opt = 
  rlSARSAAgentOptions with properties:

    EpsilonGreedyExploration: [1x1 rl.option.EpsilonGreedyExploration]
                  SampleTime: 0.5000
              DiscountFactor: 0.9900

Можно изменять опции с помощью записи через точку. Для примера установите коэффициент скидки агента равным 0.95.

opt.DiscountFactor = 0.95;

См. также

Темы

Агенты SARSA

Введенный в R2019a

Документация

rlSARSAAgentOptions

Описание

Создание

Синтаксис

Описание

Свойства

`EpsilonGreedyExploration` - Опции проведения эпсилоново-жадных геологоразведочных работ
`EpsilonGreedyExploration` объект

`SampleTime` - Шаг расчета агента
`1` (по умолчанию) | положительная скалярная величина

`DiscountFactor` - Коэффициент дисконтирования
`0.99` (по умолчанию) | положительная скалярная величина, меньше или равный 1

Функции объекта

Примеры

Создайте объект опций агента SARSA

См. также

Темы

Документация по приложению Reinforcement Learning Toolbox

Поддержка

Документация

rlSARSAAgentOptions

Описание

Создание

Синтаксис

Описание

Свойства

EpsilonGreedyExploration - Опции проведения эпсилоново-жадных геологоразведочных работ EpsilonGreedyExploration объект

SampleTime - Шаг расчета агента 1 (по умолчанию) | положительная скалярная величина

DiscountFactor - Коэффициент дисконтирования 0.99 (по умолчанию) | положительная скалярная величина, меньше или равный 1

Функции объекта

Примеры

Создайте объект опций агента SARSA

См. также

Темы

Документация по приложению Reinforcement Learning Toolbox

Поддержка

`EpsilonGreedyExploration` - Опции проведения эпсилоново-жадных геологоразведочных работ
`EpsilonGreedyExploration` объект

`SampleTime` - Шаг расчета агента
`1` (по умолчанию) | положительная скалярная величина

`DiscountFactor` - Коэффициент дисконтирования
`0.99` (по умолчанию) | положительная скалярная величина, меньше или равный 1