rlSARSAAgentOptions

Опции для агента SARSA

Описание

Используйте rlSARSAAgentOptions объект задать опции для создания агентов SARSA. Чтобы создать агента SARSA, используйте rlSARSAAgent

Для получения дополнительной информации об агентах SARSA см. Агентов SARSA.

Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Агентов Обучения с подкреплением.

Создание

Синтаксис

opt = rlSARSAAgentOptions

opt = rlSARSAAgentOptions(Name,Value)

Описание

opt = rlSARSAAgentOptions создает rlSARSAAgentOptions объект для использования в качестве аргумента при создании агента SARSA с помощью всех настроек по умолчанию. Можно изменить свойства объектов с помощью записи через точку.

пример

opt = rlSARSAAgentOptions(Name,Value) свойства опции наборов с помощью пар "имя-значение". Например, rlSARSAAgentOptions('DiscountFactor',0.95) создает набор опции с коэффициентом дисконтирования 0.95. Можно задать несколько пар "имя-значение". Заключите каждое имя свойства в кавычки.

Свойства

развернуть все

`EpsilonGreedyExploration` — Опции для эпсилон-жадного исследования
`EpsilonGreedyExploration` объект

Опции для эпсилон-жадного исследования в виде EpsilonGreedyExploration объект со следующими свойствами.

Свойство	Описание	Значение по умолчанию
`Epsilon`	Порог вероятности или к случайным образом выбирает действие или выбирает действие, которое максимизирует функцию ценности состояния активности. Большее значение `Epsilon` средние значения, что агент случайным образом исследует пространство действий на более высоком уровне.	1
`EpsilonMin`	Минимальное значение `Epsilon`	0.01
`EpsilonDecay`	Уровень затухания	0.0050

В конце каждого учебного временного шага, если Epsilon больше EpsilonMin, затем это обновляется с помощью следующей формулы.

Epsilon = Epsilon*(1-EpsilonDecay)

Если ваш агент сходится на локальных оптимумах слишком быстро, можно способствовать исследованию агента путем увеличения Epsilon.

Чтобы задать опции исследования, используйте запись через точку после создания rlSARSAAgentOptions объект opt. Например, установите значение эпсилона к 0.9.

opt.EpsilonGreedyExploration.Epsilon = 0.9;

`SampleTime` — Шаг расчета агента
1 (значение по умолчанию) | положительная скалярная величина

Шаг расчета агента в виде положительной скалярной величины.

В Simulink^® среда, агент выполняется каждый SampleTime секунды времени симуляции.

В MATLAB^® среда, агент выполняется каждый раз усовершенствования среды. Однако SampleTime временной интервал между последовательными элементами в выходном опыте, возвращенном sim или train.

`DiscountFactor` — Коэффициент дисконтирования
0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

Коэффициент дисконтирования применился к будущим вознаграждениям во время обучения в виде положительной скалярной величины, меньше чем или равной 1.

Функции объекта

rlSARSAAgent Агент обучения с подкреплением SARSA

Примеры

свернуть все

Создайте объект опций агента SARSA

Скрипт Open Live Script

В этом примере показано, как создать объект опции агента SARSA.

Создайте rlSARSAAgentOptions объект, который задает шаг расчета агента.

opt = rlSARSAAgentOptions('SampleTime',0.5)

opt = 
  rlSARSAAgentOptions with properties:

    EpsilonGreedyExploration: [1x1 rl.option.EpsilonGreedyExploration]
                  SampleTime: 0.5000
              DiscountFactor: 0.9900

Можно изменить опции с помощью записи через точку. Например, установите коэффициент дисконтирования агента на 0.95.

opt.DiscountFactor = 0.95;

Документация

rlSARSAAgentOptions

Описание

Создание

Синтаксис

Описание

Свойства

`EpsilonGreedyExploration` — Опции для эпсилон-жадного исследования
`EpsilonGreedyExploration` объект

`SampleTime` — Шаг расчета агента
1 (значение по умолчанию) | положительная скалярная величина

`DiscountFactor` — Коэффициент дисконтирования
0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

Функции объекта

Примеры

Создайте объект опций агента SARSA

Смотрите также

Темы

Документация Reinforcement Learning Toolbox

Поддержка

Документация

rlSARSAAgentOptions

Описание

Создание

Синтаксис

Описание

Свойства

EpsilonGreedyExploration — Опции для эпсилон-жадного исследования EpsilonGreedyExploration объект

SampleTime — Шаг расчета агента1 (значение по умолчанию) | положительная скалярная величина

DiscountFactor — Коэффициент дисконтирования0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

Функции объекта

Примеры

Создайте объект опций агента SARSA

Смотрите также

Темы

Документация Reinforcement Learning Toolbox

Поддержка

`EpsilonGreedyExploration` — Опции для эпсилон-жадного исследования
`EpsilonGreedyExploration` объект

`SampleTime` — Шаг расчета агента
1 (значение по умолчанию) | положительная скалярная величина

`DiscountFactor` — Коэффициент дисконтирования
0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1