exponenta event banner

rlQAgentOptions

Варианты для агента Q-learning

Описание

Использовать rlQAgentOptions задание параметров для создания Q-обучающих агентов. Для создания агента Q-learning используйте rlQAgent

Дополнительные сведения об агентах Q-learning см. в разделе Агенты Q-Learning.

Дополнительные сведения о различных типах агентов обучения усилению см. в разделе Агенты обучения усилению.

Создание

Описание

opt = rlQAgentOptions создает rlQAgentOptions для использования в качестве аргумента при создании агента Q-learning с использованием всех настроек по умолчанию. Свойства объекта можно изменить с помощью точечной нотации.

opt = rlQAgentOptions(Name,Value)задает свойства опций, используя пары имя-значение. Например, rlQAgentOptions('DiscountFactor',0.95) создает набор опций с коэффициентом дисконтирования 0.95. Можно указать несколько пар имя-значение. Заключите каждое имя свойства в кавычки.

Свойства

развернуть все

Варианты эпсилон-жадной разведки, указанные как EpsilonGreedyExploration со следующими свойствами.

СобственностьОписаниеЗначение по умолчанию
EpsilonПорог вероятности для случайного выбора действия или выбора действия, которое максимизирует функцию значения состояния-действия. Большее значение Epsilon означает, что агент случайным образом исследует пространство действия с более высокой скоростью.1
EpsilonMinМинимальное значение Epsilon0.01
EpsilonDecayСкорость распада0.0050

В конце каждого шага времени обучения, если Epsilon больше, чем EpsilonMin, затем он обновляется по следующей формуле.

Epsilon = Epsilon*(1-EpsilonDecay)

Если агент слишком быстро сходится на локальном оптимуме, вы можете способствовать исследованию агента, увеличивая Epsilon.

Чтобы задать опции исследования, используйте точечную нотацию после создания rlQAgentOptions объект opt. Например, задайте значение epsilon равным 0.9.

opt.EpsilonGreedyExploration.Epsilon = 0.9;

Время выборки агента, указанное как положительный скаляр.

В среде Simulink ® агент выполняется каждыйSampleTime секунды времени моделирования.

В среде MATLAB ® агент выполняется каждый раз при продвижении среды. Однако SampleTime - интервал времени между последовательными элементами в опыте вывода, возвращаемый sim или train.

Коэффициент дисконтирования, применяемый к будущим вознаграждениям во время обучения, определяемый как положительный скаляр, меньший или равный 1.

Функции объекта

rlQAgentАгент по обучению Q-learning

Примеры

свернуть все

В этом примере показано, как создать объект параметров для агента Q-Learning.

Создание rlQAgentOptions объект, указывающий время выборки агента.

opt = rlQAgentOptions('SampleTime',0.5)
opt = 
  rlQAgentOptions with properties:

    EpsilonGreedyExploration: [1x1 rl.option.EpsilonGreedyExploration]
                  SampleTime: 0.5000
              DiscountFactor: 0.9900

Опции можно изменять с помощью точечных обозначений. Например, установите коэффициент скидки агента равным 0.95.

opt.DiscountFactor = 0.95;

См. также

Представлен в R2019a