rlQAgentOptions

Опции для агента Q-обучения

Описание

Использование rlQAgentOptions объект, чтобы задать опции для создания агентов Q-обучения. Чтобы создать агента Q-обучения, используйте rlQAgent

Для получения дополнительной информации об агентах Q-обучения см. Раздел «Агенты Q-обучения».

Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Reinforcement Learning Agents.

Создание

Описание

opt = rlQAgentOptions создает rlQAgentOptions объект для использования в качестве аргумента при создании агента Q-обучения с использованием всех настроек по умолчанию. Вы можете изменить свойства объекта с помощью записи через точку.

opt = rlQAgentOptions(Name,Value)устанавливает свойства опции с помощью пар "имя-значение". Для примера, rlQAgentOptions('DiscountFactor',0.95) создает набор опций с коэффициентом скидки 0.95. Можно задать несколько пары "имя-значение". Заключайте каждое имя свойства в кавычки.

Свойства

расширить все

Опции эпсилоново-жадных исследований, заданные как EpsilonGreedyExploration объект со следующими свойствами.

СвойствоОписаниеЗначение по умолчанию
EpsilonПорог вероятности для случайного выбора действия или для выбора действия, которое максимизирует функцию ценности состояния активности. Большее значение Epsilon означает, что агент случайным образом исследует пространство действий с более высокой частотой.1
EpsilonMinМинимальное значение Epsilon0.01
EpsilonDecayСкорость распада0.0050

В конце каждого временного шага обучения, если Epsilon больше EpsilonMin, затем оно обновляется по следующей формуле.

Epsilon = Epsilon*(1-EpsilonDecay)

Если ваш агент сходится к локальному оптимуму слишком быстро, вы можете способствовать исследованию агента, увеличивая Epsilon.

Чтобы задать опции исследования, используйте запись через точку после создания rlQAgentOptions opt объекта. Для примера установите значение эпсилона 0.9.

opt.EpsilonGreedyExploration.Epsilon = 0.9;

Шаг расчета агента, заданная как положительная скалярная величина.

В Simulink® окружение, агент выполняется каждый SampleTime секунды времени симуляции.

В MATLAB® окружение, агент выполняется каждый раз, когда окружение прогрессирует. Однако SampleTime - временной интервал между последовательными элементами в выходном опыте, возвращаемый sim или train.

Коэффициент дисконтирования, применяемый к будущим вознаграждениям во время обучения, задается как положительная скалярная величина, меньше или равная 1.

Функции объекта

rlQAgentАгент обучения с подкреплением Q-обучения

Примеры

свернуть все

В этом примере показано, как создать объект опции для агента Q-обучения.

Создайте rlQAgentOptions объект, который задает шаг расчета агентом.

opt = rlQAgentOptions('SampleTime',0.5)
opt = 
  rlQAgentOptions with properties:

    EpsilonGreedyExploration: [1x1 rl.option.EpsilonGreedyExploration]
                  SampleTime: 0.5000
              DiscountFactor: 0.9900

Можно изменять опции с помощью записи через точку. Для примера установите коэффициент скидки агента равным 0.95.

opt.DiscountFactor = 0.95;

См. также

Введенный в R2019a