rlQAgentOptions

Опции для агента Q-обучения

Описание

Используйте rlQAgentOptions объект задать опции для создания агентов Q-обучения. Чтобы создать агента Q-обучения, используйте rlQAgent

Для получения дополнительной информации об агентах Q-обучения смотрите Агентов Q-обучения.

Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Агентов Обучения с подкреплением.

Создание

Описание

opt = rlQAgentOptions создает rlQAgentOptions объект для использования в качестве аргумента при создании агента Q-обучения с помощью всех настроек по умолчанию. Можно изменить свойства объектов с помощью записи через точку.

opt = rlQAgentOptions(Name,Value)свойства опции наборов с помощью пар "имя-значение". Например, rlQAgentOptions('DiscountFactor',0.95) создает набор опции с коэффициентом дисконтирования 0.95. Можно задать несколько пар "имя-значение". Заключите каждое имя свойства в кавычки.

Свойства

развернуть все

Опции для эпсилон-жадного исследования в виде EpsilonGreedyExploration объект со следующими свойствами.

СвойствоОписаниеЗначение по умолчанию
EpsilonПорог вероятности или к случайным образом выбирает действие или выбирает действие, которое максимизирует функцию ценности состояния активности. Большее значение Epsilon средние значения, что агент случайным образом исследует пространство действий на более высоком уровне.1
EpsilonMinМинимальное значение Epsilon0.01
EpsilonDecayУровень затухания0.0050

В конце каждого учебного временного шага, если Epsilon больше EpsilonMin, затем это обновляется с помощью следующей формулы.

Epsilon = Epsilon*(1-EpsilonDecay)

Если ваш агент сходится на локальных оптимумах слишком быстро, можно способствовать исследованию агента путем увеличения Epsilon.

Чтобы задать опции исследования, используйте запись через точку после создания rlQAgentOptions объект opt. Например, установите значение эпсилона к 0.9.

opt.EpsilonGreedyExploration.Epsilon = 0.9;

Шаг расчета агента в виде положительной скалярной величины.

В среде Simulink® агент выполняется каждый SampleTime секунды времени симуляции.

В среде MATLAB® агент выполняется каждый раз усовершенствования среды. Однако SampleTime временной интервал между последовательными элементами в выходном опыте, возвращенном sim или train.

Коэффициент дисконтирования применился к будущим вознаграждениям во время обучения в виде положительной скалярной величины, меньше чем или равной 1.

Функции объекта

rlQAgentАгент обучения с подкреплением Q-изучения

Примеры

свернуть все

В этом примере показано, как создать, опции возражают для Агента Q-обучения.

Создайте rlQAgentOptions объект, который задает шаг расчета агента.

opt = rlQAgentOptions('SampleTime',0.5)
opt = 
  rlQAgentOptions with properties:

    EpsilonGreedyExploration: [1x1 rl.option.EpsilonGreedyExploration]
                  SampleTime: 0.5000
              DiscountFactor: 0.9900

Можно изменить опции с помощью записи через точку. Например, установите коэффициент дисконтирования агента на 0.95.

opt.DiscountFactor = 0.95;

Смотрите также

Введенный в R2019a