rlQAgentOptions

Опции для агента Q-обучения

Описание

Используйте rlQAgentOptions объект задать опции для создания агентов Q-обучения. Чтобы создать агента Q-обучения, используйте rlQAgent

Для получения дополнительной информации об агентах Q-обучения смотрите Агентов Q-обучения.

Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Агентов Обучения с подкреплением.

Создание

Синтаксис

opt = rlQAgentOptions

opt = rlQAgentOptions(Name,Value)

Описание

opt = rlQAgentOptions создает rlQAgentOptions объект для использования в качестве аргумента при создании агента Q-обучения с помощью всех настроек по умолчанию. Можно изменить свойства объектов с помощью записи через точку.

opt = rlQAgentOptions(Name,Value)свойства опции наборов с помощью пар "имя-значение". Например, rlQAgentOptions('DiscountFactor',0.95) создает набор опции с коэффициентом дисконтирования 0.95. Можно задать несколько пар "имя-значение". Заключите каждое имя свойства в кавычки.

Свойства

развернуть все

`EpsilonGreedyExploration` — Опции для эпсилона жадное исследование
`EpsilonGreedyExploration` объект

Опции для эпсилона жадное исследование в виде EpsilonGreedyExploration объект со следующими свойствами числового значения.

Свойство	Описание
`Epsilon`	Порог вероятности или к случайным образом выбирает действие или выбирает действие, которое максимизирует функцию ценности состояния активности. Большее значение `Epsilon` средние значения, что агент случайным образом исследует пространство действий на более высоком уровне.
`EpsilonMin`	Минимальное значение `Epsilon`
`EpsilonDecay`	Уровень затухания

Epsilon обновляется с помощью следующей формулы, когда она больше EpsilonMin:

Epsilon = Epsilon*(1-EpsilonDecay)

Чтобы задать опции исследования, используйте запись через точку после создания rlQAgentOptions объект. Например, установите порог вероятности к 0.9.

opt = rlQAgentOptions;
opt.EpsilonGreedyExploration.Epsilon = 0.9;

`SampleTime` — Шаг расчета агента
1 (значение по умолчанию) | положительная скалярная величина

Шаг расчета агента в виде положительной скалярной величины.

В окружении Simulink агент выполняется каждый SampleTime секунды времени симуляции.

В среде MATLAB агент выполняется каждый раз усовершенствования среды. Однако SampleTime временной интервал между последовательными элементами в выходном опыте, возвращенном sim или train.

`DiscountFactor` — Коэффициент дисконтирования
0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

Коэффициент дисконтирования применился к будущим вознаграждениям во время обучения в виде положительной скалярной величины, меньше чем или равной 1.

Функции объекта

rlQAgent Агент обучения с подкреплением Q-изучения

Примеры

свернуть все

Создайте объект опций агента Q-обучения

Скрипт Open Live Script

В этом примере показано, как создать, опции возражают для Агента Q-обучения.

Создайте rlQAgentOptions объект, который задает шаг расчета агента.

opt = rlQAgentOptions('SampleTime',0.5)

opt = 
  rlQAgentOptions with properties:

    EpsilonGreedyExploration: [1x1 rl.option.EpsilonGreedyExploration]
                  SampleTime: 0.5000
              DiscountFactor: 0.9900

Можно изменить опции с помощью записи через точку. Например, установите коэффициент дисконтирования агента на 0.95.

opt.DiscountFactor = 0.95;

Документация

rlQAgentOptions

Описание

Создание

Синтаксис

Описание

Свойства

`EpsilonGreedyExploration` — Опции для эпсилона жадное исследование
`EpsilonGreedyExploration` объект

`SampleTime` — Шаг расчета агента
1 (значение по умолчанию) | положительная скалярная величина

`DiscountFactor` — Коэффициент дисконтирования
0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

Функции объекта

Примеры

Создайте объект опций агента Q-обучения

Смотрите также

Темы

Документация Reinforcement Learning Toolbox

Поддержка

Документация

rlQAgentOptions

Описание

Создание

Синтаксис

Описание

Свойства

EpsilonGreedyExploration — Опции для эпсилона жадное исследование EpsilonGreedyExploration объект

SampleTime — Шаг расчета агента1 (значение по умолчанию) | положительная скалярная величина

DiscountFactor — Коэффициент дисконтирования0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

Функции объекта

Примеры

Создайте объект опций агента Q-обучения

Смотрите также

Темы

Документация Reinforcement Learning Toolbox

Поддержка

`EpsilonGreedyExploration` — Опции для эпсилона жадное исследование
`EpsilonGreedyExploration` объект

`SampleTime` — Шаг расчета агента
1 (значение по умолчанию) | положительная скалярная величина

`DiscountFactor` — Коэффициент дисконтирования
0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1