rlTD3AgentOptions

Опции для агента TD3

Описание

Используйте rlTD3AgentOptions объект задать опции для задержанного близнецами глубоко детерминированный градиент политики (TD3) агенты. Чтобы создать агента TD3, использовать rlTD3Agent

Для получения дополнительной информации смотрите Задержанный Близнецами Глубоко Детерминированные Агенты Градиента политики.

Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Агентов Обучения с подкреплением.

Создание

Синтаксис

opt = rlTD3AgentOptions

opt = rlTD3AgentOptions(Name,Value)

Описание

opt = rlTD3AgentOptions создает объект опций для использования в качестве аргумента при создании агента TD3 с помощью всех опций по умолчанию. Можно изменить свойства объектов с помощью записи через точку.

пример

opt = rlTD3AgentOptions(Name,Value) свойства опции наборов с помощью пар "имя-значение". Например, rlTD3AgentOptions('DiscountFactor',0.95) создает набор опции с коэффициентом дисконтирования 0.95. Можно задать несколько пар "имя-значение". Заключите каждое имя свойства в кавычки.

Свойства

развернуть все

`ExplorationModel` — Шум исследования опции модели
`GaussianActionNoise` объект (значение по умолчанию) | `OrnsteinUhlenbeckActionNoise` объект

Шумовые опции модели в виде GaussianActionNoise возразите или OrnsteinUhlenbeckActionNoise объект. Для получения дополнительной информации о шумовых моделях см. Шумовые Модели.

Для агента с несколькими действиями, если действия имеют различные области значений и модули, вероятно, что каждое действие требует различных шумовых параметров модели. Если действия имеют подобные области значений и модули, можно установить шумовые параметры для всех действий к тому же значению.

Например, для агента с двумя действиями, устанавливает отклонение каждого действия к различному значению при использовании того же уровня затухания для обоих отклонений.

opt = rlTD3AgentOptions;
opt.ExplorationModel.Variance = [0.1 0.2];
opt.ExplorationModel.VarianceDecayRate = 1e-4;

`TargetPolicySmoothModel` — Цель, сглаживающая шумовые опции модели
`GaussianActionNoise` объект

Цель, сглаживающая шумовые опции модели в виде GaussianActionNoise объект. Эта модель помогает действиям использования политики с высокими оценками Q-значения. Для получения дополнительной информации о шумовых моделях см. Шумовые Модели.

Для агента с несколькими действиями, если действия имеют различные области значений и модули, вероятно, что каждое действие требует различных сглаживающих шумовых параметров модели. Если действия имеют подобные области значений и модули, можно установить шумовые параметры для всех действий к тому же значению.

opt = rlTD3AgentOptions;
opt.TargetPolicySmoothModel.Variance = [0.1 0.2];
opt.TargetPolicySmoothModel.VarianceDecayRate = 1e-4;

`PolicyUpdateFrequency` — Количество шагов между обновлениями политики
2 (значение по умолчанию) | положительное целое число

Количество шагов между политикой обновляется в виде положительного целого числа.

`TargetSmoothFactor` — Коэффициент сглаживания для целевого агента и обновлений критика
0.005 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

Коэффициент сглаживания для целевого агента и критика обновляется в виде положительной скалярной величины, меньше чем или равной 1. Для получения дополнительной информации см. Целевые Методы Обновления.

`TargetUpdateFrequency` — Количество шагов между целевым агентом и обновлениями критика
2 (значение по умолчанию) | положительное целое число

Количество шагов между целевым агентом и критиком обновляется в виде положительного целого числа. Для получения дополнительной информации см. Целевые Методы Обновления.

`ResetExperienceBufferBeforeTraining` — Отметьте для очистки буфера опыта
`true` (значение по умолчанию) | `false`

Отметьте для очистки буфера опыта перед обучением в виде логического значения.

`SaveExperienceBufferWithAgent` — Отметьте для сохранения буфера опыта
`false` (значение по умолчанию) | `true`

Отметьте для того, чтобы сохранить буферные данные об опыте при сохранении агента в виде логического значения. Эта опция применяется и при сохранении агентов кандидата во время обучения и при сохранении агентов с помощью save функция.

Для некоторых агентов, таких как те с большим опытом буферные и основанные на изображении наблюдения, память, требуемая для сохранения их буфера опыта, является большой. В таких случаях, чтобы не сохранить буферные данные об опыте, устанавливают SaveExperienceBufferWithAgent к false.

Если вы планируете далее обучить своего сохраненного агента, можно начать обучение с буфера предыдущего опыта как начальная точка. В этом случае установите SaveExperienceBufferWithAgent к true.

`MiniBatchSize` — Размер случайного мини-пакета опыта
64 (значение по умолчанию) | положительное целое число

Размер случайного опыта мини-обрабатывает в пакетном режиме в виде положительного целого числа. Во время каждого эпизода тренировки агент случайным образом выборки испытывает от буфера опыта когда вычислительные градиенты для обновления свойств критика. Большие мини-пакеты уменьшают отклонение, когда вычислительные градиенты, но увеличивают вычислительное усилие.

`NumStepsToLookAhead` — Количество шагов вперед
1 (значение по умолчанию) | положительное целое число

Количество будущих вознаграждений раньше оценивало значение политики в виде положительного целого числа. См. [1], (Глава 7), для большего количества детали.

`ExperienceBufferLength` — Испытайте buffer size
10000 (значение по умолчанию) | положительное целое число

Испытайте buffer size в виде положительного целого числа. Во время обучения агент обновляет агента и критика, использующего мини-пакет событий, случайным образом произведенных от буфера.

`SampleTime` — Шаг расчета агента
1 (значение по умолчанию) | положительная скалярная величина

Шаг расчета агента в виде положительной скалярной величины.

В окружении Simulink агент выполняется каждый SampleTime секунды времени симуляции.

В среде MATLAB агент выполняется каждый раз усовершенствования среды. Однако SampleTime временной интервал между последовательными элементами в выходном опыте, возвращенном sim или train.

`DiscountFactor` — Коэффициент дисконтирования
0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

Коэффициент дисконтирования применился к будущим вознаграждениям во время обучения в виде положительной скалярной величины, меньше чем или равной 1.

Функции объекта

rlTD3Agent Задержанный близнецами глубоко детерминированный агент обучения с подкреплением градиента политики

Примеры

свернуть все

Создайте объект опций агента TD3

Скрипт Open Live Script

В этом примере показано, как создать объект опции агента TD3.

Создайте rlTD3AgentOptions объект, который задает мини-пакетный размер.

opt = rlTD3AgentOptions('MiniBatchSize',48)

opt = 
  rlTD3AgentOptions with properties:

                       ExplorationModel: [1x1 rl.option.GaussianActionNoise]
                TargetPolicySmoothModel: [1x1 rl.option.GaussianActionNoise]
                  PolicyUpdateFrequency: 2
                     TargetSmoothFactor: 0.0050
                  TargetUpdateFrequency: 2
    ResetExperienceBufferBeforeTraining: 1
          SaveExperienceBufferWithAgent: 0
                          MiniBatchSize: 48
                    NumStepsToLookAhead: 1
                 ExperienceBufferLength: 10000
                             SampleTime: 1
                         DiscountFactor: 0.9900

Можно изменить опции с помощью записи через точку. Например, установите шаг расчета агента на 0.5.

opt.SampleTime = 0.5;

Алгоритмы

развернуть все

Шумовые модели

Гауссов шум действия

GaussianActionNoise объект имеет следующие свойства числового значения.

Свойство	Описание	Значение по умолчанию (`ExplorationModel`)	Значение по умолчанию (`TargetPolicySmoothModel`)
`Mean`	Шумовое среднее значение модели	0	0
`VarianceDecayRate`	Уровень затухания отклонения	0	0
`Variance`	Шумовое отклонение модели	0.1	0.2
`VarianceMin`	Минимальное отклонение, которое должно быть меньше `Variance`	0.01	0.01
`LowerLimit`	Шумовой демонстрационный нижний предел	`-Inf`	-0.5
`UpperLimit`	Шумовой демонстрационный верхний предел	`Inf`	0.5

Гауссов шум производится как показано в следующем коде.

x = Mean + rand(ActionSize).*Variance
x = min(max(x,LowerLimit),UpperLimit);

На каждом шаге шага расчета отклонение затухает как показано в следующем коде.

decayedVariance = Variance.*(1 - VarianceDecayRate);
Variance = max(decayedVariance,VarianceMin);

Шум действия Орнстейна-Ахленбека

OrnsteinUhlenbeckActionNoise объект имеет следующие свойства числового значения.

Свойство	Описание	Значение по умолчанию
`InitialAction`	Начальное значение действия для шумовой модели	0
`Mean`	Шумовое среднее значение модели	0
`MeanAttractionConstant`	Постоянное определение, как быстро шумовой выход модели привлечен к среднему значению	0.15
`VarianceDecayRate`	Уровень затухания отклонения	0
`Variance`	Шумовое отклонение модели	0.3
`VarianceMin`	Минимальное отклонение	0

На каждом шаге шага расчета шумовая модель обновляется с помощью следующей формулы, где Ts шаг расчета агента.

x(k) = x(k-1) + MeanAttractionConstant.*(Mean - x(k-1)).*Ts
       + Variance.*randn(size(Mean)).*sqrt(Ts)

На каждом шаге шага расчета отклонение затухает как показано в следующем коде.

decayedVariance = Variance.*(1 - VarianceDecayRate);
Variance = max(decayedVariance,VarianceMin);

Для непрерывных сигналов действия важно установить шумовое отклонение соответственно поощрять исследование. Распространено иметь Variance*sqrt(Ts) будьте между 1% и 10% вашей области значений действия.

Если ваш агент сходится на локальных оптимумах слишком быстро, способствуйте исследованию агента путем увеличения количества шума; то есть, путем увеличения отклонения. Кроме того, чтобы увеличить исследование, можно уменьшать VarianceDecayRate.

Ссылки

[1] Саттон, Ричард С. и Эндрю Г. Барто. Обучение с подкреплением: Введение. Второй выпуск. Адаптивный Расчет и Машинное обучение. Кембридж, Масса: Нажатие MIT, 2018.

Смотрите также

Темы

Задержанный близнецами глубоко детерминированные агенты градиента политики

Введенный в R2020a

Документация

rlTD3AgentOptions

Описание

Создание

Синтаксис

Описание

Свойства

`ExplorationModel` — Шум исследования опции модели
`GaussianActionNoise` объект (значение по умолчанию) | `OrnsteinUhlenbeckActionNoise` объект

`TargetPolicySmoothModel` — Цель, сглаживающая шумовые опции модели
`GaussianActionNoise` объект

`PolicyUpdateFrequency` — Количество шагов между обновлениями политики
2 (значение по умолчанию) | положительное целое число

`TargetUpdateFrequency` — Количество шагов между целевым агентом и обновлениями критика
2 (значение по умолчанию) | положительное целое число

`ResetExperienceBufferBeforeTraining` — Отметьте для очистки буфера опыта
`true` (значение по умолчанию) | `false`

`SaveExperienceBufferWithAgent` — Отметьте для сохранения буфера опыта
`false` (значение по умолчанию) | `true`

`MiniBatchSize` — Размер случайного мини-пакета опыта
64 (значение по умолчанию) | положительное целое число

`NumStepsToLookAhead` — Количество шагов вперед
1 (значение по умолчанию) | положительное целое число

`ExperienceBufferLength` — Испытайте buffer size
10000 (значение по умолчанию) | положительное целое число

`SampleTime` — Шаг расчета агента
1 (значение по умолчанию) | положительная скалярная величина

`DiscountFactor` — Коэффициент дисконтирования
0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

Функции объекта

Примеры

Создайте объект опций агента TD3

Алгоритмы

Шумовые модели

Ссылки

Смотрите также

Темы

Документация Reinforcement Learning Toolbox

Поддержка

Документация

rlTD3AgentOptions

Описание

Создание

Синтаксис

Описание

Свойства

ExplorationModel — Шум исследования опции модели GaussianActionNoise объект (значение по умолчанию) | OrnsteinUhlenbeckActionNoise объект

TargetPolicySmoothModel — Цель, сглаживающая шумовые опции модели GaussianActionNoise объект

PolicyUpdateFrequency — Количество шагов между обновлениями политики2 (значение по умолчанию) | положительное целое число

TargetUpdateFrequency — Количество шагов между целевым агентом и обновлениями критика2 (значение по умолчанию) | положительное целое число

ResetExperienceBufferBeforeTraining — Отметьте для очистки буфера опыта true (значение по умолчанию) | false

SaveExperienceBufferWithAgent — Отметьте для сохранения буфера опыта false (значение по умолчанию) | true

MiniBatchSize — Размер случайного мини-пакета опыта64 (значение по умолчанию) | положительное целое число

NumStepsToLookAhead — Количество шагов вперед1 (значение по умолчанию) | положительное целое число

ExperienceBufferLength — Испытайте buffer size10000 (значение по умолчанию) | положительное целое число

SampleTime — Шаг расчета агента1 (значение по умолчанию) | положительная скалярная величина

DiscountFactor — Коэффициент дисконтирования0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

Функции объекта

Примеры

Создайте объект опций агента TD3

Алгоритмы

Шумовые модели

Ссылки

Смотрите также

Темы

Документация Reinforcement Learning Toolbox

Поддержка

`ExplorationModel` — Шум исследования опции модели
`GaussianActionNoise` объект (значение по умолчанию) | `OrnsteinUhlenbeckActionNoise` объект

`TargetPolicySmoothModel` — Цель, сглаживающая шумовые опции модели
`GaussianActionNoise` объект

`PolicyUpdateFrequency` — Количество шагов между обновлениями политики
2 (значение по умолчанию) | положительное целое число

`TargetUpdateFrequency` — Количество шагов между целевым агентом и обновлениями критика
2 (значение по умолчанию) | положительное целое число

`ResetExperienceBufferBeforeTraining` — Отметьте для очистки буфера опыта
`true` (значение по умолчанию) | `false`

`SaveExperienceBufferWithAgent` — Отметьте для сохранения буфера опыта
`false` (значение по умолчанию) | `true`

`MiniBatchSize` — Размер случайного мини-пакета опыта
64 (значение по умолчанию) | положительное целое число

`NumStepsToLookAhead` — Количество шагов вперед
1 (значение по умолчанию) | положительное целое число

`ExperienceBufferLength` — Испытайте buffer size
10000 (значение по умолчанию) | положительное целое число

`SampleTime` — Шаг расчета агента
1 (значение по умолчанию) | положительная скалярная величина

`DiscountFactor` — Коэффициент дисконтирования
0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1