rlDDPGAgentOptions

Опции для агента DDPG

Описание

Используйте rlDDPGAgentOptions объект задать опции для агентов глубоко детерминированного градиента политики (DDPG). Чтобы создать агента DDPG, используйте rlDDPGAgent.

Для получения дополнительной информации смотрите Глубоко Детерминированных Агентов Градиента политики.

Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Агентов Обучения с подкреплением.

Создание

Синтаксис

opt = rlDDPGAgentOptions

opt = rlDDPGAgentOptions(Name,Value)

Описание

opt = rlDDPGAgentOptions создает объект опций для использования в качестве аргумента при создании агента DDPG с помощью всех опций по умолчанию. Можно изменить свойства объектов с помощью записи через точку.

пример

opt = rlDDPGAgentOptions(Name,Value) свойства опции наборов с помощью пар "имя-значение". Например, rlDDPGAgentOptions('DiscountFactor',0.95) создает набор опции с коэффициентом дисконтирования 0.95. Можно задать несколько пар "имя-значение". Заключите каждое имя свойства в кавычки.

Свойства

развернуть все

`NoiseOptions` — Шумовые опции модели
`OrnsteinUhlenbeckActionNoise` объект

Шумовые опции модели в виде OrnsteinUhlenbeckActionNoise объект. Для получения дополнительной информации о шумовой модели см. Шумовую Модель.

Для агента с несколькими действиями, если действия имеют различные области значений и модули, вероятно, что каждое действие требует различных шумовых параметров модели. Если действия имеют подобные области значений и модули, можно установить шумовые параметры для всех действий к тому же значению.

Например, для агента с двумя действиями, устанавливает стандартное отклонение каждого действия к различному значению при использовании того же уровня затухания для обоих стандартных отклонений.

opt = rlDDPGAgentOptions;
opt.ExplorationModel.StandardDeviation = [0.1 0.2];
opt.ExplorationModel.StandardDeviationDecayRate = 1e-4;

`TargetSmoothFactor` — Коэффициент сглаживания для целевого агента и обновлений критика
`1e-3` (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

Коэффициент сглаживания для целевого агента и критика обновляется в виде положительной скалярной величины, меньше чем или равной 1. Для получения дополнительной информации см. Целевые Методы Обновления.

`TargetUpdateFrequency` — Количество шагов между целевым агентом и обновлениями критика
1 (значение по умолчанию) | положительное целое число

Количество шагов между целевым агентом и критиком обновляется в виде положительного целого числа. Для получения дополнительной информации см. Целевые Методы Обновления.

`ResetExperienceBufferBeforeTraining` — Опция для очистки буфера опыта
`true` (значение по умолчанию) | `false`

Опция для очистки буфера опыта перед обучением в виде логического значения.

`SaveExperienceBufferWithAgent` — Опция для сохранения буфера опыта
`false` (значение по умолчанию) | `true`

Опция для того, чтобы сохранить опыт буферизует данные при сохранении агента в виде логического значения. Эта опция применяется и при сохранении агентов кандидата во время обучения и при сохранении агентов с помощью save функция.

Для некоторых агентов, таких как те с большим опытом буферные и основанные на изображении наблюдения, память, требуемая для сохранения их буфера опыта, является большой. В таких случаях, чтобы не сохранить буферные данные об опыте, устанавливают SaveExperienceBufferWithAgent к false.

Если вы планируете далее обучить своего сохраненного агента, можно начать обучение с буфера предыдущего опыта как начальная точка. В этом случае установите SaveExperienceBufferWithAgent к true.

`SequenceLength` — Максимальная пакетно-учебная длина траектории при использовании RNN
1 (значение по умолчанию) | положительное целое число

Максимальная пакетно-учебная длина траектории при использовании рекуррентной нейронной сети в виде положительного целого числа. Это значение должно быть больше 1 при использовании рекуррентной нейронной сети и 1 в противном случае.

`MiniBatchSize` — Размер случайного мини-пакета опыта
64 (значение по умолчанию) | положительное целое число

Размер случайного опыта мини-обрабатывает в пакетном режиме в виде положительного целого числа. Во время каждого эпизода тренировки агент случайным образом выборки испытывает от буфера опыта когда вычислительные градиенты для обновления свойств критика. Большие мини-пакеты уменьшают отклонение, когда вычислительные градиенты, но увеличивают вычислительное усилие.

`NumStepsToLookAhead` — Количество будущих вознаграждений раньше оценивало значение политики
1 (значение по умолчанию) | положительное целое число

Количество будущих вознаграждений раньше оценивало значение политики в виде положительного целого числа. См. [1], (Глава 7), для большего количества детали.

Количество будущих вознаграждений раньше оценивало значение политики в виде положительного целого числа. Для получения дополнительной информации см. главу 7 [1].

`ExperienceBufferLength` — Испытайте buffer size
10000 (значение по умолчанию) | положительное целое число

Испытайте buffer size в виде положительного целого числа. Во время обучения агент вычисляет обновления с помощью мини-пакета событий, случайным образом произведенных от буфера.

`SampleTime` — Шаг расчета агента
1 (значение по умолчанию) | положительная скалярная величина

Шаг расчета агента в виде положительной скалярной величины.

В среде Simulink^® агент выполняется каждый SampleTime секунды времени симуляции.

В среде MATLAB^® агент выполняется каждый раз усовершенствования среды. Однако SampleTime временной интервал между последовательными элементами в выходном опыте, возвращенном sim или train.

`DiscountFactor` — Коэффициент дисконтирования
0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

Коэффициент дисконтирования применился к будущим вознаграждениям во время обучения в виде положительной скалярной величины, меньше чем или равной 1.

Функции объекта

rlDDPGAgent Глубоко детерминированный агент обучения с подкреплением градиента политики

Примеры

свернуть все

Создайте объект опций агента DDPG

Скрипт Open Live Script

В этом примере показано, как создать объект опции агента DDPG.

Создайте rlDDPGAgentOptions объект, который задает мини-пакетный размер.

opt = rlDDPGAgentOptions('MiniBatchSize',48)

opt = 
  rlDDPGAgentOptions with properties:

                           NoiseOptions: [1x1 rl.option.OrnsteinUhlenbeckActionNoise]
                     TargetSmoothFactor: 1.0000e-03
                  TargetUpdateFrequency: 1
    ResetExperienceBufferBeforeTraining: 1
          SaveExperienceBufferWithAgent: 0
                         SequenceLength: 1
                          MiniBatchSize: 48
                    NumStepsToLookAhead: 1
                 ExperienceBufferLength: 10000
                             SampleTime: 1
                         DiscountFactor: 0.9900

Можно изменить опции с помощью записи через точку. Например, установите шаг расчета агента на 0.5.

opt.SampleTime = 0.5;

Алгоритмы

развернуть все

Шумовая модель

Агенты DDPG используют модель шума действия Орнстейна-Ахленбека для исследования.

Шум действия Орнстейна-Ахленбека

OrnsteinUhlenbeckActionNoise объект имеет следующие свойства числового значения.

Свойство	Описание	Значение по умолчанию
`InitialAction`	Начальное значение действия для шумовой модели	0
`Mean`	Шумовое среднее значение модели	0
`MeanAttractionConstant`	Постоянное определение, как быстро шумовой выход модели привлечен к среднему значению	0.15
`StandardDeviationDecayRate`	Уровень затухания стандартного отклонения	0
`StandardDeviation`	Шумовое стандартное отклонение модели	0.3
`StandardDeviationMin`	Отклонение минимального стандарта	0

В каждом шаге расчета продвигаются k, шумовое значение v(k) обновляется с помощью следующей формулы, где Ts шаг расчета агента, и начальное значение v (1) задано InitialAction параметр.

v(k+1) = v(k) + MeanAttractionConstant.*(Mean - v(k)).*Ts
       + StandardDeviation(k).*randn(size(Mean)).*sqrt(Ts)

На каждом шаге шага расчета стандартное отклонение затухает как показано в следующем коде.

decayedStandardDeviation = StandardDeviation(k).*(1 - StandardDeviationDecayRate);
StandardDeviation(k+1) = max(decayedStandardDeviation,StandardDeviationMin);

Можно вычислить, сколько выборок потребуется для стандартного отклонения, которое будет разделено на два с помощью этой простой формулы.

halflife = log(0.5)/log(1-StandardDeviationDecayRate);

Для непрерывных сигналов действия важно установить шумовое стандартное отклонение соответственно поощрять исследование. Распространено установить StandardDeviation*sqrt(Ts) к значению между 1% и 10% вашей области значений действия.

Если ваш агент сходится на локальных оптимумах слишком быстро, способствуйте исследованию агента путем увеличения количества шума; то есть, путем увеличения стандартного отклонения. Кроме того, чтобы увеличить исследование, можно уменьшать StandardDeviationDecayRate.

Вопросы совместимости

развернуть все

Имена свойства, задающие шумовое вероятностное распределение в `OrnsteinUhlenbeckActionNoise` объект изменился

Не рекомендуемый запуск в R2021a

Свойства, задающие вероятностное распределение модели шума Орнстейна-Ахленбека (OU), были переименованы. Агенты DDPG используют шум OU для исследования.

Variance свойство было переименовано в StandardDeviation.
VarianceDecayRate свойство было переименовано в StandardDeviationDecayRate.
VarianceMin свойство было переименовано в StandardDeviationMin.

Значения по умолчанию этих свойств остаются то же самое. Когда OrnsteinUhlenbeckActionNoise шумовой объект, сохраненный от предыдущего релиза MATLAB, загружается, значения Variance, VarianceDecayRate, и VarianceMin копируются в StandardDeviation, StandardDeviationDecayRate, и StandardDeviationMin, соответственно.

Variance, VarianceDecayRate, и VarianceMin свойства все еще работают, но им не рекомендуют. Чтобы задать вероятностное распределение шумовой модели OU, используйте новые имена свойства вместо этого.

Обновите код

Эта таблица показывает, как обновить ваш код, чтобы использовать новые имена свойства rlDDPGAgentOptions объект ddpgopt.

Не рекомендуемый	Рекомендуемый
ddpgopt.NoiseOptions.Variance = 0.5;	ddpgopt.NoiseOptions.StandardDeviation = 0.5;
ddpgopt.NoiseOptions.VarianceDecayRate = 0.1;	ddpgopt.NoiseOptions.StandardDeviationDecayRate = 0.1;
ddpgopt.NoiseOptions.VarianceMin = 0;	ddpgopt.NoiseOptions.StandardDeviationMin = 0;

Не рекомендуемый

Рекомендуемый

ddpgopt.NoiseOptions.Variance = 0.5;

ddpgopt.NoiseOptions.StandardDeviation = 0.5;

ddpgopt.NoiseOptions.VarianceDecayRate = 0.1;

ddpgopt.NoiseOptions.StandardDeviationDecayRate = 0.1;

ddpgopt.NoiseOptions.VarianceMin = 0;

ddpgopt.NoiseOptions.StandardDeviationMin = 0;

Цель обновляет настройки метода для агентов DDPG, изменились

Поведение изменяется в R2020a

Цель обновляет настройки метода для агентов DDPG, изменились. Следующие изменения требуют обновлений вашего кода:

TargetUpdateMethod опция была удалена. Теперь агенты DDPG определяют целевой метод обновления на основе TargetUpdateFrequency и TargetSmoothFactor значения опции.
Значение по умолчанию TargetUpdateFrequency изменился от 4 к 1.

Чтобы использовать один из следующих целевых методов обновления, установите TargetUpdateFrequency и TargetSmoothFactor свойства, как обозначено.

Метод Update	`TargetUpdateFrequency`	`TargetSmoothFactor`
Сглаживание	1	Меньше, чем `1`
Периодический	Больше, чем `1`	1
Периодическое сглаживание (новый метод в R2020a)	Больше, чем `1`	Меньше, чем `1`

Целевая настройка обновления по умолчанию, которая является обновлением сглаживания с TargetSmoothFactor значение 0.001, остается то же самое.

Обновите код

Эта таблица показывает некоторое типичное использование rlDDPGAgentOptions и как обновить ваш код, чтобы использовать новую настройку опции.

Не рекомендуемый	Рекомендуемый
opt = rlDDPGAgentOptions('TargetUpdateMethod',"smoothing");	opt = rlDDPGAgentOptions;
opt = rlDDPGAgentOptions('TargetUpdateMethod',"periodic");	opt = rlDDPGAgentOptions; opt.TargetUpdateFrequency = 4; opt.TargetSmoothFactor = 1;
opt = rlDDPGAgentOptions; opt.TargetUpdateMethod = "periodic"; opt.TargetUpdateFrequency = 5;	opt = rlDDPGAgentOptions; opt.TargetUpdateFrequency = 5; opt.TargetSmoothFactor = 1;

Не рекомендуемый

Рекомендуемый

opt = rlDDPGAgentOptions('TargetUpdateMethod',"smoothing");

opt = rlDDPGAgentOptions;

opt = rlDDPGAgentOptions('TargetUpdateMethod',"periodic");

opt = rlDDPGAgentOptions;
opt.TargetUpdateFrequency = 4;
opt.TargetSmoothFactor = 1;

opt = rlDDPGAgentOptions;
opt.TargetUpdateMethod = "periodic";
opt.TargetUpdateFrequency = 5;

opt = rlDDPGAgentOptions;
opt.TargetUpdateFrequency = 5;
opt.TargetSmoothFactor = 1;

Ссылки

[1] Саттон, Ричард С. и Эндрю Г. Барто. Обучение с подкреплением: Введение. Второй выпуск. Адаптивный Расчет и Машинное обучение. Кембридж, Масса: Нажатие MIT, 2018.

Смотрите также

Темы

Глубоко детерминированные агенты градиента политики

Введенный в R2019a

Документация

rlDDPGAgentOptions

Описание

Создание

Синтаксис

Описание

Свойства

`NoiseOptions` — Шумовые опции модели
`OrnsteinUhlenbeckActionNoise` объект

`TargetUpdateFrequency` — Количество шагов между целевым агентом и обновлениями критика
1 (значение по умолчанию) | положительное целое число

`ResetExperienceBufferBeforeTraining` — Опция для очистки буфера опыта
`true` (значение по умолчанию) | `false`

`SaveExperienceBufferWithAgent` — Опция для сохранения буфера опыта
`false` (значение по умолчанию) | `true`

`SequenceLength` — Максимальная пакетно-учебная длина траектории при использовании RNN
1 (значение по умолчанию) | положительное целое число

`MiniBatchSize` — Размер случайного мини-пакета опыта
64 (значение по умолчанию) | положительное целое число

`NumStepsToLookAhead` — Количество будущих вознаграждений раньше оценивало значение политики
1 (значение по умолчанию) | положительное целое число

`ExperienceBufferLength` — Испытайте buffer size
10000 (значение по умолчанию) | положительное целое число

`SampleTime` — Шаг расчета агента
1 (значение по умолчанию) | положительная скалярная величина

`DiscountFactor` — Коэффициент дисконтирования
0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

Функции объекта

Примеры

Создайте объект опций агента DDPG

Алгоритмы

Шумовая модель

Вопросы совместимости

Имена свойства, задающие шумовое вероятностное распределение в `OrnsteinUhlenbeckActionNoise` объект изменился

Цель обновляет настройки метода для агентов DDPG, изменились

Ссылки

Смотрите также

Темы

Документация Reinforcement Learning Toolbox

Поддержка

Документация

rlDDPGAgentOptions

Описание

Создание

Синтаксис

Описание

Свойства

NoiseOptions — Шумовые опции модели OrnsteinUhlenbeckActionNoise объект

TargetUpdateFrequency — Количество шагов между целевым агентом и обновлениями критика1 (значение по умолчанию) | положительное целое число

ResetExperienceBufferBeforeTraining — Опция для очистки буфера опыта true (значение по умолчанию) | false

SaveExperienceBufferWithAgent — Опция для сохранения буфера опыта false (значение по умолчанию) | true

SequenceLength — Максимальная пакетно-учебная длина траектории при использовании RNN1 (значение по умолчанию) | положительное целое число

MiniBatchSize — Размер случайного мини-пакета опыта64 (значение по умолчанию) | положительное целое число

NumStepsToLookAhead — Количество будущих вознаграждений раньше оценивало значение политики1 (значение по умолчанию) | положительное целое число

ExperienceBufferLength — Испытайте buffer size10000 (значение по умолчанию) | положительное целое число

SampleTime — Шаг расчета агента1 (значение по умолчанию) | положительная скалярная величина

DiscountFactor — Коэффициент дисконтирования0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

Функции объекта

Примеры

Создайте объект опций агента DDPG

Алгоритмы

Шумовая модель

Вопросы совместимости

Имена свойства, задающие шумовое вероятностное распределение в OrnsteinUhlenbeckActionNoise объект изменился

Цель обновляет настройки метода для агентов DDPG, изменились

Ссылки

Смотрите также

Темы

Документация Reinforcement Learning Toolbox

Поддержка

`NoiseOptions` — Шумовые опции модели
`OrnsteinUhlenbeckActionNoise` объект

`TargetUpdateFrequency` — Количество шагов между целевым агентом и обновлениями критика
1 (значение по умолчанию) | положительное целое число

`ResetExperienceBufferBeforeTraining` — Опция для очистки буфера опыта
`true` (значение по умолчанию) | `false`

`SaveExperienceBufferWithAgent` — Опция для сохранения буфера опыта
`false` (значение по умолчанию) | `true`

`SequenceLength` — Максимальная пакетно-учебная длина траектории при использовании RNN
1 (значение по умолчанию) | положительное целое число

`MiniBatchSize` — Размер случайного мини-пакета опыта
64 (значение по умолчанию) | положительное целое число

`NumStepsToLookAhead` — Количество будущих вознаграждений раньше оценивало значение политики
1 (значение по умолчанию) | положительное целое число

`ExperienceBufferLength` — Испытайте buffer size
10000 (значение по умолчанию) | положительное целое число

`SampleTime` — Шаг расчета агента
1 (значение по умолчанию) | положительная скалярная величина

`DiscountFactor` — Коэффициент дисконтирования
0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

Имена свойства, задающие шумовое вероятностное распределение в `OrnsteinUhlenbeckActionNoise` объект изменился