Создайте опции для агента DDPG
создает opt = rlDDPGAgentOptionsrlDDPGAgentOptions объект для использования в качестве аргумента при создании агента DDPG с помощью всех опций по умолчанию. Можно изменить свойства объектов с помощью записи через точку.
создает объект опций DDPG использование заданных пар "имя-значение", чтобы заменить значения свойств по умолчанию.opt = rlDDPGAgentOptions(Name,Value)
Создайте rlDDPGAgentOptions объект, который задает мини-пакетный размер.
opt = rlDDPGAgentOptions('MiniBatchSize',48)
opt =
rlDDPGAgentOptions with properties:
NoiseOptions: [1×1 rl.option.OrnsteinUhlenbeckActionNoise]
TargetSmoothFactor: 1.0000e-03
TargetUpdateFrequency: 4
TargetUpdateMethod: "smoothing"
ResetExperienceBufferBeforeTraining: 1
SaveExperienceBufferWithAgent: 0
MiniBatchSize: 48
NumStepsToLookAhead: 1
ExperienceBufferLength: 10000
SampleTime: 1
DiscountFactor: 0.9900Можно изменить опции с помощью записи через точку. Например, установите шаг расчета агента на 0.5.
opt.SampleTime = 0.5;
Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.
"MiniBatchSize",24'NoiseOptions' — Опции для шумаOrnsteinUhlenbeckActionNoise объектОпции для шума, заданного как разделенная запятой пара, состоящая из 'NoiseOptions' и OrnsteinUhlenbeckActionNoise объект, со следующими свойствами числового значения.
| Свойство | Описание |
|---|---|
InitialAction | Начальное значение действия для шумовой модели |
Mean | Шумовое среднее значение модели |
MeanAttractionConstant | Постоянное определение, как быстро шумовой выход модели привлечен к среднему значению |
Variance | Шумовое отклонение модели |
VarianceDecayRate | Уровень затухания отклонения |
На каждом шаге шага расчета шумовая модель обновляется с помощью следующей формулы, где Ts шаг расчета агента.
x(k) = x(k-1) + MeanAttractionConstant.*(Mean - x(k-1)).*Ts
+ Variance.*randn(size(Mean)).*sqrt(Ts)Чтобы задать шумовые опции, используйте запись через точку после создания rlDDPGAgentOptions объект. Например, установите шумовое среднее значение на 0.5.
opt = rlDDPGAgentOptions; opt.NoiseModel.Mean = 0.5;
Для непрерывных сигналов действия важно установить шумовое отклонение соответственно поощрять исследование. Распространено иметь Variance*sqrt(Ts) будьте между 1% и 10% вашей области значений действия.
Если ваш агент сходится на локальных оптимумах слишком быстро, способствуйте исследованию агента путем увеличения количества шума; то есть, путем увеличения отклонения. Кроме того, чтобы увеличить исследование, можно уменьшать VarianceDecayRate.
'TargetSmoothFactor' — Сглаживание фактора для целевых обновлений1e-3 (значение по умолчанию) | дваждыСглаживание фактора для целевого агента и обновлений критика, заданных как разделенная запятой пара, состоящая из 'TargetSmoothFactor' и двойное. Фактор сглаживания определяет, как целевые свойства обновляются когда TargetUpdateMethod "smoothing".
'TargetUpdateFrequency' — Количество эпизодов между целевыми обновлениями (значение по умолчанию) | числовое значениеКоличество эпизодов между целевым агентом и обновлениями критика, заданными как разделенная запятой пара, состоящая из 'TargetUpdateFrequency' и числовое целочисленное значение. Эта опция применяется только когда TargetUpdateMethod "periodic".
'TargetUpdateMethod' — Стратегия обновления целевого агента и свойств критика"smoothing" (значение по умолчанию) | "periodic"Стратегия обновления целевого агента и свойств критика с помощью значений от обученного агента и критика, заданного как разделенная запятой пара, состоящая из 'TargetUpdateMethod' и одно из следующего:
"smoothing" — Обновите целевого агента и свойства критика, thetaTarget, в каждом эпизоде тренировки согласно следующей формуле, где theta содержит обучившие сеть свойства тока.
thetaTarget = TargetSmoothFactor*theta + (1 - TargetSmoothFactor)*thetaTarget
"periodic" — Обновите целевого агента и свойства критика каждый TargetUpdateFrequency эпизоды тренировки.
'ResetExperienceBufferBeforeTraining' — Отметьте для очистки буфера опытаtrue (значение по умолчанию) | falseОтметьте для очистки буфера опыта перед обучением, заданным как разделенная запятой пара, состоящая из 'ResetExperienceBufferBeforeTraining' и логический true или false.
'SaveExperienceBufferWithAgent' — Отметьте для сохранения буфера опытаfalse (значение по умолчанию) | trueОтметьте для того, чтобы сохранить буферные данные об опыте при сохранении агента, заданного как разделенная запятой пара, состоящая из 'SaveExperienceBufferWithAgent' и логический true или false. Эта опция применяется и при сохранении агентов кандидата во время обучения и при сохранении агентов с помощью save функция.
Для некоторых агентов, таких как те с большим опытом буферные и основанные на изображении наблюдения, память, требуемая для сохранения их буфера опыта, является большой. В таких случаях, чтобы не сохранить буферные данные об опыте, устанавливают SaveExperienceBufferWithAgent к false.
Если вы планируете далее обучить своего сохраненного агента, можно запустить обучение с буфера предыдущего опыта как начальная точка. В этом случае установите SaveExperienceBufferWithAgent к true.
'MiniBatchSize' — Размер случайного мини-пакета опыта (значение по умолчанию) | числовое значениеРазмер случайного мини-пакета опыта, заданного как разделенная запятой пара, состоящая из 'MiniBatchSize' и положительное числовое значение. Во время каждого эпизода тренировки агент случайным образом выборки испытывает от буфера опыта когда вычислительные градиенты для обновления свойств критика. Большие мини-пакеты уменьшают отклонение, когда вычислительные градиенты, но увеличивают вычислительное усилие.
'NumStepsToLookAhead' — Количество шагов вперед (значение по умолчанию) | числовое значениеКоличество шагов, чтобы смотреть вперед во время обучения, заданного как разделенная запятой пара, состоящая из 'NumStepsToLookAhead' и числовое положительное целочисленное значение.
'ExperienceBufferLength' — Испытайте buffer size (значение по умолчанию) | числовое значениеИспытайте buffer size, заданный как разделенная запятой пара, состоящая из 'ExperienceBufferLength' и числовое положительное целочисленное значение. Во время обучения агент обновляет агента и критика, использующего мини-пакет событий, случайным образом произведенных от буфера.
'SampleTime' — Шаг расчета агента (значение по умолчанию) | числовое значениеШаг расчета агента, заданного как разделенная запятой пара, состоящая из 'SampleTime' и числовое значение.
'DiscountFactor' — Коэффициент дисконтирования (значение по умолчанию) | числовое значениеКоэффициент дисконтирования применился к будущим вознаграждениям во время обучения, заданного как разделенная запятой пара, состоящая из 'DiscountFactor' и положительное числовое значение, меньше чем или равное 1.
opt — Опции агента DDPGrlDDPGAgentOptions объектОпции агента DDPG, возвращенные как rlDDPGAgentOptions объект. Свойства объектов описаны в Аргументах в виде пар имя-значение.
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.