Создайте опции для агента PPO
создает opt
= rlPPOAgentOptionsrlPPOAgentOptions
объект для использования в качестве аргумента при создании агента PPO с помощью всех настроек по умолчанию. Можно изменить свойства объектов с помощью записи через точку.
создает объект опций агента PPO использование заданных пар "имя-значение", чтобы заменить значения свойств по умолчанию.opt
= rlPPOAgentOptions(Name,Value
)
Создайте объект опций агента PPO, задав горизонт опыта.
opt = rlPPOAgentOptions('ExperienceHorizon',256)
opt = rlPPOAgentOptions with properties: ExperienceHorizon: 256 MiniBatchSize: 128 ClipFactor: 0.2000 EntropyLossWeight: 0.0100 NumEpoch: 3 AdvantageEstimateMethod: "gae" GAEFactor: 0.9500 SampleTime: 1 DiscountFactor: 0.9900
Можно изменить опции с помощью записи через точку. Например, установите шаг расчета агента на 0.5
.
opt.SampleTime = 0.5;
Задайте дополнительные разделенные запятой пары Name,Value
аргументы. Name
имя аргумента и Value
соответствующее значение. Name
должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN
.
'ExperienceHorizon',256
'ExperienceHorizon'
— Количество шагов агент взаимодействует со средой перед изучением
(значение по умолчанию) | положительное целое числоКоличество шагов агент взаимодействует со средой перед учением из ее опыта, заданного как разделенная запятой пара, состоящая из 'ExperienceHorizon'
и положительное целое число.
ExperienceHorizon
значение должно быть больше или быть равно MiniBatchSize
значение.
'ClipFactor'
— Фактор клипа
(значение по умолчанию) | положительная скалярная величина меньше, чем 1
Фактор клипа для ограничения изменения в каждой политике обновляет шаг, заданный как разделенная запятой пара, состоящая из 'ClipFactor'
и положительная скалярная величина меньше, чем 1
.
'EntropyLossWeight'
— Энтропийный вес потерь
(значение по умолчанию) | скалярное значение больший 0
и 1
Энтропийный вес потерь, заданный как разделенная запятой пара, состоящая из 'EntropyLossWeight'
и скалярное значение между 0
и 1
. Более высокое значение веса потерь способствует исследованию агента путем применения штрафа за то, что были слишком уверены в который действие взять. Выполнение так может помочь агенту переместиться из локальных оптимумов.
Поскольку эпизод продвигается t, энтропийная функция потерь, которая добавляется к функции потерь для обновлений агента:
Здесь:
E является энтропийным весом потерь.
M является количеством возможных действий.
μk (St |θμ) является вероятностью принимающего меры Ak когда в St состояния после текущей политики.
'MiniBatchSize'
— Мини-пакетный размер
(значение по умолчанию) | положительное целое числоМини-пакетный размер используется в течение каждой эпохи изучения, заданной как разделенная запятой пара, состоящая из 'MiniBatchSize'
и положительное целое число.
MiniBatchSize
значение должно быть меньше чем или равно ExperienceHorizon
значение.
'NumEpoch'
— Номер эпох
(значение по умолчанию) | положительное целое числоНомер эпох, в течение которых агент и сети критика извлекают уроки из текущего набора опыта, заданного как разделенная запятой пара, состоящая из 'NumEpoch'
и положительное целое число.
'AdvantageEstimateMethod'
— Метод для оценки значений преимущества"gae"
(значение по умолчанию) | "finite-horizon"
Метод для оценки значений преимущества, заданных как разделенная запятой пара, состоящая из 'AdvantageEstimateMethod'
и одно из следующего:
"gae"
— Обобщенное средство оценки преимущества
"finite-horizon"
— Конечная оценка горизонта
Для получения дополнительной информации об этих методах смотрите учебную информацию об алгоритме в Ближайших Агентах Оптимизации политики.
'GAEFactor'
— Сглаживание фактора для обобщенного средства оценки преимущества
(значение по умолчанию) | скалярное значение между 0
и 1
Сглаживание фактора для обобщенного средства оценки преимущества, заданного как разделенная запятой пара, состоящая из 'GAEFactor'
и скалярное значение между 0
и 1
, включительно. Эта опция применяется только когда AdvantageEstimateMethod
опцией является "gae"
'SampleTime'
— Шаг расчета агента
(значение по умолчанию) | положительная скалярная величинаШаг расчета агента, заданного как разделенная запятой пара, состоящая из 'SampleTime'
и положительная скалярная величина.
'DiscountFactor'
— Коэффициент дисконтирования
(значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1
Коэффициент дисконтирования применился к будущим вознаграждениям во время обучения, заданного как разделенная запятой пара, состоящая из 'DiscountFactor'
и положительная скалярная величина, меньше чем или равная 1
.
opt
— Опции агента PPOrlPPOAgentOptions
объектОпции агента PPO, возвращенные как rlPPOAgentOptions
объект. Свойства объектов описаны в Аргументах в виде пар имя-значение.
У вас есть модифицированная версия этого примера. Вы хотите открыть этот пример со своими редактированиями?
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.