Создайте опции для агента PPO
создает opt = rlPPOAgentOptionsrlPPOAgentOptions объект для использования в качестве аргумента при создании агента PPO с помощью всех настроек по умолчанию. Можно изменить свойства объектов с помощью записи через точку.
создает объект опций агента PPO использование заданных пар "имя-значение", чтобы заменить значения свойств по умолчанию.opt = rlPPOAgentOptions(Name,Value)
Создайте объект опций агента PPO, задав горизонт опыта.
opt = rlPPOAgentOptions('ExperienceHorizon',256)opt =
rlPPOAgentOptions with properties:
ExperienceHorizon: 256
MiniBatchSize: 128
ClipFactor: 0.2000
EntropyLossWeight: 0.0100
NumEpoch: 3
AdvantageEstimateMethod: "gae"
GAEFactor: 0.9500
SampleTime: 1
DiscountFactor: 0.9900
Можно изменить опции с помощью записи через точку. Например, установите шаг расчета агента на 0.5.
opt.SampleTime = 0.5;
Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.
'ExperienceHorizon',256'ExperienceHorizon' — Количество шагов агент взаимодействует со средой перед изучением (значение по умолчанию) | положительное целое числоКоличество шагов агент взаимодействует со средой перед учением из ее опыта, заданного как разделенная запятой пара, состоящая из 'ExperienceHorizon' и положительное целое число.
ExperienceHorizon значение должно быть больше или быть равно MiniBatchSize значение.
'ClipFactor' — Фактор клипа (значение по умолчанию) | положительная скалярная величина меньше, чем 1Фактор клипа для ограничения изменения в каждой политике обновляет шаг, заданный как разделенная запятой пара, состоящая из 'ClipFactor' и положительная скалярная величина меньше, чем 1.
'EntropyLossWeight' — Энтропийный вес потерь (значение по умолчанию) | скалярное значение больший 0 и 1Энтропийный вес потерь, заданный как разделенная запятой пара, состоящая из 'EntropyLossWeight' и скалярное значение между 0 и 1. Более высокое значение веса потерь способствует исследованию агента путем применения штрафа за то, что были слишком уверены в который действие взять. Выполнение так может помочь агенту переместиться из локальных оптимумов.
Поскольку эпизод продвигается t, энтропийная функция потерь, которая добавляется к функции потерь для обновлений агента:
Здесь:
E является энтропийным весом потерь.
M является количеством возможных действий.
μk (St |θμ) является вероятностью принимающего меры Ak когда в St состояния после текущей политики.
'MiniBatchSize' — Мини-пакетный размер (значение по умолчанию) | положительное целое числоМини-пакетный размер используется в течение каждой эпохи изучения, заданной как разделенная запятой пара, состоящая из 'MiniBatchSize' и положительное целое число.
MiniBatchSize значение должно быть меньше чем или равно ExperienceHorizon значение.
'NumEpoch' — Номер эпох (значение по умолчанию) | положительное целое числоНомер эпох, в течение которых агент и сети критика извлекают уроки из текущего набора опыта, заданного как разделенная запятой пара, состоящая из 'NumEpoch' и положительное целое число.
'AdvantageEstimateMethod' — Метод для оценки значений преимущества"gae" (значение по умолчанию) | "finite-horizon"Метод для оценки значений преимущества, заданных как разделенная запятой пара, состоящая из 'AdvantageEstimateMethod' и одно из следующего:
"gae" — Обобщенное средство оценки преимущества
"finite-horizon" — Конечная оценка горизонта
Для получения дополнительной информации об этих методах смотрите учебную информацию об алгоритме в Ближайших Агентах Оптимизации политики.
'GAEFactor' — Сглаживание фактора для обобщенного средства оценки преимущества (значение по умолчанию) | скалярное значение между 0 и 1Сглаживание фактора для обобщенного средства оценки преимущества, заданного как разделенная запятой пара, состоящая из 'GAEFactor' и скалярное значение между 0 и 1, включительно. Эта опция применяется только когда AdvantageEstimateMethod опцией является "gae"
'SampleTime' — Шаг расчета агента (значение по умолчанию) | положительная скалярная величинаШаг расчета агента, заданного как разделенная запятой пара, состоящая из 'SampleTime' и положительная скалярная величина.
'DiscountFactor' — Коэффициент дисконтирования (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1Коэффициент дисконтирования применился к будущим вознаграждениям во время обучения, заданного как разделенная запятой пара, состоящая из 'DiscountFactor' и положительная скалярная величина, меньше чем или равная 1.
opt — Опции агента PPOrlPPOAgentOptions объектОпции агента PPO, возвращенные как rlPPOAgentOptions объект. Свойства объектов описаны в Аргументах в виде пар имя-значение.
У вас есть модифицированная версия этого примера. Вы хотите открыть этот пример со своими редактированиями?
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.