rlSACAgentOptions

Опции для агента SAC

Описание

Используйте rlSACAgentOptions объект задать опции для агентов мягкого критика агента (SAC). Чтобы создать агента SAC, использовать rlSACAgent.

Для получения дополнительной информации смотрите Мягких Агентов Критика Агента.

Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Агентов Обучения с подкреплением.

Создание

Синтаксис

opt = rlSACAgentOptions

opt = rlSACAgentOptions(Name,Value)

Описание

opt = rlSACAgentOptions создает объект опций для использования в качестве аргумента при создании агента SAC с помощью всех опций по умолчанию. Можно изменить свойства объектов с помощью записи через точку.

пример

opt = rlSACAgentOptions(Name,Value) свойства опции наборов с помощью пар "имя-значение". Например, rlSACAgentOptions('DiscountFactor',0.95) создает набор опции с коэффициентом дисконтирования 0.95. Можно задать несколько пар "имя-значение". Заключите каждое имя свойства в кавычки.

Свойства

развернуть все

`EntropyWeightOptions` — Настраивающие опции энтропии
`EntropyWeightOptions` объект

Настраивающие опции энтропии в виде EntropyWeightOptions объект со следующими свойствами.

`EntropyWeight` — Начальный энтропийный вес компонента
1 (значение по умолчанию) | положительная скалярная величина

Начальный энтропийный вес компонента в виде положительной скалярной величины.

`LearnRate` — Скорость обучения оптимизатора
`3e-4` (значение по умолчанию) | неотрицательный скаляр

Скорость обучения оптимизатора в виде неотрицательного скаляра. Если LearnRate нуль, EntropyWeight значение фиксируется во время обучения и TargetEntropy значение проигнорировано.

`TargetEntropy` — Предназначайтесь для энтропийного значения
`[]` (значение по умолчанию) | скаляр

Предназначайтесь для энтропийного значения для настройки энтропийного веса в виде скаляра. Более высокое целевое энтропийное значение поощряет больше исследования.

Если вы не задаете TargetEntropy, агент использует –A в качестве целевого значения, где A является количеством действий.

`Optimizer` — Оптимизатор для энтропийной настройки
`"adam"` (значение по умолчанию) | `"sgdm"` | `"rmsprop"`

Оптимизатор для энтропии, настраивающейся в виде одной из следующих строк.

"adam" — Используйте оптимизатор Адама. Можно задать уровни затухания градиента и скользящих средних значений градиента в квадрате с помощью GradientDecayFactor и SquaredGradientDecayFactor поля OptimizerParameters опция.
"sgdm" — Используйте стохастический градиентный спуск с оптимизатором импульса (SGDM). Можно задать значение импульса с помощью Momentum поле OptimizerParameters опция.
"rmsprop" — Используйте оптимизатор RMSProp. Можно задать уровень затухания скользящего среднего значения градиента в квадрате с помощью SquaredGradientDecayFactor поля OptimizerParameters опция.

Для получения дополнительной информации об этих оптимизаторах, смотрите Стохастический Градиентный спуск в Deep Learning Toolbox™.

`GradientThreshold` — Пороговое значение для градиента
`Inf` (значение по умолчанию) | положительная скалярная величина

Пороговое значение для энтропийного градиента в виде Inf или положительная скалярная величина. Если градиент превышает это значение, градиент отсекается.

`OptimizerParameters` — Применимые параметры для оптимизатора
`OptimizerParameters` объект

Применимые параметры для оптимизатора в виде OptimizerParameters объект следующими параметрами. Значения параметров по умолчанию работают хорошо на большинство проблем.

Параметр	Описание	Значение по умолчанию
`Momentum`	Вклад предыдущего шага в виде скаляра от 0 до 1. Значение 0 средних значений никакой вклад от предыдущего шага. Значение 1 среднего значения максимальный вклад. Этот параметр применяется только когда `Optimizer` `"sgdm"`.	0.9
`Epsilon`	Знаменатель возмещен в виде положительной скалярной величины. Оптимизатор добавляет это смещение к знаменателю в сетевых обновлениях параметра, чтобы избежать деления на нуль. Этот параметр применяется только когда `Optimizer` `"adam"` или `"rmsprop"`.	`1e-8`
`GradientDecayFactor`	Уровень затухания скользящего среднего значения градиента в виде положительной скалярной величины от 0 до 1. Этот параметр применяется только когда `Optimizer` `"adam"`.	0.9
`SquaredGradientDecayFactor`	Уровень затухания скользящего среднего значения градиента в квадрате в виде положительной скалярной величины от 0 до 1. Этот параметр применяется только когда `Optimizer` `"adam"` или `"rmsprop"`.	0.999

Когда конкретное свойство OptimizerParameters не применимо к типу оптимизатора, заданному в Optimizer опция, то свойство установлено в "Not applicable".

Чтобы изменить значения по умолчанию, получите доступ к свойствам OptimizerParameters использование записи через точку.

opt = rlSACAgentOptions;
opt.EntropyWeightOptions.OptimizerParameters.GradientDecayFactor = 0.95;

`PolicyUpdateFrequency` — Количество шагов между обновлениями политики агента
1 (значение по умолчанию) | положительное целое число

Количество шагов между политикой агента обновляется в виде положительного целого числа. Для получения дополнительной информации смотрите Алгоритм настройки.

`CriticUpdateFrequency` — Количество шагов между обновлениями критика
1 (значение по умолчанию) | положительное целое число

Количество шагов между критиком обновляется в виде положительного целого числа. Для получения дополнительной информации смотрите Алгоритм настройки.

`TargetUpdateFrequency` — Количество шагов между целевыми обновлениями критика
1 (значение по умолчанию) | положительное целое число

Количество шагов между целевым критиком обновляется в виде положительного целого числа. Для получения дополнительной информации см. Целевые Методы Обновления.

`UseDeterministicExploitation` — Используйте действие с наибольшим правдоподобием
`false` (значение по умолчанию) | `true`

Опция, чтобы возвратить действие с наибольшим правдоподобием для симуляции и генерации политики в виде логического значения. Когда UseDeterministicExploitation установлен в true, действие с наибольшим правдоподобием всегда используется в sim и generatePolicyFunction, который заставляет агента вести себя детерминировано.

Когда UseDeterministicExploitation установлен в false, демонстрационные действия агента от вероятностных распределений, который заставляет агента вести себя стохастическим образом.

`TargetSmoothFactor` — Коэффициент сглаживания для целевых обновлений критика
`1e-3` (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

Коэффициент сглаживания для целевого критика обновляется в виде положительной скалярной величины, меньше чем или равной 1. Для получения дополнительной информации см. Целевые Методы Обновления.

`SequenceLength` — Максимальная пакетно-учебная длина траектории при использовании RNN
1 (значение по умолчанию) | положительное целое число

Максимальная пакетно-учебная длина траектории при использовании рекуррентной нейронной сети в виде положительного целого числа. Это значение должно быть больше 1 при использовании рекуррентной нейронной сети и 1 в противном случае.

`MiniBatchSize` — Размер случайного мини-пакета опыта
64 (значение по умолчанию) | положительное целое число

Размер случайного опыта мини-обрабатывает в пакетном режиме в виде положительного целого числа. Во время каждого эпизода тренировки агент случайным образом выборки испытывает от буфера опыта когда вычислительные градиенты для обновления агента и критиков. Большие мини-пакеты уменьшают отклонение, когда вычислительные градиенты, но увеличивают вычислительное усилие.

`ResetExperienceBufferBeforeTraining` — Опция для очистки буфера опыта
`true` (значение по умолчанию) | `false`

Опция для очистки буфера опыта перед обучением в виде логического значения.

`NumStepsToLookAhead` — Количество будущих вознаграждений раньше оценивало значение политики
1 (значение по умолчанию) | положительное целое число

Количество будущих вознаграждений раньше оценивало значение политики в виде положительного целого числа. Для получения дополнительной информации см. [1], Глава 7.

Обратите внимание на то, что, если параллельное обучение включено (это то, если rlTrainingOptions объект опции, в который UseParallel свойство установлено в true передается train) затем NumStepsToLookAhead должен быть установлен в 1, в противном случае ошибка сгенерирована. Это гарантирует, что события хранятся непрерывно.

`ExperienceBufferLength` — Испытайте buffer size
10000 (значение по умолчанию) | положительное целое число

Испытайте buffer size в виде положительного целого числа. Во время обучения агент вычисляет обновления с помощью мини-пакета событий, случайным образом произведенных от буфера.

`SampleTime` — Шаг расчета агента
1 (значение по умолчанию) | положительная скалярная величина

Шаг расчета агента в виде положительной скалярной величины.

В Simulink^® среда, агент выполняется каждый SampleTime секунды времени симуляции.

В MATLAB^® среда, агент выполняется каждый раз усовершенствования среды. Однако SampleTime временной интервал между последовательными элементами в выходном опыте, возвращенном sim или train.

`DiscountFactor` — Коэффициент дисконтирования
0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

Коэффициент дисконтирования применился к будущим вознаграждениям во время обучения в виде положительной скалярной величины, меньше чем или равной 1.

`SaveExperienceBufferWithAgent` — Опция для сохранения буфера опыта
`false` (значение по умолчанию) | `true`

Опция для того, чтобы сохранить опыт буферизует данные при сохранении агента в виде логического значения. Эта опция применяется и при сохранении агентов кандидата во время обучения и при сохранении агентов с помощью save функция.

Для некоторых агентов, таких как те с большим опытом буферные и основанные на изображении наблюдения, память, требуемая для сохранения их буфера опыта, является большой. В таких случаях, чтобы не сохранить буферные данные об опыте, устанавливают SaveExperienceBufferWithAgent к false.

Если вы планируете далее обучить своего сохраненного агента, можно начать обучение с буфера предыдущего опыта как начальная точка. В этом случае установите SaveExperienceBufferWithAgent к true.

`NumWarmStartSteps` — Количество действий, чтобы взять перед обновляющимся агентом и критиком
положительное целое число

Количество действий, чтобы взять перед обновляющимся агентом и критиками в виде положительного целого числа. По умолчанию, NumWarmStartSteps значение равно MiniBatchSize значение.

`NumGradientStepsPerUpdate` — Количество градиента продвигается при обновлении агента и критиков
1 (значение по умолчанию) | положительное целое число

Количество градиента продвигается, чтобы взять при обновлении агента и критиков в виде положительного целого числа.

Функции объекта

rlSACAgent Мягкий агент обучения с подкреплением критика агента

Примеры

свернуть все

Создайте объект опций агента SAC

Скрипт Open Live Script

Создайте объект опций агента SAC, задав коэффициент дисконтирования.

opt = rlSACAgentOptions('DiscountFactor',0.95)

opt = 
  rlSACAgentOptions with properties:

                   EntropyWeightOptions: [1x1 rl.option.EntropyWeightOptions]
                  PolicyUpdateFrequency: 1
                  CriticUpdateFrequency: 1
                      NumWarmStartSteps: 64
              NumGradientStepsPerUpdate: 1
           UseDeterministicExploitation: 0
                     TargetSmoothFactor: 1.0000e-03
                  TargetUpdateFrequency: 1
    ResetExperienceBufferBeforeTraining: 1
          SaveExperienceBufferWithAgent: 0
                         SequenceLength: 1
                          MiniBatchSize: 64
                    NumStepsToLookAhead: 1
                 ExperienceBufferLength: 10000
                             SampleTime: 1
                         DiscountFactor: 0.9500

Можно изменить опции с помощью записи через точку. Например, установите шаг расчета агента на 0.5.

opt.SampleTime = 0.5;

Для агентов SAC сконфигурируйте энтропийный оптимизатор веса с помощью опций в EntropyWeightOptions. Например, установите целевое энтропийное значение к –5.

opt.EntropyWeightOptions.TargetEntropy = -5;

Ссылки

[1] Саттон, Ричард С. и Эндрю Г. Барто. Обучение с подкреплением: Введение. Второй выпуск. Адаптивный Расчет и Машинное обучение. Кембридж, Масса: Нажатие MIT, 2018.

Смотрите также

rlSACAgent

Темы

Мягкие агенты критика агента

Введенный в R2020b

Документация

rlSACAgentOptions

Описание

Создание

Синтаксис

Описание

Свойства

`EntropyWeightOptions` — Настраивающие опции энтропии
`EntropyWeightOptions` объект

`EntropyWeight` — Начальный энтропийный вес компонента
1 (значение по умолчанию) | положительная скалярная величина

`LearnRate` — Скорость обучения оптимизатора
`3e-4` (значение по умолчанию) | неотрицательный скаляр

`TargetEntropy` — Предназначайтесь для энтропийного значения
`[]` (значение по умолчанию) | скаляр

`Optimizer` — Оптимизатор для энтропийной настройки
`"adam"` (значение по умолчанию) | `"sgdm"` | `"rmsprop"`

`GradientThreshold` — Пороговое значение для градиента
`Inf` (значение по умолчанию) | положительная скалярная величина

`OptimizerParameters` — Применимые параметры для оптимизатора
`OptimizerParameters` объект

`PolicyUpdateFrequency` — Количество шагов между обновлениями политики агента
1 (значение по умолчанию) | положительное целое число

`CriticUpdateFrequency` — Количество шагов между обновлениями критика
1 (значение по умолчанию) | положительное целое число

`TargetUpdateFrequency` — Количество шагов между целевыми обновлениями критика
1 (значение по умолчанию) | положительное целое число

`UseDeterministicExploitation` — Используйте действие с наибольшим правдоподобием
`false` (значение по умолчанию) | `true`

`TargetSmoothFactor` — Коэффициент сглаживания для целевых обновлений критика
`1e-3` (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

`SequenceLength` — Максимальная пакетно-учебная длина траектории при использовании RNN
1 (значение по умолчанию) | положительное целое число

`MiniBatchSize` — Размер случайного мини-пакета опыта
64 (значение по умолчанию) | положительное целое число

`ResetExperienceBufferBeforeTraining` — Опция для очистки буфера опыта
`true` (значение по умолчанию) | `false`

`NumStepsToLookAhead` — Количество будущих вознаграждений раньше оценивало значение политики
1 (значение по умолчанию) | положительное целое число

`ExperienceBufferLength` — Испытайте buffer size
10000 (значение по умолчанию) | положительное целое число

`SampleTime` — Шаг расчета агента
1 (значение по умолчанию) | положительная скалярная величина

`DiscountFactor` — Коэффициент дисконтирования
0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

`SaveExperienceBufferWithAgent` — Опция для сохранения буфера опыта
`false` (значение по умолчанию) | `true`

`NumWarmStartSteps` — Количество действий, чтобы взять перед обновляющимся агентом и критиком
положительное целое число

`NumGradientStepsPerUpdate` — Количество градиента продвигается при обновлении агента и критиков
1 (значение по умолчанию) | положительное целое число

Функции объекта

Примеры

Создайте объект опций агента SAC

Ссылки

Смотрите также

Темы

Документация Reinforcement Learning Toolbox

Поддержка

Документация

rlSACAgentOptions

Описание

Создание

Синтаксис

Описание

Свойства

EntropyWeightOptions — Настраивающие опции энтропии EntropyWeightOptions объект

EntropyWeight — Начальный энтропийный вес компонента1 (значение по умолчанию) | положительная скалярная величина

LearnRate — Скорость обучения оптимизатора 3e-4 (значение по умолчанию) | неотрицательный скаляр

TargetEntropy — Предназначайтесь для энтропийного значения [] (значение по умолчанию) | скаляр

Optimizer — Оптимизатор для энтропийной настройки "adam" (значение по умолчанию) | "sgdm" | "rmsprop"

GradientThreshold — Пороговое значение для градиента Inf (значение по умолчанию) | положительная скалярная величина

OptimizerParameters — Применимые параметры для оптимизатора OptimizerParameters объект

PolicyUpdateFrequency — Количество шагов между обновлениями политики агента1 (значение по умолчанию) | положительное целое число

CriticUpdateFrequency — Количество шагов между обновлениями критика1 (значение по умолчанию) | положительное целое число

TargetUpdateFrequency — Количество шагов между целевыми обновлениями критика1 (значение по умолчанию) | положительное целое число

UseDeterministicExploitation — Используйте действие с наибольшим правдоподобием false (значение по умолчанию) | true

TargetSmoothFactor — Коэффициент сглаживания для целевых обновлений критика 1e-3 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

SequenceLength — Максимальная пакетно-учебная длина траектории при использовании RNN1 (значение по умолчанию) | положительное целое число

MiniBatchSize — Размер случайного мини-пакета опыта64 (значение по умолчанию) | положительное целое число

ResetExperienceBufferBeforeTraining — Опция для очистки буфера опыта true (значение по умолчанию) | false

NumStepsToLookAhead — Количество будущих вознаграждений раньше оценивало значение политики1 (значение по умолчанию) | положительное целое число

ExperienceBufferLength — Испытайте buffer size10000 (значение по умолчанию) | положительное целое число

SampleTime — Шаг расчета агента1 (значение по умолчанию) | положительная скалярная величина

DiscountFactor — Коэффициент дисконтирования0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

SaveExperienceBufferWithAgent — Опция для сохранения буфера опыта false (значение по умолчанию) | true

NumWarmStartSteps — Количество действий, чтобы взять перед обновляющимся агентом и критиком положительное целое число

NumGradientStepsPerUpdate — Количество градиента продвигается при обновлении агента и критиков1 (значение по умолчанию) | положительное целое число

Функции объекта

Примеры

Создайте объект опций агента SAC

Ссылки

Смотрите также

Темы

Документация Reinforcement Learning Toolbox

Поддержка

`EntropyWeightOptions` — Настраивающие опции энтропии
`EntropyWeightOptions` объект

`EntropyWeight` — Начальный энтропийный вес компонента
1 (значение по умолчанию) | положительная скалярная величина

`LearnRate` — Скорость обучения оптимизатора
`3e-4` (значение по умолчанию) | неотрицательный скаляр

`TargetEntropy` — Предназначайтесь для энтропийного значения
`[]` (значение по умолчанию) | скаляр

`Optimizer` — Оптимизатор для энтропийной настройки
`"adam"` (значение по умолчанию) | `"sgdm"` | `"rmsprop"`

`GradientThreshold` — Пороговое значение для градиента
`Inf` (значение по умолчанию) | положительная скалярная величина

`OptimizerParameters` — Применимые параметры для оптимизатора
`OptimizerParameters` объект

`PolicyUpdateFrequency` — Количество шагов между обновлениями политики агента
1 (значение по умолчанию) | положительное целое число

`CriticUpdateFrequency` — Количество шагов между обновлениями критика
1 (значение по умолчанию) | положительное целое число

`TargetUpdateFrequency` — Количество шагов между целевыми обновлениями критика
1 (значение по умолчанию) | положительное целое число

`UseDeterministicExploitation` — Используйте действие с наибольшим правдоподобием
`false` (значение по умолчанию) | `true`

`TargetSmoothFactor` — Коэффициент сглаживания для целевых обновлений критика
`1e-3` (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

`SequenceLength` — Максимальная пакетно-учебная длина траектории при использовании RNN
1 (значение по умолчанию) | положительное целое число

`MiniBatchSize` — Размер случайного мини-пакета опыта
64 (значение по умолчанию) | положительное целое число

`ResetExperienceBufferBeforeTraining` — Опция для очистки буфера опыта
`true` (значение по умолчанию) | `false`

`NumStepsToLookAhead` — Количество будущих вознаграждений раньше оценивало значение политики
1 (значение по умолчанию) | положительное целое число

`ExperienceBufferLength` — Испытайте buffer size
10000 (значение по умолчанию) | положительное целое число

`SampleTime` — Шаг расчета агента
1 (значение по умолчанию) | положительная скалярная величина

`DiscountFactor` — Коэффициент дисконтирования
0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

`SaveExperienceBufferWithAgent` — Опция для сохранения буфера опыта
`false` (значение по умолчанию) | `true`

`NumWarmStartSteps` — Количество действий, чтобы взять перед обновляющимся агентом и критиком
положительное целое число

`NumGradientStepsPerUpdate` — Количество градиента продвигается при обновлении агента и критиков
1 (значение по умолчанию) | положительное целое число