rlACAgentOptions

Опции для агента AC

Описание

Используйте rlACAgentOptions объект задать опции для создания агентов критика агента (AC). Чтобы создать агента критика агента, используйте rlACAgent

Для получения дополнительной информации смотрите Агентов Критика Агента.

Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Агентов Обучения с подкреплением.

Создание

Синтаксис

opt = rlACAgentOptions

opt = rlACAgentOptions(Name,Value)

Описание

opt = rlACAgentOptions создает набор опции по умолчанию для агента AC. Можно изменить свойства объектов с помощью записи через точку.

пример

opt = rlACAgentOptions(Name,Value) свойства опции наборов с помощью пар "имя-значение". Например, rlDQNAgentOptions('DiscountFactor',0.95) создает набор опции с коэффициентом дисконтирования 0.95. Можно задать несколько пар "имя-значение". Заключите каждое имя свойства в кавычки.

Свойства

развернуть все

`NumStepsToLookAhead` — Количество шагов вперед
32 (значение по умолчанию) | положительное целое число

Количество шагов агент взаимодействует со средой перед учением из ее опыта в виде положительного целого числа. Когда агент использует рекуррентную нейронную сеть, NumStepsToLookAhead обработан как учебная длина траектории.

`EntropyLossWeight` — Энтропийный вес потерь
0 (значение по умолчанию) | скалярное значение между `0` и `1`

Энтропийный вес потерь в виде скалярного значения между 0 и 1. Более высокое энтропийное значение веса потерь способствует исследованию агента путем применения штрафа за то, что были слишком уверены в который действие взять. Выполнение так может помочь агенту переместиться из локальных оптимумов.

Когда градиенты вычисляются во время обучения, дополнительный компонент градиента вычисляется для минимизации этой функции потерь.

`UseDeterministicExploitation` — Используйте действие с наибольшим правдоподобием
`false` (значение по умолчанию) | `true`

Опция, чтобы возвратить действие с наибольшим правдоподобием для симуляции и генерации политики в виде логического значения. Когда UseDeterministicExploitation установлен в true, действие с наибольшим правдоподобием всегда используется в sim и generatePolicyFunction, который заставляет агента вести себя детерминировано.

Когда UseDeterministicExploitation установлен в false, демонстрационные действия агента от вероятностных распределений, который заставляет агента вести себя стохастическим образом.

`SampleTime` — Шаг расчета агента
1 (значение по умолчанию) | положительная скалярная величина

Шаг расчета агента в виде положительной скалярной величины.

В Simulink^® среда, агент выполняется каждый SampleTime секунды времени симуляции.

В MATLAB^® среда, агент выполняется каждый раз усовершенствования среды. Однако SampleTime временной интервал между последовательными элементами в выходном опыте, возвращенном sim или train.

`DiscountFactor` — Коэффициент дисконтирования
0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

Коэффициент дисконтирования применился к будущим вознаграждениям во время обучения в виде положительной скалярной величины, меньше чем или равной 1.

Функции объекта

rlACAgent Агент обучения с подкреплением критика агента

Примеры

свернуть все

Создайте объект опций агента AC

Скрипт Open Live Script

Создайте объект опций агента AC, задав коэффициент дисконтирования.

opt = rlACAgentOptions('DiscountFactor',0.95)

opt = 
  rlACAgentOptions with properties:

             NumStepsToLookAhead: 32
               EntropyLossWeight: 0
    UseDeterministicExploitation: 0
                      SampleTime: 1
                  DiscountFactor: 0.9500

Можно изменить опции с помощью записи через точку. Например, установите шаг расчета агента на 0.5.

opt.SampleTime = 0.5;

Вопросы совместимости

развернуть все

Значение по умолчанию для `NumStepsToLookAhead` измененный на 32

Изменение поведения в будущем релизе

Значение 32 для этого свойства должно работать лучше, чем 1 для большинства сред. Если вы неф MATLAB R2020b или более поздняя версия и вы хотите воспроизвести как rlACAgent ведший себя на версиях до R2020b, установленного это значение к 1.

Документация

rlACAgentOptions

Описание

Создание

Синтаксис

Описание

Свойства

`NumStepsToLookAhead` — Количество шагов вперед
32 (значение по умолчанию) | положительное целое число

`EntropyLossWeight` — Энтропийный вес потерь
0 (значение по умолчанию) | скалярное значение между `0` и `1`

`UseDeterministicExploitation` — Используйте действие с наибольшим правдоподобием
`false` (значение по умолчанию) | `true`

`SampleTime` — Шаг расчета агента
1 (значение по умолчанию) | положительная скалярная величина

`DiscountFactor` — Коэффициент дисконтирования
0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

Функции объекта

Примеры

Создайте объект опций агента AC

Вопросы совместимости

Значение по умолчанию для `NumStepsToLookAhead` измененный на 32

Смотрите также

Темы

Документация Reinforcement Learning Toolbox

Поддержка

Документация

rlACAgentOptions

Описание

Создание

Синтаксис

Описание

Свойства

NumStepsToLookAhead — Количество шагов вперед32 (значение по умолчанию) | положительное целое число

EntropyLossWeight — Энтропийный вес потерь0 (значение по умолчанию) | скалярное значение между 0 и 1

UseDeterministicExploitation — Используйте действие с наибольшим правдоподобием false (значение по умолчанию) | true

SampleTime — Шаг расчета агента1 (значение по умолчанию) | положительная скалярная величина

DiscountFactor — Коэффициент дисконтирования0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

Функции объекта

Примеры

Создайте объект опций агента AC

Вопросы совместимости

Значение по умолчанию для NumStepsToLookAhead измененный на 32

Смотрите также

Темы

Документация Reinforcement Learning Toolbox

Поддержка

`NumStepsToLookAhead` — Количество шагов вперед
32 (значение по умолчанию) | положительное целое число

`EntropyLossWeight` — Энтропийный вес потерь
0 (значение по умолчанию) | скалярное значение между `0` и `1`

`UseDeterministicExploitation` — Используйте действие с наибольшим правдоподобием
`false` (значение по умолчанию) | `true`

`SampleTime` — Шаг расчета агента
1 (значение по умолчанию) | положительная скалярная величина

`DiscountFactor` — Коэффициент дисконтирования
0.99 (значение по умолчанию) | положительная скалярная величина, меньше чем или равная 1

Значение по умолчанию для `NumStepsToLookAhead` измененный на 32