Стохастическое представление актера для агентов обучения с подкреплением
Этот объект реализует функциональную аппроксимацию, которая будет использоваться в качестве стохастического агента в агенте обучения с подкреплением. Стохастический агент берет наблюдения в качестве входных параметров и возвращает случайное действие, таким образом, представляя стохастическую политику с определенным вероятностным распределением. После того, как вы создаете rlStochasticActorRepresentation
объект, используйте его, чтобы создать подходящего агента, такого как rlACAgent
или rlPGAgent
агент. Для получения дополнительной информации о создании представлений смотрите, Создают Представления Функции ценности и политика.
создает стохастического агента с дискретным пространством действий, с помощью глубокой нейронной сети discActor
= rlStochasticActorRepresentation(net
,observationInfo
,discActionInfo
,'Observation',obsName
)net
как функциональная аппроксимация. Здесь, выходной слой net
должен иметь столько же элементов сколько количество возможных дискретных действий. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo discActor
к входным параметрам observationInfo
и discActionInfo
соответственно. obsName
должен содержать имена входных слоев net
.
создает дискретное пространство стохастический агент с помощью пользовательской основной функции в качестве базовой аппроксимации. Первый входной параметр является ячейкой 2D элементов, в которой первый элемент содержит указатель discActor
= rlStochasticActorRepresentation({basisFcn
,W0
},observationInfo
,actionInfo
)basisFcn
к пользовательской основной функции и второму элементу содержит начальную матрицу веса W0
. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo actor
соответственно к входным параметрам observationInfo
и actionInfo
.
создает дискретное пространство действий, стохастический агент discActor
= rlStochasticActorRepresentation(___,options
)discActor
использование дополнительных опций установило options
, который является rlRepresentationOptions
объект. Этот синтаксис устанавливает свойство Options discActor
к options
входной параметр. Можно использовать этот синтаксис с любой из предыдущих комбинаций входных аргументов.
создает Гауссова стохастического агента с непрерывным пространством действий с помощью глубокой нейронной сети contActor
= rlStochasticActorRepresentation(net
,observationInfo
,contActionInfo
,'Observation',obsName
)net
как функциональная аппроксимация. Здесь, выходной слой net
должен иметь вдвое больше элементов как количество размерностей непрерывного пространства действий. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo contActor
к входным параметрам observationInfo
и contActionInfo
соответственно. obsName
должен содержать имена входных слоев net
.
contActor
не осуществляет ограничения, установленные спецификацией действия, поэтому, при использовании этого агента, необходимо осуществить ограничения пространства действий в среде.
создает непрерывное пространство действий, Гауссов агент contActor
= rlStochasticActorRepresentation(___,options
)contActor
использование дополнительного options
набор опции, который является rlRepresentationOptions
объект. Этот синтаксис устанавливает свойство Options contActor
к options
входной параметр. Можно использовать этот синтаксис с любой из предыдущих комбинаций входных аргументов.
rlACAgent | Агент обучения с подкреплением критика агента |
rlPGAgent | Агент обучения с подкреплением градиента политики |
rlPPOAgent | Ближайший агент обучения с подкреплением оптимизации политики |
getAction | Получите действие из агента или представления актера, данного наблюдения среды |