Стохастическое представление актера для агентов обучения с подкреплением
Этот объект реализует функциональную аппроксимацию, которая будет использоваться в качестве стохастического актёра в агенте обучения с подкреплением. Стохастический актёр принимает наблюдения как входы и возвращает случайное действие, тем самым реализуя стохастическую политику с определенным распределением вероятностей. После создания rlStochasticActorRepresentation
объект, используйте его, чтобы создать подходящего агента, такого как rlACAgent
или rlPGAgent
агент. Дополнительные сведения о создании представлений см. в разделах Создание политики и Представления функции ценности.
создает стохастического актёра с дискретным пространством действий, используя глубокую нейронную сеть discActor
= rlStochasticActorRepresentation(net
,observationInfo
,discActionInfo
,'Observation',obsName
)net
как функциональная аппроксимация. Здесь, выходной слой net
должно иметь столько элементов, сколько количество возможных дискретных действий. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo discActor
к входам observationInfo
и discActionInfo
, соответственно. obsName
должны содержать имена входных слоев net
.
создает дискретный пространственный стохастический актёр, используя пользовательскую функцию базиса в качестве базовой аппроксимации. Первый входной параметр является камерой с двумя элементами, в которой первый элемент содержит указатель discActor
= rlStochasticActorRepresentation({basisFcn
,W0
},observationInfo
,actionInfo
)basisFcn
в пользовательскую функцию базиса, а второй элемент содержит начальную матрицу веса W0
. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo discActor
к входам observationInfo
и actionInfo
, соответственно.
создает дискретное пространство действий, стохастический актёр discActor
= rlStochasticActorRepresentation(___,options
)discActor
используя набор дополнительных опций options
, который является rlRepresentationOptions
объект. Этот синтаксис задает свойство Опций discActor
на options
входной параметр. Можно использовать этот синтаксис с любой из предыдущих комбинаций входных аргументов.
создает Гауссова стохастического актёра с непрерывным пространством действий с помощью глубокой нейронной сети contActor
= rlStochasticActorRepresentation(net
,observationInfo
,contActionInfo
,'Observation',obsName
)net
как функциональная аппроксимация. Здесь, выходной слой net
должно иметь в два раза больше элементов, чем количество размерностей непрерывного пространства действий. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo contActor
к входам observationInfo
и contActionInfo
соответственно. obsName
должны содержать имена входных слоев net
.
Примечание
contActor
не применяет ограничения, заданные спецификацией действия, поэтому при использовании этого актёра необходимо применять ограничения пространства действий в окружении.
создает непрерывное пространство действий, Гауссов актёр contActor
= rlStochasticActorRepresentation(___,options
)contActor
использование дополнительной options
набор опций, являющийся rlRepresentationOptions
объект. Этот синтаксис задает свойство Опций contActor
на options
входной параметр. Можно использовать этот синтаксис с любой из предыдущих комбинаций входных аргументов.
rlACAgent | Агент обучения с подкреплением актёра-критика |
rlPGAgent | Агент обучения с подкреплением с градиентом политики |
rlPPOAgent | Проксимальный агент обучения с подкреплением оптимизации политики |
rlSACAgent | Мягкий агент обучения с подкреплением актёра-критика |
getAction | Получите действие от агента или представления актера заданных наблюдений окружения |