Стохастическое представление актера для агентов обучения с подкреплением
Этот объект реализует функциональную аппроксимацию, которая будет использоваться в качестве стохастического актёра в агенте обучения с подкреплением. Стохастический актёр принимает наблюдения как входы и возвращает случайное действие, тем самым реализуя стохастическую политику с определенным распределением вероятностей. После создания rlStochasticActorRepresentation объект, используйте его, чтобы создать подходящего агента, такого как rlACAgent или rlPGAgent агент. Дополнительные сведения о создании представлений см. в разделах Создание политики и Представления функции ценности.
создает стохастического актёра с дискретным пространством действий, используя глубокую нейронную сеть discActor = rlStochasticActorRepresentation(net,observationInfo,discActionInfo,'Observation',obsName)net как функциональная аппроксимация. Здесь, выходной слой net должно иметь столько элементов, сколько количество возможных дискретных действий. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo discActor к входам observationInfo и discActionInfo, соответственно. obsName должны содержать имена входных слоев net.
создает дискретный пространственный стохастический актёр, используя пользовательскую функцию базиса в качестве базовой аппроксимации. Первый входной параметр является камерой с двумя элементами, в которой первый элемент содержит указатель discActor = rlStochasticActorRepresentation({basisFcn,W0},observationInfo,actionInfo)basisFcn в пользовательскую функцию базиса, а второй элемент содержит начальную матрицу веса W0. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo discActor к входам observationInfo и actionInfo, соответственно.
создает дискретное пространство действий, стохастический актёр discActor = rlStochasticActorRepresentation(___,options)discActor используя набор дополнительных опций options, который является rlRepresentationOptions объект. Этот синтаксис задает свойство Опций discActor на options входной параметр. Можно использовать этот синтаксис с любой из предыдущих комбинаций входных аргументов.
создает Гауссова стохастического актёра с непрерывным пространством действий с помощью глубокой нейронной сети contActor = rlStochasticActorRepresentation(net,observationInfo,contActionInfo,'Observation',obsName)net как функциональная аппроксимация. Здесь, выходной слой net должно иметь в два раза больше элементов, чем количество размерностей непрерывного пространства действий. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo contActor к входам observationInfo и contActionInfo соответственно. obsName должны содержать имена входных слоев net.
Примечание
contActor не применяет ограничения, заданные спецификацией действия, поэтому при использовании этого актёра необходимо применять ограничения пространства действий в окружении.
создает непрерывное пространство действий, Гауссов актёр contActor = rlStochasticActorRepresentation(___,options)contActor использование дополнительной options набор опций, являющийся rlRepresentationOptions объект. Этот синтаксис задает свойство Опций contActor на options входной параметр. Можно использовать этот синтаксис с любой из предыдущих комбинаций входных аргументов.
rlACAgent | Агент обучения с подкреплением актёра-критика |
rlPGAgent | Агент обучения с подкреплением с градиентом политики |
rlPPOAgent | Проксимальный агент обучения с подкреплением оптимизации политики |
rlSACAgent | Мягкий агент обучения с подкреплением актёра-критика |
getAction | Получите действие от агента или представления актера заданных наблюдений окружения |