Стохастическое представление актера для агентов обучения с подкреплением
Этот объект реализует функциональную аппроксимацию, которая будет использоваться в качестве стохастического агента в агенте обучения с подкреплением. Стохастический агент берет наблюдения в качестве входных параметров и возвращает случайное действие, таким образом, представляя стохастическую политику с определенным вероятностным распределением. После того, как вы создаете rlStochasticActorRepresentation объект, используйте его, чтобы создать подходящего агента, такого как rlACAgent или rlPGAgent агент. Для получения дополнительной информации о создании представлений смотрите, Создают Представления Функции ценности и политика.
создает стохастического агента с дискретным пространством действий, с помощью глубокой нейронной сети discActor = rlStochasticActorRepresentation(net,observationInfo,discActionInfo,'Observation',obsName)net как функциональная аппроксимация. Здесь, выходной слой net должен иметь столько же элементов сколько количество возможных дискретных действий. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo discActor к входным параметрам observationInfo и discActionInfo, соответственно. obsName должен содержать имена входных слоев net.
создает дискретное пространство стохастический агент с помощью пользовательской основной функции в качестве базовой аппроксимации. Первый входной параметр является ячейкой 2D элементов, в которой первый элемент содержит указатель discActor = rlStochasticActorRepresentation({basisFcn,W0},observationInfo,actionInfo)basisFcn к пользовательской основной функции и второму элементу содержит начальную матрицу веса W0. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo discActor к входным параметрам observationInfo и actionInfo, соответственно.
создает дискретное пространство действий, стохастический агент discActor = rlStochasticActorRepresentation(___,options)discActor использование дополнительных опций установило options, который является rlRepresentationOptions объект. Этот синтаксис устанавливает свойство Options discActor к options входной параметр. Можно использовать этот синтаксис с любой из предыдущих комбинаций входных аргументов.
создает Гауссова стохастического агента с непрерывным пространством действий с помощью глубокой нейронной сети contActor = rlStochasticActorRepresentation(net,observationInfo,contActionInfo,'Observation',obsName)net как функциональная аппроксимация. Здесь, выходной слой net должен иметь вдвое больше элементов как количество размерностей непрерывного пространства действий. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo contActor к входным параметрам observationInfo и contActionInfo соответственно. obsName должен содержать имена входных слоев net.
Примечание
contActor не осуществляет ограничения, установленные спецификацией действия, поэтому, при использовании этого агента, необходимо осуществить ограничения пространства действий в среде.
создает непрерывное пространство действий, Гауссов агент contActor = rlStochasticActorRepresentation(___,options)contActor использование дополнительного options набор опции, который является rlRepresentationOptions объект. Этот синтаксис устанавливает свойство Options contActor к options входной параметр. Можно использовать этот синтаксис с любой из предыдущих комбинаций входных аргументов.
rlACAgent | Агент обучения с подкреплением критика агента |
rlPGAgent | Агент обучения с подкреплением градиента политики |
rlPPOAgent | Ближайший агент обучения с подкреплением оптимизации политики |
rlSACAgent | Мягкий агент обучения с подкреплением критика агента |
getAction | Получите действие из агента или представления актера, данного наблюдения среды |