Стохастическое представление актера для усиливающих обучающих агентов
Этот объект реализует аппроксиматор функции, используемый в качестве стохастического фактора в агенте обучения усилению. Стохастический актер принимает наблюдения как входные данные и возвращает случайное действие, тем самым реализуя стохастическую политику с определенным распределением вероятностей. После создания rlStochasticActorRepresentation объект, использовать его для создания подходящего агента, такого как rlACAgent или rlPGAgent агент. Дополнительные сведения о создании представлений см. в разделе Создание представлений политик и функций значений.
создает стохастический актер с дискретным пространством действия, используя глубокую нейронную сеть discActor = rlStochasticActorRepresentation(net,observationInfo,discActionInfo,'Observation',obsName)net в качестве аппроксиматора функции. Здесь выходной уровень net должен иметь столько элементов, сколько может быть дискретных действий. Этот синтаксис задает свойства TranslationInfo и ActionInfo для discActor на входы observationInfo и discActionInfoсоответственно. obsName должен содержать имена входных слоев net.
создает дискретный пространственный стохастический фактор, используя пользовательскую базисную функцию в качестве базового аппроксиматора. Первый входной аргумент представляет собой двухэлементную ячейку, в которой первый элемент содержит дескриптор discActor = rlStochasticActorRepresentation({basisFcn,W0},observationInfo,actionInfo)basisFcn к пользовательской базисной функции, а второй элемент содержит исходную весовую матрицу W0. Этот синтаксис задает свойства TranslationInfo и ActionInfo для discActor на входы observationInfo и actionInfoсоответственно.
создает пространство дискретного действия, стохастический актер discActor = rlStochasticActorRepresentation(___,options)discActor использование набора дополнительных опций options, который является rlRepresentationOptions объект. Этот синтаксис задает свойство Options для discActor в options входной аргумент. Этот синтаксис можно использовать с любой из предыдущих комбинаций входных аргументов.
создает гауссовский стохастический актер с пространством непрерывного действия с помощью глубокой нейронной сети contActor = rlStochasticActorRepresentation(net,observationInfo,contActionInfo,'Observation',obsName)net в качестве аппроксиматора функции. Здесь выходной уровень net должен иметь в два раза больше элементов, чем количество измерений пространства непрерывного действия. Этот синтаксис задает свойства TranslationInfo и ActionInfo для contActor на входы observationInfo и contActionInfo соответственно. obsName должен содержать имена входных слоев net.
Примечание
contActor не применяет ограничения, заданные спецификацией действия, поэтому при использовании этого исполнителя необходимо применять ограничения пространства действия в среде.
создает непрерывное пространство действия, гауссовский актер contActor = rlStochasticActorRepresentation(___,options)contActor с использованием дополнительного options набор опций, который является rlRepresentationOptions объект. Этот синтаксис задает свойство Options для contActor в options входной аргумент. Этот синтаксис можно использовать с любой из предыдущих комбинаций входных аргументов.
rlACAgent | Актерско-критический агент по обучению |
rlPGAgent | Агент обучения для усиления градиента политики |
rlPPOAgent | Агент обучения по оптимизации проксимальной политики |
rlSACAgent | Мягкий актерско-критический агент по обучению |
getAction | Получить действие от агента или актора при наблюдении за окружающей средой |