Агент обучения для усиления градиента политики
Алгоритм градиента политики (PG) - это метод обучения без моделей, онлайн, на уровне политики. Агент PG - это агент обучения усилению на основе политики, который использует алгоритм ENERGENCE для непосредственного вычисления оптимальной политики, которая максимизирует долгосрочное вознаграждение. Пространство действия может быть дискретным или непрерывным.
Дополнительные сведения об агентах PG и алгоритме ENERGENCE см. в разделе Агенты градиента политики. Дополнительные сведения о различных типах агентов обучения усилению см. в разделе Агенты обучения усилению.
создает агент градиента политики для среды с заданными спецификациями наблюдения и действия, используя параметры инициализации по умолчанию. Представления актера и критика в агенте используют глубокие нейронные сети по умолчанию, построенные из спецификации наблюдения agent = rlPGAgent(observationInfo,actionInfo)observationInfo и спецификацию действия actionInfo.
создает агент градиента политики для среды с заданными спецификациями наблюдения и действия. Агент использует сети по умолчанию, в которых каждый скрытый полностью подключенный уровень имеет количество единиц, указанное в agent = rlPGAgent(observationInfo,actionInfo,initOpts)initOpts объект. Агенты градиента политики не поддерживают рецидивирующие нейронные сети. Дополнительные сведения о параметрах инициализации см. в разделе rlAgentInitializationOptions.
создает агент PG с указанной сетью актера. По умолчанию agent = rlPGAgent(actor)UseBaseline свойство агента false в данном случае.
создает PG-агент и устанавливает agent = rlPGAgent(___,agentOptions)AgentOptions к свойству agentOptions входной аргумент. Используйте этот синтаксис после любого из входных аргументов в предыдущих синтаксисах.
train | Подготовка обучающих агентов по усилению в определенной среде |
sim | Моделирование обученных агентов по обучению подкреплению в определенной среде |
getAction | Получить действие от агента или актора при наблюдении за окружающей средой |
getActor | Получение представления актера от обучающего агента усиления |
setActor | Задать представление актора обучающего агента усиления |
getCritic | Получение критического представления от агента обучения усиления |
setCritic | Задать критическое представление агента обучения усилению |
generatePolicyFunction | Создание функции, оценивающей обученную политику усиления агента обучения |
Для непрерывных пространств действий: rlPGAgent агент не применяет ограничения, заданные спецификацией действия, поэтому необходимо применять ограничения пространства действия в среде.
Конструктор глубоких сетей | rlAgentInitializationOptions | rlPGAgentOptions | rlStochasticActorRepresentation | rlValueRepresentation