Агент обучения по оптимизации проксимальной политики
Оптимизация проксимальной политики (PPO) - это метод обучения без модели, онлайн, on-policy, градиентного усиления политики. Этот алгоритм чередует выборку данных через взаимодействие с окружающей средой и оптимизацию отсеченной суррогатной целевой функции с использованием стохастического градиентного спуска. Пространство действия может быть дискретным или непрерывным.
Дополнительные сведения об агентах PPO см. в разделе Агенты оптимизации проксимальной политики. Дополнительные сведения о различных типах агентов обучения усилению см. в разделе Агенты обучения усилению.
создает агент ближней оптимизации политики (PPO) для среды с заданными спецификациями наблюдения и действия, используя опции инициализации по умолчанию. Представления актера и критика в агенте используют глубокие нейронные сети по умолчанию, построенные из спецификации наблюдения agent = rlPPOAgent(observationInfo,actionInfo)observationInfo и спецификацию действия actionInfo.
создает агент PPO для среды с заданными характеристиками наблюдения и действий. Агент использует сети по умолчанию, настроенные с помощью параметров, указанных в agent = rlPPOAgent(observationInfo,actionInfo,initOpts)initOpts объект. Агенты актера-критика не поддерживают рецидивирующие нейронные сети. Дополнительные сведения о параметрах инициализации см. в разделе rlAgentInitializationOptions.
создает агент PPO и задает свойству AgentOptions значение agent = rlPPOAgent(___,agentOptions)agentOptions входной аргумент. Используйте этот синтаксис после любого из входных аргументов в предыдущих синтаксисах.
train | Подготовка обучающих агентов по усилению в определенной среде |
sim | Моделирование обученных агентов по обучению подкреплению в определенной среде |
getAction | Получить действие от агента или актора при наблюдении за окружающей средой |
getActor | Получение представления актера от обучающего агента усиления |
setActor | Задать представление актора обучающего агента усиления |
getCritic | Получение критического представления от агента обучения усиления |
setCritic | Задать критическое представление агента обучения усилению |
generatePolicyFunction | Создание функции, оценивающей обученную политику усиления агента обучения |
Для пространств непрерывных действий этот агент не применяет ограничения, заданные спецификацией действий. В этом случае необходимо применить ограничения пространства действий в среде.
Конструктор глубоких сетей | rlAgentInitializationOptions | rlPPOAgentOptions | rlStochasticActorRepresentation | rlValueRepresentation