rlPPOAgent

Создайте ближайшего агента обучения с подкреплением оптимизации политики

Описание

пример

agent = rlPPOAgent(actor,critic,opt) создает агента ближайшей оптимизации политики (PPO) с заданным агентом и сетями критика, с помощью заданных опций агента PPO. Для получения дополнительной информации об агентах PPO смотрите Ближайших Агентов Оптимизации политики.

Примеры

свернуть все

Создайте интерфейс среды и получите его наблюдение и спецификации действия.

env = rlPredefinedEnv("CartPole-Discrete");
obsInfo = getObservationInfo(env);
actInfo = getActionInfo(env);

Создайте представление критика.

criticNetwork = [
    imageInputLayer([4 1 1],'Normalization','none','Name','state')
    fullyConnectedLayer(1,'Name','CriticFC')];
criticOpts = rlRepresentationOptions('LearnRate',8e-3,'GradientThreshold',1);
critic = rlRepresentation(criticNetwork,obsInfo,'Observation',{'state'},criticOpts);

Создайте представление агента.

actorNetwork = [
    imageInputLayer([4 1 1],'Normalization','none','Name','state')
    fullyConnectedLayer(2,'Name','action')];
actorOpts = rlRepresentationOptions('LearnRate',8e-3,'GradientThreshold',1);
actor = rlRepresentation(actorNetwork,obsInfo,actInfo,...
    'Observation',{'state'},'Action',{'action'},actorOpts);

Задайте опции агента и создайте агента PPO с помощью среды, агента и критика.

agentOpts = rlPPOAgentOptions(...
    'ExperienceHorizon',1024, ...
    'DiscountFactor',0.95);
agent = rlPPOAgent(actor,critic,agentOpts);

Входные параметры

свернуть все

Представление сети Actor для представления политики, заданной как любой rlLayerRepresentation или rlDLNetworkRepresentation объект, созданный с помощью rlRepresentation. Для получения дополнительной информации о создании представлений агента смотрите, Создают политику и Представления Функции Значения.

Представление сети Critic для оценки функции значения состояния, заданной как любой rlLayerRepresentation или rlDLNetworkRepresentation объект, созданный с помощью rlRepresentation. Для получения дополнительной информации о создании представлений критика смотрите, Создают политику и Представления Функции Значения.

Опции агента, заданные как rlPPOAgentOptions объект.

Выходные аргументы

свернуть все

Агент PPO, возвращенный как rlPPOAgent объект.

Введенный в R2019b

Для просмотра документации необходимо авторизоваться на сайте