exponenta event banner

getModel

Получение вычислительной модели из представления политики или функции значения

    Синтаксис

    Описание

    пример

    model = getModel(rep) возвращает вычислительную модель, используемую политикой или представлением функции значения rep.

    Примеры

    свернуть все

    Создание среды с непрерывным пространством действий и получение ее характеристик наблюдения и действий. В этом примере загрузите среду, используемую в примере Train DDPG Agent to Control Double Integrator System.

    Загрузите предварительно определенную среду.

    env = rlPredefinedEnv("DoubleIntegrator-Continuous")
    env = 
      DoubleIntegratorContinuousAction with properties:
    
                 Gain: 1
                   Ts: 0.1000
          MaxDistance: 5
        GoalThreshold: 0.0100
                    Q: [2x2 double]
                    R: 0.0100
             MaxForce: Inf
                State: [2x1 double]
    
    

    Получение спецификаций наблюдения и действий.

    obsInfo = getObservationInfo(env);
    actInfo = getActionInfo(env);

    Создайте агента PPO из спецификаций наблюдения и действий среды.

    agent = rlPPOAgent(obsInfo,actInfo);

    Чтобы изменить глубокие нейронные сети внутри агента обучения усилению, необходимо сначала извлечь представление актера и критика.

    actor = getActor(agent);
    critic = getCritic(agent);

    Извлеките глубокие нейронные сети из представлений как актера, так и критика.

    actorNet = getModel(actor);
    criticNet = getModel(critic);

    Для просмотра сети используйте plot функция. Например, просмотрите сеть актера.

    plot(actorNet)

    Figure contains an axes. The axes contains an object of type graphplot.

    Можно изменить сети актера и критика и сохранить их обратно агенту. Для изменения сетей можно использовать приложение Deep Network Designer. Чтобы открыть приложение для каждой сети, используйте следующие команды.

    deepNetworkDesigner(criticNet)
    deepNetworkDesigner(actorNet)
    

    В Deep Network Designer измените сети. Например, можно добавить дополнительные слои в сеть. При изменении сетей не изменяйте входные и выходные уровни сетей, возвращаемые getModel. Дополнительные сведения о построении сетей см. в разделе Создание сетей с помощью Deep Network Designer.

    Чтобы экспортировать измененные структуры сети в рабочую область MATLAB ®, создайте код для создания новых сетей и запустите этот код из командной строки. Не используйте параметр экспорта в Deep Network Designer. Пример создания и запуска кода см. в разделах Создание агента с помощью Deep Network Designer и Обучение с помощью наблюдений за изображениями.

    Для этого примера код для создания измененных сетей актера и критика находится в createModifiedNetworks.m.

    createModifiedNetworks

    Каждая из модифицированных сетей включает в себя дополнительную fullyConnectedLayer и reluLayer в их выходном тракте. Просмотр измененной сети субъектов.

    plot(modifiedActorNet)

    Figure contains an axes. The axes contains an object of type graphplot.

    После экспорта сетей вставьте их в представление актера и критика.

    actor = setModel(actor,modifiedActorNet);
    critic = setModel(critic,modifiedCriticNet);

    Наконец, вставьте измененные представления актера и критика в объекты актера и критика.

    agent = setActor(agent,actor);
    agent = setCritic(agent,critic);

    Входные аргументы

    свернуть все

    Представление функции политики или значения, указанное как одно из следующих значений:

    Чтобы создать представление политики или функции значения, используйте один из следующих методов.

    • Создайте представление, используя соответствующий объект представления.

    • Получение существующего представления функции значения от агента с помощью getCritic.

    • Получение существующего представления политики от агента с помощью getActor.

    Примечание

    Для агентов с несколькими критиками, таких как агенты TD3 и SAC, необходимо вызвать getModel для каждого критического представления по отдельности, а не для вызова getModel для массива, возвращенного getCritic.

    critics = getCritic(myTD3Agent);
    criticNet1 = getModel(critics(1));
    criticNet2 = getModel(critics(2));

    Выходные аргументы

    свернуть все

    Вычислительная модель, возвращенная как одна из следующих:

    • Глубокая нейронная сеть, определенная как DAGNetwork объект

    • rlTable объект

    • Массив ячеек 1 на 2, содержащий дескриптор функции для пользовательской базисной функции и параметры базисной функции

    Представлен в R2020b