getObservationInfo

Получите спецификации данных о наблюдении из среды обучения с подкреплением или от агента

Описание

пример

obsInfo = getObservationInfo(env) информация о наблюдении извлечений средой обучения с подкреплением env.

obsInfo = getObservationInfo(agent) информация о наблюдении извлечений от агента обучения с подкреплением agent.

Примеры

свернуть все

Извлеките информацию о действии и наблюдении, которую можно использовать, чтобы создать другие среды или агентов.

Среда обучения с подкреплением для этого примера является простой продольной динамикой для автомобиля эго и ведущего автомобиля. Цель обучения должна сделать автомобильное перемещение эго при скорости набора при поддержании безопасного расстояния от ведущего автомобиля путем управления продольным ускорением (и торможения). Этот пример использует ту же модель транспортного средства в качестве Адаптивной Системы Круиз-контроля Используя Прогнозирующее Управление Модели (Model Predictive Control Toolbox) пример.

Откройте модель и создайте среду обучения с подкреплением.

mdl = 'rlACCMdl';
open_system(mdl);
agentblk = [mdl '/RL Agent'];
% create the observation info
obsInfo = rlNumericSpec([3 1],'LowerLimit',-inf*ones(3,1),'UpperLimit',inf*ones(3,1));
obsInfo.Name = 'observations';
obsInfo.Description = 'information on velocity error and ego velocity';
% action Info
actInfo = rlNumericSpec([1 1],'LowerLimit',-3,'UpperLimit',2);
actInfo.Name = 'acceleration';
% define environment
env = rlSimulinkEnv(mdl,agentblk,obsInfo,actInfo)
env = 
SimulinkEnvWithAgent with properties:

           Model : rlACCMdl
      AgentBlock : rlACCMdl/RL Agent
        ResetFcn : []
  UseFastRestart : on

Среда обучения с подкреплением env SimulinkWithAgent объект с вышеупомянутыми свойствами.

Извлеките информацию о действии и наблюдении из среды обучения с подкреплением env.

actInfoExt = getActionInfo(env)
actInfoExt = 
  rlNumericSpec with properties:

     LowerLimit: -3
     UpperLimit: 2
           Name: "acceleration"
    Description: [0x0 string]
      Dimension: [1 1]
       DataType: "double"

obsInfoExt = getObservationInfo(env)
obsInfoExt = 
  rlNumericSpec with properties:

     LowerLimit: [3x1 double]
     UpperLimit: [3x1 double]
           Name: "observations"
    Description: "information on velocity error and ego velocity"
      Dimension: [3 1]
       DataType: "double"

Информация о действии содержит ускоряющие значения, в то время как информация о наблюдении содержит скоростные и скоростные ошибочные значения автомобиля, оборудованного датчиком.

Входные параметры

свернуть все

Среда обучения с подкреплением, из которой информация о наблюдении должна быть извлечена в виде SimulinkEnvWithAgent объект.

Для получения дополнительной информации о средах обучения с подкреплением смотрите, Создают окружения Simulink для Обучения с подкреплением.

Агент обучения с подкреплением, из которого информация о наблюдении должна быть извлечена в виде одного из следующих объектов:

Для получения дополнительной информации об агентах обучения с подкреплением смотрите Агентов Обучения с подкреплением.

Выходные аргументы

свернуть все

Технические требования данных о наблюдении извлечены из среды обучения с подкреплением, возвращенной как массив одного из следующего:

Введенный в R2019a