Извлеките информацию о действии и наблюдении, которую можно использовать, чтобы создать другие среды или агенты.
Среда обучения укрепления для этого примера является простой продольной динамикой для автомобиля эго и ведущего автомобиля. Учебная цель состоит в том, чтобы сделать автомобильное перемещение эго в скорости набора при поддержании безопасного расстояния от ведущего автомобиля путем управления продольным ускорением (и торможения). Этот пример использует ту же модель автомобиля в качестве Адаптивной Системы Круиз-контроля Используя Образцовое Прогнозирующее Управление (Model Predictive Control Toolbox) пример.
Откройте модель и создайте среду обучения укрепления.
env =
SimulinkEnvWithAgent with properties:
Model: "rlACCMdl"
AgentBlock: "rlACCMdl/RL Agent"
ResetFcn: []
UseFastRestart: 'on'
Среда обучения укрепления env
является объектом SimulinkWithAgent
с вышеупомянутыми свойствами.
Извлеките информацию о действии и наблюдении от среды обучения укрепления env
.
actInfoExt =
rlNumericSpec with properties:
LowerLimit: -3
UpperLimit: 2
Name: "acceleration"
Description: [0x0 string]
Dimension: [1 1]
DataType: "double"
obsInfoExt =
rlNumericSpec with properties:
LowerLimit: [3x1 double]
UpperLimit: [3x1 double]
Name: "observations"
Description: "information on velocity error and ego velocity"
Dimension: [3 1]
DataType: "double"
Информация о действии содержит ускоряющие значения, в то время как информация о наблюдении содержит скоростные и скоростные ошибочные значения автомобиля, оборудованного датчиком.