Обучите пользовательского агента LQR

Этот пример использует:

В этом примере показано, как обучить пользовательского агента линейного квадратичного регулирования (LQR) управлять линейной системой дискретного времени, смоделированной в MATLAB®.

Создайте среду линейной системы

Среда обучения с подкреплением для этого примера является линейной системой дискретного времени. Движущими силами для системы дают

$x_{t + 1} = A x_{t} + B u_{t}$

Закон об управлении с обратной связью

$u_{t} = - K x_{t}$

Цель управления состоит в том, чтобы минимизировать квадратичную стоимость: $J = \sum_{t = 0}^{\infty} ({x_{t}}^{'} {Qx}_{t} + {u_{t}}^{'} {Ru}_{t})$ .

В этом примере системные матрицы

$\begin{array}{l} A = [\begin{array}{c} 1.05 & 0.05 & 0.05 \\ 0.05 & 1.05 & 0.05 \\ 0 & 0.05 & 1.05 \end{array}] \\ B = [\begin{array}{c} 0.1 & 0 & 0.2 \\ 0.1 & 0.5 & 0 \\ 0 & 0 & 0.5 \end{array}] \end{array}$

A = [1.05,0.05,0.05;0.05,1.05,0.05;0,0.05,1.05];
B = [0.1,0,0.2;0.1,0.5,0;0,0,0.5];

Квадратичные матрицы стоимости:

$\begin{array}{l} Q = [\begin{array}{c} 10 & 3 & 1 \\ 3 & 5 & 4 \\ 1 & 4 & 9 \end{array}] \\ R = [\begin{array}{c} 0.5 & 0 & 0 \\ 0 & 0.5 & 0 \\ 0 & 0 & 0.5 \end{array}] \end{array}$

Q = [10,3,1;3,5,4;1,4,9]; 
R = 0.5*eye(3);

Для этой среды, вознаграждения во время $t$ дают $r_{t} = - x_{t}^{'} Q x_{t} - u_{t}^{'} R u_{t}$ , который является отрицанием квадратичной стоимости. Поэтому максимизация вознаграждения минимизирует стоимость. Начальные условия установлены случайным образом функцией сброса.

Создайте интерфейс среды MATLAB для этой линейной системы и вознаграждения. myDiscreteEnv функция создает среду путем определения пользовательского step и reset функции. Для получения дополнительной информации о создании такой пользовательской среды смотрите, Создают Среду MATLAB Используя Пользовательские Функции.

env = myDiscreteEnv(A,B,Q,R);

Для повторяемости результатов зафиксируйте начальное значение генератора случайных чисел.

rng(0)

Создайте пользовательского агента LQR

Для проблемы LQR, Q-функции для данного усиления контроля $K$ может быть задан как $Q_{K} (x, u) = {[\begin{matrix} x \\ u \end{matrix}]}^{'} H_{K} [\begin{matrix} x \\ u \end{matrix}]$ , где $H_{K} = [\begin{matrix} H_{xx} & H_{xu} \\ H_{ux} & H_{uu} \end{matrix}]$ симметричная, положительная определенная матрица.

Закон о надзоре, чтобы максимизировать $Q_{K}$ $u = - {(H_{uu})}^{- 1} H_{ux} x$ , и усиление обратной связи ${K = (H_{uu})}^{- 1} H_{ux}$ .

Матрица $H_{K}$ содержит $m = \frac{1}{2} n (n + 1)$ отличные значения элемента, где $n$ сумма количества состояний и количества входных параметров. Обозначить $θ$ как вектор, соответствующий им $m$ элементы, где недиагональные элементы в $H_{K}$ умножаются на два.

Представляйте Q-функцию $θ$ , где $θ$ содержит параметры, которые будут изучены.

$Q_{K} (x, u) = θ^{'} (K) ϕ (x, u)$ , где $ϕ (x, u)$ квадратичная основная функция в терминах $x$ и $u$ .

Агент LQR запускается со стабилизировавшегося контроллера $K_{0}$ . Чтобы получить начальный контроллер стабилизации, поместите полюса системы с обратной связью $A - {BK}_{0}$ в модульном кругу.

K0 = place(A,B,[0.4,0.8,0.5]);

Чтобы создать пользовательского агента, необходимо создать подкласс rl.agent.CustomAgent абстрактный класс. Для пользовательского агента LQR заданным пользовательским подклассом является LQRCustomAgent. Для получения дополнительной информации смотрите Пользовательских Агентов. Создайте пользовательское использование агента LQR $Q$ , $R$ , и $K_{0}$ . Агент не запрашивает информацию на системных матрицах $A$ и $B$ .

agent = LQRCustomAgent(Q,R,K0);

В данном примере установите коэффициент дисконтирования агента на один. Чтобы использовать обесцененное будущее вознаграждение, установите коэффициент дисконтирования на значение меньше чем один.

agent.Gamma = 1;

Поскольку линейная система имеет три состояния и три входных параметров, общее количество настраиваемых параметров $m = 21$ . Чтобы гарантировать удовлетворительную эффективность агента, определите номер оценок параметра $N_{p}$ быть больше дважды количества настраиваемых параметров. В этом примере значение $N_{p} = 45$ .

agent.EstimateNum = 45;

Получить хорошую оценку заканчивается для $θ$ , необходимо применить постоянно взволнованную модель исследования к системе. В этом примере поощрите исследование модели путем добавления белого шума в контроллер выход: $u_{t} = - {Kx}_{t} + e_{t}$ . В общем случае модель исследования зависит от системных моделей.

Обучите агента

Чтобы обучить агента, сначала задайте опции обучения. В данном примере используйте следующие опции.

Запустите каждый эпизод тренировки для в большей части 10 эпизоды, с каждым эпизодом, длящимся в большей части 50 временные шаги.
Отобразитесь отображение командной строки (установите Verbose опция), и отключают процесс обучения в диалоговом окне Episode Manager (установите Plots опция).

Для получения дополнительной информации смотрите rlTrainingOptions.

trainingOpts = rlTrainingOptions(...
    'MaxEpisodes',10, ...
    'MaxStepsPerEpisode',50, ...
    'Verbose',true, ...
    'Plots','none');

Обучите агента с помощью train функция.

trainingStats = train(agent,env,trainingOpts);

Episode:   1/ 10 | Episode Reward : -55.16 | Episode Steps:   50 | Avg Reward : -55.16 | Step Count : 50
Episode:   2/ 10 | Episode Reward : -12.52 | Episode Steps:   50 | Avg Reward : -33.84 | Step Count : 100
Episode:   3/ 10 | Episode Reward : -15.59 | Episode Steps:   50 | Avg Reward : -27.76 | Step Count : 150
Episode:   4/ 10 | Episode Reward : -22.22 | Episode Steps:   50 | Avg Reward : -26.37 | Step Count : 200
Episode:   5/ 10 | Episode Reward : -14.32 | Episode Steps:   50 | Avg Reward : -23.96 | Step Count : 250
Episode:   6/ 10 | Episode Reward : -19.23 | Episode Steps:   50 | Avg Reward : -16.78 | Step Count : 300
Episode:   7/ 10 | Episode Reward : -34.14 | Episode Steps:   50 | Avg Reward : -21.10 | Step Count : 350
Episode:   8/ 10 | Episode Reward : -13.95 | Episode Steps:   50 | Avg Reward : -20.77 | Step Count : 400
Episode:   9/ 10 | Episode Reward : -36.01 | Episode Steps:   50 | Avg Reward : -23.53 | Step Count : 450
Episode:  10/ 10 | Episode Reward : -12.43 | Episode Steps:   50 | Avg Reward : -23.15 | Step Count : 500

Симулируйте агента и сравните с оптимальным решением

Чтобы подтвердить производительность обученного агента, симулируйте его в среде MATLAB. Для получения дополнительной информации о симуляции агента смотрите rlSimulationOptions и sim.

simOptions = rlSimulationOptions('MaxSteps',20);
experience = sim(env,agent,simOptions);
totalReward = sum(experience.Reward)

totalReward = -20.1306

Можно вычислить оптимальное решение для проблемы LQR с помощью dlqr функция.

[Koptimal,P] = dlqr(A,B,Q,R);

Оптимальным вознаграждением дают $J_{optimal} = {- x}_{0}^{'} {Px}_{0}$ .

x0 = experience.Observation.obs1.getdatasamples(1);
Joptimal = -x0'*P*x0;

Вычислите ошибку в вознаграждении между обученным агентом LQR и оптимальным решением LQR.

rewardError = totalReward - Joptimal

rewardError = 1.5270e-06

Просмотрите историю 2-нормы ошибки в усилениях между обученным агентом LQR и оптимальным решением LQR.

% number of gain updates
len = agent.KUpdate;
err = zeros(len,1);
for i = 1:len
    % norm of error in the gain
    err(i) = norm(agent.KBuffer{i}-Koptimal);
end  
plot(err,'b*-')

Вычислите норму конечной погрешности для усиления обратной связи.

gainError = norm(agent.K - Koptimal)

gainError = 4.1670e-11

В целом, обученный агент находит решение LQR, которое является близко к истинному оптимальному решению LQR.

Смотрите также

train

Документация

Обучите пользовательского агента LQR

Создайте среду линейной системы

Создайте пользовательского агента LQR

Обучите агента

Симулируйте агента и сравните с оптимальным решением

Смотрите также

Похожие темы

Документация Reinforcement Learning Toolbox

Поддержка