Избегайте препятствий Используя обучение с подкреплением для мобильных роботов

Скрипт Open Live Script

Этот пример использует основанное на Глубоко детерминированном градиенте политики (DDPG) обучение с подкреплением, чтобы разработать стратегию для мобильного робота, чтобы избежать препятствий. Для краткого обзора алгоритма DDPG смотрите Глубоко Детерминированных Агентов Градиента политики (Reinforcement Learning Toolbox).

Этот сценарий в качестве примера обучает мобильного робота избегать препятствий, данных показания датчика области значений, которые обнаруживают препятствия в карте. Цель алгоритма обучения с подкреплением состоит в том, чтобы изучить, какие средства управления (линейный и скорость вращения), робот должен использовать, чтобы не сталкиваться в препятствия. Этот пример использует карту заполнения известной среды, чтобы сгенерировать показания датчика области значений, обнаружить препятствия и столкновения проверки, которые может сделать робот. Показания датчика области значений являются наблюдениями для агента DDPG, и линейные средства управления и средства управления скоростью вращения являются действием.

Карта распределения памяти при загрузке

Загрузите матрицу карты, simpleMap, это представляет среду для робота.

load exampleMaps simpleMap 
load exampleHelperOfficeAreaMap office_area_map
mapMatrix = simpleMap;
mapScale = 1;

Параметры датчика области значений

Затем настройте rangeSensor объект, который симулирует шумный датчик области значений. Показания датчика области значений рассматриваются наблюдениями агентом. Задайте угловые положения показаний области значений, макс. области значений и шумовых параметров.

scanAngles = [-3*pi/8 : pi/8 :3*pi/8];
maxRange = 12;
lidarNoiseVariance = 0.1^2;
lidarNoiseSeeds = randi(intmax,size(scanAngles));

Параметры робота

Действие агента является двумерным вектором $a = [v, ω]$ где $v$ и $ω$ линейное и скорости вращения нашего робота. Использование агента DDPG нормировало входные параметры и для угловых и для линейных скоростей, означая, что действия агента являются скаляром между-1 и 1, который умножается на maxLinSpeed и maxAngSpeed параметры, чтобы получить фактический контроль. Задайте этот линейный максимум и скорость вращения.

Кроме того, задайте исходное положение робота как [x y theta].

% Max speed parameters
maxLinSpeed = 0.3;
maxAngSpeed = 0.3;

% Initial pose of the robot
initX = 17;
initY = 15;
initTheta = pi/2;

Покажите положения карты и робота

Чтобы визуализировать действия робота, создайте фигуру. Запустите путем показа, что заполнение сопоставляет и строит исходное положение робота.

fig = figure("Name","simpleMap");
set(fig, "Visible", "on");
ax = axes(fig);

show(binaryOccupancyMap(mapMatrix),"Parent",ax);
hold on
plotTransforms([initX, initY, 0], eul2quat([initTheta, 0, 0]), "MeshFilePath","groundvehicle.stl", "View", "2D");
light;
hold off

Figure simpleMap contains an axes object. The axes object with title Binary Occupancy Grid contains 5 objects of type patch, line, image.

Интерфейс среды

Создайте модель среды, которая принимает меры и дает наблюдение и сигналы вознаграждения. Задайте обеспеченное имя модели в качестве примера, exampleHelperAvoidObstaclesMobileRobot, параметры времени симуляции и имя блока агента.

mdl = "exampleHelperAvoidObstaclesMobileRobot";
Tfinal = 100;
sampleTime = 0.1;

agentBlk = mdl + "/Agent";

Откройте модель.

open_system(mdl)

Модель содержит Environment и Agent блоки. Agent блок еще не задан.

В Environment Блок Subsystem, необходимо видеть модель для симуляции данных о роботе и датчике. Подсистема берет в действии, генерирует сигнал наблюдения на основе показаний датчика области значений и вычисляет вознаграждение на основе расстояния от препятствий и усилие по командам действия.

open_system(mdl + "/Environment")

Задайте параметры наблюдения, obsInfo, использование rlNumericSpec объект и предоставление нижнего и верхнего предела для показаний области значений с достаточным количеством элементов для каждого углового положения в датчике области значений.

obsInfo = rlNumericSpec([numel(scanAngles) 1],...
    "LowerLimit",zeros(numel(scanAngles),1),...
    "UpperLimit",ones(numel(scanAngles),1)*maxRange);
numObservations = obsInfo.Dimension(1);

Задайте параметры действия, actInfo. Действие является коммандным вектором управления, $a = [v, ω]$ , нормированный к $[- 1, 1]$ .

numActions = 2;
actInfo = rlNumericSpec([numActions 1],...
    "LowerLimit",-1,...
    "UpperLimit",1);

Создайте объект интерфейса среды с помощью rlSimulinkEnv (Reinforcement Learning Toolbox). Задайте модель, имя блока агента, параметры наблюдения и параметры действия. Установите функцию сброса для симуляции с помощью exampleHelperRLAvoidObstaclesResetFcn. Эта функция перезапускает симуляцию путем размещения робота в новое случайное местоположение, чтобы начать избегать препятствий.

env = rlSimulinkEnv(mdl,agentBlk,obsInfo,actInfo);
env.ResetFcn = @(in)exampleHelperRLAvoidObstaclesResetFcn(in,scanAngles,maxRange,mapMatrix);
env.UseFastRestart = "Off";

Для другого примера, который настраивает среду Simulink® для обучения, смотрите, Создают окружение Simulink и Обучают Агента (Reinforcement Learning Toolbox).

Агент DDPG

Агент DDPG аппроксимирует долгосрочные премиальные заданные наблюдения и действия с помощью представления функции ценности критика. Чтобы создать критика, сначала создайте глубокую нейронную сеть с двумя входами, наблюдением и действием, и одним выходом. Для получения дополнительной информации о создании представления функции ценности глубокой нейронной сети смотрите, Создают политику и Представления Функции ценности (Reinforcement Learning Toolbox).

statePath = [
    featureInputLayer(numObservations, "Normalization", "none", "Name", "State")
    fullyConnectedLayer(50, "Name", "CriticStateFC1")
    reluLayer("Name", "CriticRelu1")
    fullyConnectedLayer(25, "Name", "CriticStateFC2")];
actionPath = [
    featureInputLayer(numActions, "Normalization", "none", "Name", "Action")
    fullyConnectedLayer(25, "Name", "CriticActionFC1")];
commonPath = [
    additionLayer(2,"Name", "add")
    reluLayer("Name","CriticCommonRelu")
    fullyConnectedLayer(1, "Name", "CriticOutput")];

criticNetwork = layerGraph();
criticNetwork = addLayers(criticNetwork,statePath);
criticNetwork = addLayers(criticNetwork,actionPath);
criticNetwork = addLayers(criticNetwork,commonPath);
criticNetwork = connectLayers(criticNetwork,"CriticStateFC2","add/in1");
criticNetwork = connectLayers(criticNetwork,"CriticActionFC1","add/in2");

Затем задайте опции для представления критика с помощью rlRepresentationOptions (Reinforcement Learning Toolbox).

Наконец, создайте представление критика с помощью заданной глубокой нейронной сети и опций. Необходимо также задать действие и спецификации наблюдений для критика, которого вы получаете из интерфейса среды. Для получения дополнительной информации смотрите rlQValueRepresentation (Reinforcement Learning Toolbox).

criticOpts = rlRepresentationOptions("LearnRate",1e-3,"L2RegularizationFactor",1e-4,"GradientThreshold",1);
critic = rlQValueRepresentation(criticNetwork,obsInfo,actInfo,"Observation",{'State'},"Action",{'Action'},criticOpts);

Агент DDPG решает который действие взять заданные наблюдения с помощью представления актера. Чтобы создать агента, сначала создайте глубокую нейронную сеть с одним входом, наблюдением, и одним выходом, действием.

Наконец, создайте агента подобным образом как критика. Для получения дополнительной информации смотрите rlDeterministicActorRepresentation (Reinforcement Learning Toolbox).

actorNetwork = [
    featureInputLayer(numObservations, "Normalization", "none", "Name", "State")
    fullyConnectedLayer(50, "Name", "actorFC1")
    reluLayer("Name","actorReLU1")
    fullyConnectedLayer(50, "Name", "actorFC2")
    reluLayer("Name","actorReLU2")
    fullyConnectedLayer(2, "Name", "actorFC3")
    tanhLayer("Name", "Action")];


actorOptions = rlRepresentationOptions("LearnRate",1e-4,"L2RegularizationFactor",1e-4,"GradientThreshold",1);
actor = rlDeterministicActorRepresentation(actorNetwork,obsInfo,actInfo,"Observation",{'State'},"Action",{'Action'},actorOptions);

Создайте объект агента DDPG

Задайте опции агента.

agentOpts = rlDDPGAgentOptions(...
    "SampleTime",sampleTime,...
    "TargetSmoothFactor",1e-3,...
    "DiscountFactor",0.995, ...
    "MiniBatchSize",128, ...
    "ExperienceBufferLength",1e6); 

agentOpts.NoiseOptions.Variance = 0.1;
agentOpts.NoiseOptions.VarianceDecayRate = 1e-5;

Создайте rlDDPGAgent объект. obstacleAvoidanceAgent переменная используется в модели для Agent блок.

obstacleAvoidanceAgent = rlDDPGAgent(actor,critic,agentOpts);
open_system(mdl + "/Agent")

Вознаграждение

Премиальная функция для агента моделируется как показано.

Агент вознагражден, чтобы избежать самого близкого препятствия, которое минимизирует худший вариант. Кроме того, агенту дают положительное вознаграждение за более высокие линейные скорости и дают отрицательное вознаграждение за более высокие угловые скорости. Эта полезная стратегия препятствует поведению агента входа в круги. Настройка ваших вознаграждений является ключевой для правильно обучения агента, таким образом, ваши вознаграждения варьируются в зависимости от вашего приложения.

Обучите агента

Чтобы обучить агента, сначала задайте опции обучения. В данном примере используйте следующие опции:

Обучайтесь для в большей части 10000 эпизоды, с каждым эпизодом, длящимся в большей части maxSteps временные шаги.
Отобразите прогресс обучения в диалоговом окне Episode Manager (установите Plots опция), и включают отображение командной строки (установите Verbose опция к истине).
Остановите обучение, когда агент получит среднее совокупное вознаграждение, больше, чем 400 более чем пятьдесят последовательных эпизодов.

Для получения дополнительной информации смотрите rlTrainingOptions (Reinforcement Learning Toolbox).

maxEpisodes = 10000;
maxSteps = ceil(Tfinal/sampleTime);
trainOpts = rlTrainingOptions(...
    "MaxEpisodes",maxEpisodes, ...
    "MaxStepsPerEpisode",maxSteps, ...
    "ScoreAveragingWindowLength",50, ...
    "StopTrainingCriteria","AverageReward", ...
    "StopTrainingValue",400, ...
    "Verbose", true, ...
    "Plots","training-progress");

Обучите агента с помощью train (Reinforcement Learning Toolbox) функция. Обучение является в вычислительном отношении интенсивным процессом, который занимает несколько минут, чтобы завершиться. Чтобы сэкономить время при выполнении этого примера, загрузите предварительно обученного агента установкой doTraining к false. Чтобы обучить агента самостоятельно, установите doTraining к true.

doTraining = false; % Toggle this to true for training. 

if doTraining
    % Train the agent.
    trainingStats = train(obstacleAvoidanceAgent,env,trainOpts);
else
    % Load pretrained agent for the example.
    load exampleHelperAvoidObstaclesAgent obstacleAvoidanceAgent
end

Менеджер по Эпизоду Обучения с подкреплением может использоваться, чтобы отследить мудрый эпизодом процесс обучения. Когда номер эпизода увеличивается, вы хотите видеть увеличение премиального значения.

Симулировать

Используйте обученного агента, чтобы симулировать управление робота в карте и предотвращение препятствий.

out = sim("exampleHelperAvoidObstaclesMobileRobot.slx");

Визуализировать

Чтобы визуализировать симуляцию управления робота вокруг среды с показаниями датчика области значений, используйте помощника, exampleHelperAvoidObstaclesPosePlot.

for i = 1:5:size(out.range, 3)
    u = out.pose(i, :);
    r = out.range(:, :, i);
    exampleHelperAvoidObstaclesPosePlot(u, mapMatrix, mapScale, r, scanAngles, ax);
end

Figure simpleMap contains an axes object. The axes object with title Binary Occupancy Grid contains 6 objects of type patch, line, image.

Расширяемость

Можно теперь использовать этого агента, чтобы симулировать управление в различной карте. Другая карта, сгенерированная от сканов лидара офисной среды, используется с той же обученной моделью. Эта карта представляет более реалистический сценарий, чтобы применить обученную модель после обучения.

Измените карту

mapMatrix = office_area_map.occupancyMatrix > 0.5;
mapScale = 10;
initX = 20;
initY = 30;
initTheta = 0;
fig = figure("Name","office_area_map");
set(fig, "Visible", "on");
ax = axes(fig);
show(binaryOccupancyMap(mapMatrix, mapScale),"Parent",ax);
hold on
plotTransforms([initX, initY, 0], eul2quat([initTheta, 0, 0]), "MeshFilePath","groundvehicle.stl", "View", "2D");
light;
hold off

Figure office_area_map contains an axes object. The axes object with title Binary Occupancy Grid contains 5 objects of type patch, line, image.

Симулировать

out = sim("exampleHelperAvoidObstaclesMobileRobot.slx");

Визуализировать

for i = 1:5:size(out.range, 3)
    u = out.pose(i, :);
    r = out.range(:, :, i);
    exampleHelperAvoidObstaclesPosePlot(u, mapMatrix, mapScale, r, scanAngles, ax);
end

Figure office_area_map contains an axes object. The axes object with title Binary Occupancy Grid contains 6 objects of type patch, line, image.

Документация

Избегайте препятствий Используя обучение с подкреплением для мобильных роботов

Карта распределения памяти при загрузке

Параметры датчика области значений

Параметры робота

Покажите положения карты и робота

Интерфейс среды

Агент DDPG

Создайте объект агента DDPG

Вознаграждение

Обучите агента

Симулировать

Визуализировать

Расширяемость

Измените карту

Симулировать

Визуализировать

Документация Robotics System Toolbox

Поддержка