Обучите агент изучения укрепления в среде MDP

Этот пример показывает, как обучить агент Q-изучения решать типичную среду Процесса принятия решений Маркова (MDP). Для получения дополнительной информации об этих агентах смотрите Агенты Q-изучения.

Среда MDP имеет следующий график.

Здесь:

  1. Каждый круг представляет состояние.

  2. В каждом состоянии существует решение повыситься или вниз.

  3. Агент начинается с состояния 1.

  4. Агент получает вознаграждение, равное значению на каждом переходе в графике.

  5. Учебная цель состоит в том, чтобы собрать максимальное совокупное вознаграждение.

Создайте среду MDP

Создайте модель MDP с восемью состояниями и двумя действиями (и "вниз").

MDP = createMDP(8,["up";"down"]);

Чтобы смоделировать переходы от вышеупомянутого графика, измените матрицу Грина и премиальную матрицу MDP. По умолчанию эти матрицы содержат нули. Для получения дополнительной информации о создании модели MDP и свойств объекта MDP, смотрите createMDP.

Задайте изменение состояния и вознаградите матрицы за MDP. Например, в следующих командах:

  • Первые две строки задают переход от состояния 1, чтобы утвердить 2 принимающим меры 1 и вознаграждением +3 для этого перехода.

  • Следующие две строки задают переход от состояния 1, чтобы утвердить 3 принимающим меры 2 ("вниз") и вознаграждением +1 для этого перехода.

MDP.T(1,2,1) = 1;
MDP.R(1,2,1) = 3;
MDP.T(1,3,2) = 1;
MDP.R(1,3,2) = 1;

Точно так же задайте изменения состояния и вознаграждения за остающиеся правила в графике.

% State 2 transition and reward
MDP.T(2,4,1) = 1;
MDP.R(2,4,1) = 2;
MDP.T(2,5,2) = 1;
MDP.R(2,5,2) = 1;
% State 3 transition and reward
MDP.T(3,5,1) = 1;
MDP.R(3,5,1) = 2;
MDP.T(3,6,2) = 1;
MDP.R(3,6,2) = 4;
% State 4 transition and reward
MDP.T(4,7,1) = 1;
MDP.R(4,7,1) = 3;
MDP.T(4,8,2) = 1;
MDP.R(4,8,2) = 2;
% State 5 transition and reward
MDP.T(5,7,1) = 1;
MDP.R(5,7,1) = 1;
MDP.T(5,8,2) = 1;
MDP.R(5,8,2) = 9;
% State 6 transition and reward
MDP.T(6,7,1) = 1;
MDP.R(6,7,1) = 5;
MDP.T(6,8,2) = 1;
MDP.R(6,8,2) = 1;
% State 7 transition and reward
MDP.T(7,7,1) = 1;
MDP.R(7,7,1) = 0;
MDP.T(7,7,2) = 1;
MDP.R(7,7,2) = 0;
% State 8 transition and reward
MDP.T(8,8,1) = 1;
MDP.R(8,8,1) = 0;
MDP.T(8,8,2) = 1;
MDP.R(8,8,2) = 0;

Задайте утверждает "s7" и "s8" как терминальные состояния MDP.

MDP.TerminalStates = ["s7";"s8"];

Создайте укрепление, изучив среду MDP для этой модели процесса.

env = rlMDPEnv(MDP);

Чтобы указать, что начальное состояние агента всегда является состоянием 1, задайте функцию сброса, которая возвращает начальное состояние агента. Эта функция вызвана в начале каждого учебного эпизода и симуляции. Создайте указатель анонимной функции, который устанавливает начальное состояние на 1.

env.ResetFcn = @() 1;

Зафиксируйте случайный seed генератора для воспроизводимости.

rng(0)

Создайте агент Q-изучения

Чтобы создать агент Q-изучения, сначала составьте таблицу Q с помощью наблюдения и спецификаций действия от среды MDP. Установите темп обучения представления 1.

qTable = rlTable(getObservationInfo(env), getActionInfo(env));
tableRep = rlRepresentation(qTable);
tableRep.Options.LearnRate = 1;

Затем, создайте агент Q-изучения с помощью этого табличного представления, конфигурируя жадное эпсилоном исследование. Для получения дополнительной информации о создании агентов Q-изучения смотрите rlQAgent и rlQAgentOptions.

agentOpts = rlQAgentOptions;
agentOpts.DiscountFactor = 1;
agentOpts.EpsilonGreedyExploration.Epsilon = 0.9;
agentOpts.EpsilonGreedyExploration.EpsilonDecay = 0.01;
qAgent = rlQAgent(tableRep,agentOpts);

Обучите агент Q-изучения

Чтобы обучить агент, сначала задайте опции обучения. В данном примере используйте следующие опции:

  • Обучайтесь для самое большее 200 эпизодов с каждым эпизодом, длящимся самое большее 50 временных шагов.

  • Остановите обучение, когда агент получит среднее совокупное вознаграждение, больше, чем 10 более чем 30 последовательных эпизодов.

Для получения дополнительной информации смотрите rlTrainingOptions.

trainOpts = rlTrainingOptions;
trainOpts.MaxStepsPerEpisode = 50;
trainOpts.MaxEpisodes = 200;
trainOpts.StopTrainingCriteria = "AverageReward";
trainOpts.StopTrainingValue = 13;
trainOpts.ScoreAveragingWindowLength = 30;

Обучите агент с помощью функции train. Это может занять несколько минут, чтобы завершиться. Чтобы сэкономить время при выполнении этого примера, загрузите предварительно обученный агент установкой doTraining к false. Чтобы обучить агент самостоятельно, установите doTraining на true.

doTraining = false;

if doTraining
    % Train the agent.
    trainingStats = train(qAgent,env,trainOpts);
else
    % Load pretrained agent for the example.
    load('genericMDPQAgent.mat','qAgent');
end

Подтвердите результаты Q-изучения

Чтобы подтвердить учебные результаты, моделируйте агент в учебной среде с помощью функции sim. Агент успешно находит оптимальный путь, который приводит к совокупному вознаграждению 13.

Data = sim(qAgent,env);
cumulativeReward = sum(Data.Reward)
cumulativeReward = 13

Поскольку коэффициент дисконтирования установлен в 1, значения в таблице Q обученного агента совпадают с необесцененными возвратами среды.

QTable = getLearnableParameterValues(getCritic(qAgent))
QTable = 8×2

    13    12
     5    10
    11     9
     3     2
     1     9
     5     1
     0     0
     0     0

TrueTableValues = [13,12;5,10;11,9;3,2;1,9;5,1;0,0;0,0]
TrueTableValues = 8×2

    13    12
     5    10
    11     9
     3     2
     1     9
     5     1
     0     0
     0     0

Смотрите также

|

Похожие темы

Для просмотра документации необходимо авторизоваться на сайте