Обучите агент изучения укрепления в среде MDP

Этот пример показывает, как обучить агент Q-изучения решать типичную среду Процесса принятия решений Маркова (MDP). Для получения дополнительной информации об этих агентах смотрите Агенты Q-изучения.

Среда MDP имеет следующий график.

Здесь:

Каждый круг представляет состояние.
В каждом состоянии существует решение повыситься или вниз.
Агент начинается с состояния 1.
Агент получает вознаграждение, равное значению на каждом переходе в графике.
Учебная цель состоит в том, чтобы собрать максимальное совокупное вознаграждение.

Создайте среду MDP

Создайте модель MDP с восемью состояниями и двумя действиями (и "вниз").

MDP = createMDP(8,["up";"down"]);

Чтобы смоделировать переходы от вышеупомянутого графика, измените матрицу Грина и премиальную матрицу MDP. По умолчанию эти матрицы содержат нули. Для получения дополнительной информации о создании модели MDP и свойств объекта MDP, смотрите createMDP.

Задайте изменение состояния и вознаградите матрицы за MDP. Например, в следующих командах:

Первые две строки задают переход от состояния 1, чтобы утвердить 2 принимающим меры 1 и вознаграждением +3 для этого перехода.
Следующие две строки задают переход от состояния 1, чтобы утвердить 3 принимающим меры 2 ("вниз") и вознаграждением +1 для этого перехода.

MDP.T(1,2,1) = 1;
MDP.R(1,2,1) = 3;
MDP.T(1,3,2) = 1;
MDP.R(1,3,2) = 1;

Точно так же задайте изменения состояния и вознаграждения за остающиеся правила в графике.

% State 2 transition and reward
MDP.T(2,4,1) = 1;
MDP.R(2,4,1) = 2;
MDP.T(2,5,2) = 1;
MDP.R(2,5,2) = 1;
% State 3 transition and reward
MDP.T(3,5,1) = 1;
MDP.R(3,5,1) = 2;
MDP.T(3,6,2) = 1;
MDP.R(3,6,2) = 4;
% State 4 transition and reward
MDP.T(4,7,1) = 1;
MDP.R(4,7,1) = 3;
MDP.T(4,8,2) = 1;
MDP.R(4,8,2) = 2;
% State 5 transition and reward
MDP.T(5,7,1) = 1;
MDP.R(5,7,1) = 1;
MDP.T(5,8,2) = 1;
MDP.R(5,8,2) = 9;
% State 6 transition and reward
MDP.T(6,7,1) = 1;
MDP.R(6,7,1) = 5;
MDP.T(6,8,2) = 1;
MDP.R(6,8,2) = 1;
% State 7 transition and reward
MDP.T(7,7,1) = 1;
MDP.R(7,7,1) = 0;
MDP.T(7,7,2) = 1;
MDP.R(7,7,2) = 0;
% State 8 transition and reward
MDP.T(8,8,1) = 1;
MDP.R(8,8,1) = 0;
MDP.T(8,8,2) = 1;
MDP.R(8,8,2) = 0;

Задайте утверждает "s7" и "s8" как терминальные состояния MDP.

MDP.TerminalStates = ["s7";"s8"];

Создайте укрепление, изучив среду MDP для этой модели процесса.

env = rlMDPEnv(MDP);

Чтобы указать, что начальное состояние агента всегда является состоянием 1, задайте функцию сброса, которая возвращает начальное состояние агента. Эта функция вызвана в начале каждого учебного эпизода и симуляции. Создайте указатель анонимной функции, который устанавливает начальное состояние на 1.

env.ResetFcn = @() 1;

Зафиксируйте случайный seed генератора для воспроизводимости.

rng(0)

Создайте агент Q-изучения

Чтобы создать агент Q-изучения, сначала составьте таблицу Q с помощью наблюдения и спецификаций действия от среды MDP. Установите темп обучения представления 1.

qTable = rlTable(getObservationInfo(env), getActionInfo(env));
tableRep = rlRepresentation(qTable);
tableRep.Options.LearnRate = 1;

Затем, создайте агент Q-изучения с помощью этого табличного представления, конфигурируя жадное эпсилоном исследование. Для получения дополнительной информации о создании агентов Q-изучения смотрите rlQAgent и rlQAgentOptions.

agentOpts = rlQAgentOptions;
agentOpts.DiscountFactor = 1;
agentOpts.EpsilonGreedyExploration.Epsilon = 0.9;
agentOpts.EpsilonGreedyExploration.EpsilonDecay = 0.01;
qAgent = rlQAgent(tableRep,agentOpts);

Обучите агент Q-изучения

Чтобы обучить агент, сначала задайте опции обучения. В данном примере используйте следующие опции:

Обучайтесь для самое большее 200 эпизодов с каждым эпизодом, длящимся самое большее 50 временных шагов.
Остановите обучение, когда агент получит среднее совокупное вознаграждение, больше, чем 10 более чем 30 последовательных эпизодов.

Для получения дополнительной информации смотрите rlTrainingOptions.

trainOpts = rlTrainingOptions;
trainOpts.MaxStepsPerEpisode = 50;
trainOpts.MaxEpisodes = 200;
trainOpts.StopTrainingCriteria = "AverageReward";
trainOpts.StopTrainingValue = 13;
trainOpts.ScoreAveragingWindowLength = 30;

Обучите агент с помощью функции train. Это может занять несколько минут, чтобы завершиться. Чтобы сэкономить время при выполнении этого примера, загрузите предварительно обученный агент установкой doTraining к false. Чтобы обучить агент самостоятельно, установите doTraining на true.

doTraining = false;

if doTraining
    % Train the agent.
    trainingStats = train(qAgent,env,trainOpts);
else
    % Load pretrained agent for the example.
    load('genericMDPQAgent.mat','qAgent');
end

Подтвердите результаты Q-изучения

Чтобы подтвердить учебные результаты, моделируйте агент в учебной среде с помощью функции sim. Агент успешно находит оптимальный путь, который приводит к совокупному вознаграждению 13.

Data = sim(qAgent,env);
cumulativeReward = sum(Data.Reward)

cumulativeReward = 13

Поскольку коэффициент дисконтирования установлен в 1, значения в таблице Q обученного агента совпадают с необесцененными возвратами среды.

QTable = getLearnableParameterValues(getCritic(qAgent))

QTable = 8×2

    13    12
     5    10
    11     9
     3     2
     1     9
     5     1
     0     0
     0     0

TrueTableValues = [13,12;5,10;11,9;3,2;1,9;5,1;0,0;0,0]

TrueTableValues = 8×2

    13    12
     5    10
    11     9
     3     2
     1     9
     5     1
     0     0
     0     0

Смотрите также

createMDP | rlMDPEnv

Документация