rlMDPEnv

Создайте среду марковского процесса принятия решений для обучения с подкреплением

Описание

Марковский процесс принятия решений (MDP) является стохастическим процессом управления с дискретным временем. Это служит математической основой для моделирования принятия решения в ситуациях, где результаты частично случайны и частично под управлением лица, принимающего решения. MDPs полезны для изучения задач оптимизации, решенных с помощью обучения с подкреплением. Используйте rlMDPEnv создать среду марковского процесса принятия решений для обучения с подкреплением в MATLAB^®.

Создание

Синтаксис

env = rlMDPEnv(MDP)

Описание

пример

env = rlMDPEnv(MDP) создает среду обучения с подкреплением env с заданным MDP модель.

Входные параметры

развернуть все

`MDP` — Модель марковского процесса принятия решений
`GridWorld` возразите | `GenericMDP` объект

Модель марковского процесса принятия решений в виде одного из следующего:

GridWorld объект создал использование createGridWorld.
GenericMDP объект создал использование createMDP.

Свойства

развернуть все

`Model` — Модель марковского процесса принятия решений
`GridWorld` возразите | `GenericMDP` объект

Модель марковского процесса принятия решений в виде GridWorld объект или GenericMDP объект.

`ResetFcn` Функция сброса
указатель на функцию

Сбросьте функцию в виде указателя на функцию.

Функции объекта

`getActionInfo`	Получите спецификации данных о действии из среды обучения с подкреплением или от агента
`getObservationInfo`	Получите спецификации данных о наблюдении из среды обучения с подкреплением или от агента
`sim`	Симулируйте обученных агентов обучения с подкреплением в заданной среде
`train`	Обучите агентов обучения с подкреплением в заданной среде
`validateEnvironment`	Проверьте пользовательскую среду обучения с подкреплением

Примеры

свернуть все

Создайте среду мира сетки

Скрипт Open Live Script

В данном примере рассмотрите мир сетки 5 на 5 со следующими правилами:

Мир сетки 5 на 5 ограничен границами, с 4 возможными действиями (Север=1, Юг=2, Восток=3, Запад=4).
Агент стартует с ячейки [2,1] (вторая строка, первый столбец).
Агент получает вознаграждение +10, если он достигает терминального состояния в ячейке [5,5] (синяя).
Среда содержит специальный скачок от ячейки [2,4] к ячейке [4,4] с вознаграждением +5.
Агент блокируется препятствиями в ячейках [3,3], [3,4], [3,5] и [4,3] (черные ячейки).
Все другие действия приводят к вознаграждению -1.

Во-первых, создайте GridWorld объект с помощью createGridWorld функция.

GW = createGridWorld(5,5)

GW = 
  GridWorld with properties:

          GridSize: [5 5]
      CurrentState: "[1,1]"
            States: [25x1 string]
           Actions: [4x1 string]
                 T: [25x25x4 double]
                 R: [25x25x4 double]
    ObstacleStates: [0x1 string]
    TerminalStates: [0x1 string]

Теперь установите начальную букву, терминал и состояния препятствия.

GW.CurrentState = '[2,1]';
GW.TerminalStates = '[5,5]';
GW.ObstacleStates = ["[3,3]";"[3,4]";"[3,5]";"[4,3]"];

Обновите матрицу переходов для состояний препятствия и установите правило скачка по состояниям препятствия.

updateStateTranstionForObstacles(GW)
GW.T(state2idx(GW,"[2,4]"),:,:) = 0;
GW.T(state2idx(GW,"[2,4]"),state2idx(GW,"[4,4]"),:) = 1;

Затем задайте вознаграждения в матрице вознаграждений при переходе.

nS = numel(GW.States);
nA = numel(GW.Actions);
GW.R = -1*ones(nS,nS,nA);
GW.R(state2idx(GW,"[2,4]"),state2idx(GW,"[4,4]"),:) = 5;
GW.R(:,state2idx(GW,GW.TerminalStates),:) = 10;

Теперь используйте rlMDPEnv создать среду мира сетки с помощью GridWorld объект GW.

env = rlMDPEnv(GW)

env = 
  rlMDPEnv with properties:

       Model: [1x1 rl.env.GridWorld]
    ResetFcn: []

Можно визуализировать среду мира сетки с помощью plot функция.

plot(env)

Смотрите также

createGridWorld | rlPredefinedEnv

Темы

Введенный в R2019a

Документация

rlMDPEnv

Описание

Создание

Синтаксис

Описание

Входные параметры

`MDP` — Модель марковского процесса принятия решений
`GridWorld` возразите | `GenericMDP` объект

Свойства

`Model` — Модель марковского процесса принятия решений
`GridWorld` возразите | `GenericMDP` объект

`ResetFcn` Функция сброса
указатель на функцию

Функции объекта

Примеры

Создайте среду мира сетки

Смотрите также

Темы

Документация Reinforcement Learning Toolbox

Поддержка

Документация

rlMDPEnv

Описание

Создание

Синтаксис

Описание

Входные параметры

MDP — Модель марковского процесса принятия решений GridWorld возразите | GenericMDP объект

Свойства

Model — Модель марковского процесса принятия решений GridWorld возразите | GenericMDP объект

ResetFcn Функция сброса указатель на функцию

Функции объекта

Примеры

Создайте среду мира сетки

Смотрите также

Темы

Документация Reinforcement Learning Toolbox

Поддержка

`MDP` — Модель марковского процесса принятия решений
`GridWorld` возразите | `GenericMDP` объект

`Model` — Модель марковского процесса принятия решений
`GridWorld` возразите | `GenericMDP` объект

`ResetFcn` Функция сброса
указатель на функцию