rlMDPEnv

Создайте окружение марковского процесса принятия решений для обучения с подкреплением

Описание

A Марковского процесса принятия решений (MDP) является стохастическим процессом управления с дискретным временем. Это обеспечивает математическую среду для моделирования принятия решений в ситуациях, когда результаты частично случайны и частично находятся под контролем лица, принимающего решения. MDP полезны для изучения задач оптимизации, решаемых с помощью обучения с подкреплением. Использование rlMDPEnv создать окружение марковского процесса принятия решений для обучения с подкреплением в MATLAB^®.

Создание

Синтаксис

env = rlMDPEnv(MDP)

Описание

пример

env = rlMDPEnv(MDP) создает окружение обучения с подкреплением env с заданным MDP модель.

Входные параметры

расширить все

`MDP` - модель марковского процесса принятия решений
`GridWorld` | объекта `GenericMDP` объект

Модель марковского процесса принятия решений, заданная как одно из следующего:

GridWorld объект, созданный с помощью createGridWorld.
GenericMDP объект, созданный с помощью createMDP.

Свойства

расширить все

`Model` - модель марковского процесса принятия решений
`GridWorld` | объекта `GenericMDP` объект

Модель марковского процесса принятия решений, заданная как GridWorld объект или GenericMDP объект.

`ResetFcn` - Функция сброса
указатель на функцию

Функция сброса, заданная как указатель на функцию.

Функции объекта

`getActionInfo`	Получите спецификации данных о действии из окружения обучения с подкреплением или от агента
`getObservationInfo`	Получите спецификации данных о наблюдении из окружения обучения с подкреплением или от агента
`sim`	Симулируйте обученных агентов обучения с подкреплением в заданном окружении
`train`	Обучите агентов обучения с подкреплением в заданном окружении
`validateEnvironment`	Проверьте пользовательское окружение обучения с подкреплением

Примеры

свернуть все

Создайте окружение мира сетки

Открыть Live Script

В данном примере рассмотрим мир сетки 5 на 5 со следующими правилами:

Мир сетки 5 на 5 ограничен границами, с 4 возможными действиями (Север = 1, Юг = 2, Восток = 3, Запад = 4).
Агент стартует с камеры [2,1] (вторая строка, первый столбец).
Агент получает вознаграждение + 10, если он достигает конечного состояния в камере [5,5] (синяя).
Среда содержит специальный переход от камеры [2,4] к камере [4,4] с вознаграждением + 5.
Агент блокируется препятствиями в камерах [3,3], [3,4], [3,5] и [4,3] (черные камеры).
Все другие действия приводят к вознаграждению -1.

Во-первых, создайте GridWorld объект с использованием createGridWorld функция.

GW = createGridWorld(5,5)

GW = 
  GridWorld with properties:

          GridSize: [5 5]
      CurrentState: "[1,1]"
            States: [25x1 string]
           Actions: [4x1 string]
                 T: [25x25x4 double]
                 R: [25x25x4 double]
    ObstacleStates: [0x1 string]
    TerminalStates: [0x1 string]

Теперь установите начальное, терминальное и препятствующее состояния.

GW.CurrentState = '[2,1]';
GW.TerminalStates = '[5,5]';
GW.ObstacleStates = ["[3,3]";"[3,4]";"[3,5]";"[4,3]"];

Обновите матрицу переходов состояний для состояний препятствий и установите правило скачка над состояниями препятствий.

updateStateTranstionForObstacles(GW)
GW.T(state2idx(GW,"[2,4]"),:,:) = 0;
GW.T(state2idx(GW,"[2,4]"),state2idx(GW,"[4,4]"),:) = 1;

Затем задайте вознаграждения в матрице вознаграждений при переходе.

nS = numel(GW.States);
nA = numel(GW.Actions);
GW.R = -1*ones(nS,nS,nA);
GW.R(state2idx(GW,"[2,4]"),state2idx(GW,"[4,4]"),:) = 5;
GW.R(:,state2idx(GW,GW.TerminalStates),:) = 10;

Теперь используйте rlMDPEnv создать окружение мира сетки с помощью GridWorld GW объекта.

env = rlMDPEnv(GW)

env = 
  rlMDPEnv with properties:

       Model: [1x1 rl.env.GridWorld]
    ResetFcn: []

Вы можете визуализировать окружение мира сетки с помощью plot функция.

plot(env)

См. также

createGridWorld | rlPredefinedEnv

Темы

Введенный в R2019a

Документация

rlMDPEnv

Описание

Создание

Синтаксис

Описание

Входные параметры

`MDP` - модель марковского процесса принятия решений
`GridWorld` | объекта `GenericMDP` объект

Свойства

`Model` - модель марковского процесса принятия решений
`GridWorld` | объекта `GenericMDP` объект

`ResetFcn` - Функция сброса
указатель на функцию

Функции объекта

Примеры

Создайте окружение мира сетки

См. также

Темы

Документация по приложению Reinforcement Learning Toolbox

Поддержка

Документация

rlMDPEnv

Описание

Создание

Синтаксис

Описание

Входные параметры

MDP - модель марковского процесса принятия решений GridWorld | объекта GenericMDP объект

Свойства

Model - модель марковского процесса принятия решений GridWorld | объекта GenericMDP объект

ResetFcn - Функция сброса указатель на функцию

Функции объекта

Примеры

Создайте окружение мира сетки

См. также

Темы

Документация по приложению Reinforcement Learning Toolbox

Поддержка

`MDP` - модель марковского процесса принятия решений
`GridWorld` | объекта `GenericMDP` объект

`Model` - модель марковского процесса принятия решений
`GridWorld` | объекта `GenericMDP` объект

`ResetFcn` - Функция сброса
указатель на функцию