Сетка - это двухмерная сотовая среда, в которой агент начинается из одной ячейки и движется к конечной ячейке, собирая как можно больше вознаграждения. Среды Grid World полезны для применения алгоритмов обучения усилению, чтобы найти оптимальные пути и политики для агентов на сетке, чтобы достичь конечной цели в наименьшем количестве ходов.

Toolbox™ обучения усилению позволяет создавать пользовательские среды grid world MATLAB ® для собственных приложений. Чтобы создать пользовательскую сеточную мировую среду, выполните следующие действия.
Создайте сеточную модель мира.
Сконфигурируйте сеточную модель мира.
Используйте модель grid world для создания собственной среды grid world.
Можно создать собственную сеточную модель мира с помощью createGridWorld функция. Укажите размер сетки при создании GridWorld объект модели.
GridWorld имеет следующие свойства.
| Собственность | Только для чтения | Описание | ||||||
|---|---|---|---|---|---|---|---|---|
GridSize | Да | Размеры сетки, отображаемые в виде массива m-by-n. Здесь m представляет количество строк сетки, а n - количество столбцов сетки. | ||||||
CurrentState | Нет | Имя текущего состояния агента, указанное как строка. Это свойство можно использовать для установки начального состояния агента. Агент всегда начинается с ячейки Агент начинается с | ||||||
States | Да | Строковый вектор, содержащий имена состояний сеточного мира. Например, для модели мира сетки 2 на 2 GW.States = ["[1,1]"; "[2,1]"; "[1,2]"; "[2,2]"]; | ||||||
Actions | Да | Строковый вектор, содержащий список возможных действий, которые может использовать агент. Можно задать действия при создании модели мира сетки с помощью GW = createGridWorld(m,n,moves) Определить
| ||||||
T | Нет | Матрица перехода состояния, заданная как массив 3-D.
s, a). Например, рассмотрим детерминированный объект мира сетки 5 на 5 northStateTransition = GW.T(:,:,1)
На приведенном выше рисунке указано значение | ||||||
R | Нет | Матрица перехода вознаграждения, заданная как массив 3-D. Матрица перехода вознаграждения a). Настроить | ||||||
ObstacleStates | Нет |
Черные ячейки являются состояниями препятствий, и их можно задать с помощью следующего синтаксиса: GW.ObstacleStates = ["[3,3]";"[3,4]";"[3,5]";"[4,3]"]; Пример рабочего процесса см. в разделе Подготовка агента обучения усилению в Basic Grid World. | ||||||
TerminalStates | Нет |
GW.TerminalStates = "[5,5]"; Пример рабочего процесса см. в разделе Подготовка агента обучения усилению в Basic Grid World. |
Среду процесса принятия решений Маркова (MDP) можно создать с помощью rlMDPEnv из модели мира сетки из предыдущего шага. MDP - дискретно-временной стохастический процесс управления. Он предоставляет математическую основу для моделирования принятия решений в ситуациях, когда результаты частично случайны и частично находятся под контролем лица, принимающего решение. Агент использует объект grid world environment rlMDPEnv для взаимодействия с объектом модели мира сетки GridWorld.
Дополнительные сведения см. в разделе rlMDPEnv и Обучайте агента по обучению усилению в Basic Grid World.
createGridWorld | rlMDPEnv | rlPredefinedEnv