Мир сетки является двумерной, основанной на ячейке средой, где агент начинает с одной ячейки и двигает терминальную ячейку при сборе как можно большего количества вознаграждения. Среды мира сетки полезны для применения алгоритмов изучения укрепления, чтобы обнаружить, что оптимальные пути и политики для агентов на сетке добираются до своей терминальной цели в наименьшем количестве количества перемещений.
Reinforcement Learning Toolbox™ позволяет вам создать пользовательские среды мира сетки MATLAB® для своих собственных приложений. Создать пользовательскую среду мира сетки:
Создайте модель мира сетки.
Сконфигурируйте модель мира сетки.
Используйте модель мира сетки, чтобы создать вашу собственную среду мира сетки.
Можно создать собственную модель мира сетки с помощью функции createGridWorld
. Задайте размер сетки при создании объекта модели GridWorld
.
Объект GridWorld
имеет следующие свойства:
Свойство | Только для чтения | Описание | ||
---|---|---|---|---|
GridSize | Да | Размерности мира сетки, отображенного как вектор | ||
CurrentState | Нет | Имя текущего состояния агента, заданного как строка. Можно использовать это свойство установить начальное состояние агента. Агент всегда начинает с ячейки Агент начинает с | ||
States | Да | Вектор строки, содержащий имена состояния мира сетки. Например, для модели | ||
Actions | Да | Вектор строки, содержащий список возможных действий, которые может использовать агент. Можно установить действие, когда вы создаете модель мира сетки при помощи аргумента GW = createGridWorld(m,n,moves) Задайте
| ||
T | Нет | Матрица Грина, заданная как трехмерный массив.
Например, рассмотрите детерминированный объект northStateTransition = GW.T(:,:,1) От вышеупомянутой фигуры значение | ||
R | Нет | Вознаградите матрицу перехода, заданную как трехмерный массив. Вознаградите матрицу перехода Настройте | ||
ObstacleStates | Нет |
Черные ячейки являются состояниями препятствия, и можно задать их: GW.ObstacleStates = ["[3,3]";"[3,4]";"[3,5]";"[4,3]"]; Для примера рабочего процесса смотрите, что Укрепление Train Изучает Агент в Основном Мире Сетки. | ||
TerminalStates | Нет |
GW.TerminalStates = "[5,5]"; Для примера рабочего процесса смотрите, что Укрепление Train Изучает Агент в Основном Мире Сетки. |
Можно создать среду Процесса принятия решений Маркова (MDP) с помощью rlMDPEnv
из модели мира сетки от предыдущего шага. MDP является дискретным временем стохастический процесс управления. Это служит математической основой для моделирования принятия решения в ситуациях, где результаты частично случайны и частично под управлением лица, принимающего решения. Агент использует объект rlMDPEnv
среды мира сетки взаимодействовать с объектом модели мира сетки GridWorld
.
Для получения дополнительной информации смотрите rlMDPEnv
и Агент Изучения Укрепления Train в Основном Мире Сетки.
createGridWorld
| rlMDPEnv
| rlPredefinedEnv