Мир сетки является двумерной, основанной на ячейке средой, где агент начинает с одной ячейки и двигает терминальную ячейку при сборе как можно большего количества вознаграждения. Среды мира сетки полезны для применения алгоритмов обучения с подкреплением, чтобы обнаружить, что оптимальные пути и политики для агентов на сетке добираются до своей терминальной цели в наименьшем количестве количества перемещений.
Reinforcement Learning Toolbox™ позволяет вам создать пользовательские среды мира сетки MATLAB® для своих собственных приложений. Создать пользовательскую среду мира сетки:
Создайте модель мира сетки.
Сконфигурируйте модель мира сетки.
Используйте модель мира сетки, чтобы создать вашу собственную среду мира сетки.
Можно создать собственную модель мира сетки с помощью createGridWorld
функция. Задайте размер сетки при создании GridWorld
объект модели.
GridWorld
объект имеет следующие свойства:
Свойство | Только для чтения | Описание | ||
---|---|---|---|---|
GridSize | Да | Размерности мира сетки, отображенного как | ||
CurrentState | Нет | Имя текущего состояния агента, заданного как строка. Можно использовать это свойство установить начальное состояние агента. Агент всегда начинает с Агент начинает с | ||
States | Да | Вектор строки, содержащий имена состояния мира сетки. Например, для модели | ||
Actions | Да | Вектор строки, содержащий список возможных действий, которые может использовать агент. Можно установить действие, когда вы создаете модель мира сетки при помощи GW = createGridWorld(m,n,moves) Задайте
| ||
T | Нет | Матрица переходов, заданная как трехмерный массив.
Например, рассмотрите детерминированный объект northStateTransition = GW.T(:,:,1) От вышеупомянутой фигуры, значения | ||
R | Нет | Вознаградите матрицу перехода, заданную как трехмерный массив. Вознаградите матрицу перехода Настройте | ||
ObstacleStates | Нет |
Черные ячейки являются состояниями препятствия, и можно задать их: GW.ObstacleStates = ["[3,3]";"[3,4]";"[3,5]";"[4,3]"]; Для примера рабочего процесса смотрите, Обучают Агента Обучения с подкреплением в Основном Мире Сетки. | ||
TerminalStates | Нет |
GW.TerminalStates = "[5,5]"; Для примера рабочего процесса смотрите, Обучают Агента Обучения с подкреплением в Основном Мире Сетки. |
Можно создать среду марковского процесса принятия решений (MDP) с помощью rlMDPEnv
из модели мира сетки от предыдущего шага. MDP является дискретным временем стохастический процесс управления. Это служит математической основой для моделирования принятия решения в ситуациях, где результаты частично случайны и частично под управлением лица, принимающего решения. Агент использует объект rlMDPEnv
среды мира сетки взаимодействовать с объектом модели мира сетки
GridWorld
.
Для получения дополнительной информации смотрите rlMDPEnv
и обучите агента обучения с подкреплением в основном мире сетки.
createGridWorld
| rlMDPEnv
| rlPredefinedEnv