Загрузите предопределенные среды мира сетки

Пакет Reinforcement Learning Toolbox™ обеспечивает несколько предопределенных сред мира сетки, для которых уже заданы действия, наблюдения, вознаграждения и динамика. Можно использовать эти среды для:

Изучения концепции обучения с подкреплением
Ознакомления с особенностями Reinforcement Learning Toolbox
Тестирования своих собственных агентов обучения с подкреплением

Можно загрузить следующие предопределенные среды мира сетки MATLAB^® с помощью rlPredefinedEnv функция.

Среда	Задача агента
Основной мир сетки	Переместитесь от стартового местоположения до целевого местоположения на двумерной сетке путем выбора перемещений из дискретного пробела действия `{N,S,E,W}`.
Мир сетки водопада	Переместитесь от стартового местоположения до целевого местоположения на большей двумерной сетке с неизвестной детерминированной или стохастической динамикой.

Для получения дополнительной информации о свойствах сред мира сетки Создайте Пользовательские Среды Мира Сетки.

Можно также загрузить, предопределил среды системы управления MATLAB. Для получения дополнительной информации смотрите Загрузку Предопределенные Среды Системы управления.

Основной мир сетки

Основная среда мира сетки является двумерной сеткой 5 на 5 со стартовым местоположением, терминальным местоположением и препятствиями. Среда также содержит специальный скачок от состояния [2,4], чтобы утвердить [4,4]. Цель агента состоит в том, чтобы переместиться от стартового местоположения до терминального местоположения при предотвращении препятствий и максимизации общего вознаграждения.

Чтобы создать основную среду мира сетки, используйте rlPredefinedEnv функция. Эта функция создает rlMDPEnv объект, представляющий мир сетки.

env = rlPredefinedEnv('BasicGridWorld');

Можно визуализировать среду мира сетки с помощью plot функция. График отображается:

Местоположение агента как красный круг. По умолчанию агент запускается в состоянии [1,1].
Терминальное местоположение как синий квадрат
Препятствия как черные квадраты

plot(env)

Действия

Агент может переместиться в одно из четырех возможных направлений (Север, Юг, Восток, Запад).

Вознаграждения

Агент получает следующие вознаграждения или штрафы:

+10 вознаградите за достижение терминального состояния в [5,5]
+5 вознаградите за спрыгивание с состояния [2,4], чтобы утвердить [4,4].
-1 штраф за любое действие

Детерминированные миры сетки водопада

Детерминированная среда мира сетки водопада является двумерным 8 7 сетка со стартовым местоположением и терминальным местоположением. Среда включает водопад, который продвигает агента к нижней части сетки. Цель агента состоит в том, чтобы переместиться от стартового местоположения до терминального местоположения при максимизации общего вознаграждения.

Чтобы создать детерминированный мир сетки водопада, используйте rlPredefinedEnv функция. Эта функция создает rlMDPEnv объект, представляющий мир сетки.

env = rlPredefinedEnv('WaterFallGridWorld-Deterministic');

Как с основным миром сетки, можно визуализировать среду, где агент является красным кругом, и терминальное местоположение является синим квадратом.

plot(env)

Действия

Агент может переместиться в одно из четырех возможных направлений (Север, Юг, Восток, Запад).

Вознаграждения

Агент получает следующие вознаграждения или штрафы:

+10 вознаградите за достижение терминального состояния в [4,5]
-1 штраф за любое действие

Динамика водопада

В этой среде водопад продвигает агента к нижней части сетки.

Интенсивность водопада варьируется между столбцами, как показано наверху предыдущей фигуры. Когда перемещения агента в столбец с ненулевой интенсивностью, водопад продвигает его вниз обозначенным количеством квадратов. Например, если агент пойдет на восток от состояния [5,2], это достигнет состояния [7,3].

Стохастические миры сетки водопада

Стохастическая среда мира сетки водопада является двумерным 8 7 сетка со стартовым местоположением и терминальными местоположениями. Среда включает водопад, который продвигает агента к нижней части сетки со стохастической интенсивностью. Цель агента состоит в том, чтобы переместиться от стартового местоположения до целевого терминального местоположения при предотвращении состояний терминала штрафа вдоль нижней части сетки и максимизации общего вознаграждения.

Чтобы создать стохастический мир сетки водопада, используйте rlPredefinedEnv функция. Эта функция создает rlMDPEnv объект, представляющий мир сетки.

env = rlPredefinedEnv('WaterFallGridWorld-Stochastic');

plot(env)

Действия

Агент может переместиться в одно из четырех возможных направлений (Север, Юг, Восток, Запад).

Вознаграждения

Агент получает следующие вознаграждения или штрафы:

+10 вознаградите за достижение терминального состояния в [4,5]
-10 штраф за достижение любого терминального состояния в нижнем ряду сетки
-1 штраф за любое действие

Динамика водопада

В этой среде водопад продвигает агента к нижней части сетки со стохастической интенсивностью. Базовая интенсивность совпадает с интенсивностью детерминированной среды водопада. Однако в стохастическом случае водопада, агент имеет равный шанс испытания или обозначенная интенсивность, один уровень выше той интенсивности или один уровень ниже той интенсивности. Например, если агент идет на восток от состояния [5,2], это имеет равный шанс на достижение или состояние [6,3], [7,3], или [8,3].

Документация