Пакет Reinforcement Learning Toolbox™ обеспечивает несколько предопределенных сред мира сетки, для которых уже заданы действия, наблюдения, вознаграждения и динамика. Можно использовать эти окружения для:
Изучения концепций обучения с подкреплением.
Ознакомления с особенностями пакета Reinforcement Learning Toolbox.
Тестирования своих агентов обучения с подкреплением.
Можно загрузить следующие предопределенные среды мира сетки MATLAB® с помощью rlPredefinedEnv
функция.
Среда | Задача агента |
---|---|
Основной мир сетки | Переместитесь от стартового местоположения до целевого местоположения на двумерной сетке путем выбора перемещений из дискретного пространства действий {N,S,E,W} . |
Мир сетки водопада | Переместитесь от стартового местоположения до целевого местоположения на большей двумерной сетке с неизвестной детерминированной или стохастической динамикой. |
Для получения дополнительной информации о свойствах сред мира сетки смотрите, Создают Пользовательские Среды Мира Сетки.
Можно также загрузить, предопределил среды системы управления MATLAB. Для получения дополнительной информации смотрите Загрузку Предопределенные Среды Системы управления.
Основная среда мира сетки является двумерной сеткой 5 на 5 со стартовым местоположением, терминальным местоположением и препятствиями. Среда также содержит специальный скачок от состояния [2,4], чтобы утвердить [4,4]. Цель агента состоит в том, чтобы переместиться от стартового местоположения до терминального местоположения при предотвращении препятствий и максимизации общего вознаграждения.
Чтобы создать основную среду мира сетки, используйте rlPredefinedEnv
функция. Эта функция создает rlMDPEnv
объект, представляющий мир сетки.
env = rlPredefinedEnv('BasicGridWorld');
Можно визуализировать среду мира сетки с помощью plot
функция.
Местоположение агента является красным кругом. По умолчанию агент запускается в состоянии [1,1].
Терминальное местоположение является синим квадратом.
Препятствия являются черными квадратами.
plot(env)
Агент может переместиться в одно из четырех возможных направлений (север, юг, восток или запад).
Агент получает следующие вознаграждения или штрафы:
+10 вознаградите за достижение конечного состояния в [5,5]
+5 вознаградите за спрыгивание с состояния [2,4], чтобы утвердить [4,4]
-1 штраф за любое действие
Детерминированная среда мира сетки водопада является двумерным 8 7 сетка со стартовым местоположением и терминальным местоположением. Среда включает водопад, который продвигает агента к нижней части сетки. Цель агента состоит в том, чтобы переместиться от стартового местоположения до терминального местоположения при максимизации общего вознаграждения.
Чтобы создать детерминированный мир сетки водопада, используйте rlPredefinedEnv
функция. Эта функция создает rlMDPEnv
объект, представляющий мир сетки.
env = rlPredefinedEnv('WaterFallGridWorld-Deterministic');
Как с основным миром сетки, можно визуализировать среду, где агент является красным кругом, и терминальное местоположение является синим квадратом.
plot(env)
Агент может переместиться в одно из четырех возможных направлений (север, юг, восток или запад).
Агент получает следующие вознаграждения или штрафы:
+10 вознаградите за достижение конечного состояния в [4,5]
-1 штраф за любое действие
В этой среде водопад продвигает агента к нижней части сетки.
Интенсивность водопада варьируется между столбцами, как показано наверху предыдущей фигуры. Когда перемещения агента в столбец с ненулевой интенсивностью, водопад продвигает его вниз обозначенным количеством квадратов. Например, если агент идет на восток от состояния [5,2], это достигает состояния [7,3].
Стохастическая среда мира сетки водопада является двумерным 8 7 сетка со стартовым местоположением и терминальными местоположениями. Среда включает водопад, который продвигает агента к нижней части сетки со стохастической интенсивностью. Цель агента состоит в том, чтобы переместиться от стартового местоположения до целевого терминального местоположения при предотвращении конечных состояний штрафа вдоль нижней части сетки и максимизации общего вознаграждения.
Чтобы создать стохастический мир сетки водопада, используйте rlPredefinedEnv
функция. Эта функция создает rlMDPEnv
объект, представляющий мир сетки.
env = rlPredefinedEnv('WaterFallGridWorld-Stochastic');
Как с основным миром сетки, можно визуализировать среду, где агент является красным кругом, и терминальное местоположение является синим квадратом.
plot(env)
Агент может переместиться в одно из четырех возможных направлений (север, юг, восток или запад).
Агент получает следующие вознаграждения или штрафы:
+10 вознаградите за достижение конечного состояния в [4,5]
-10 штраф за достижение любого конечного состояния в нижнем ряду сетки
-1 штраф за любое действие
В этой среде водопад продвигает агента к нижней части сетки со стохастической интенсивностью. Базовая интенсивность совпадает с интенсивностью детерминированной среды водопада. Однако в стохастическом случае водопада, агент имеет равный шанс испытания обозначенной интенсивности, одного уровня выше той интенсивности или одного уровня ниже той интенсивности. Например, если агент идет на восток от состояния [5,2], это имеет равное состояние шанса на достижение [6,3], [7,3], или [8,3].
rlMDPEnv
| rlPredefinedEnv
| train