RL Agent

Агент обучения с подкреплением

Библиотека:
Reinforcement Learning Toolbox

Описание

Используйте блок RL Agent, чтобы симулировать и обучить агента обучения с подкреплением в Simulink^®. Вы сопоставляете блок с агентом, сохраненным в MATLAB^® рабочая область или словарь данных как объект агента такой как rlACAgent или rlDDPGAgent объект. Вы соединяете блок так, чтобы он получил наблюдение и вычисленное вознаграждение. Например, рассмотрите следующую блок-схему rlSimplePendulumModel модель.

observation входной порт блока RL Agent получает сигнал, который выведен из мгновенного угла и скорости вращения маятника. reward порт получает вознаграждение, вычисленное от тех же двух значений и прикладного действия. Вы конфигурируете наблюдения и вознаграждаете расчеты, которые соответствуют вашей системе.

Блок использует агента, чтобы сгенерировать действие на основе наблюдения и вознаграждения, которое вы предоставляете. Соедините action выходной порт к соответствующему входу для вашей системы. Например, в rlSimplePendulumModel, action порт является крутящим моментом, применился к системе маятника. Для получения дополнительной информации об этой модели, смотрите, Обучают Агента DQN к Swing и Маятнику Баланса.

Чтобы обучить агента обучения с подкреплением в Simulink, вы генерируете среду из модели Simulink. Вы затем создаете и конфигурируете агента для обучения против той среды. Для получения дополнительной информации смотрите, Создают Среды Обучения с подкреплением Simulink. Когда вы вызываете train использование среды, train симулирует модель и обновляет агента, сопоставленного с блоком.

Порты

Входной параметр

развернуть все

`observation` — Наблюдения среды
скаляр | вектор | невиртуальная шина

Этот порт получает сигналы наблюдения от среды. Сигналы наблюдения представляют измерения или другие мгновенные системные данные. Если у вас есть несколько наблюдений, можно использовать блок Mux, чтобы объединить их в векторный сигнал. Чтобы использовать невиртуальный сигнал шины, использовать bus2RLSpec.

`reward` — Вознаградите от среды
скаляр

Этот порт получает сигнал вознаграждения, который вы вычисляете на основе данных о наблюдении. Сигнал вознаграждения используется во время обучения агента максимизировать ожидание долгосрочного вознаграждения.

`isdone` — Отметьте, чтобы отключить симуляцию эпизода
логический

Используйте этот сигнал задать условия, при которых можно отключить эпизод тренировки. Необходимо сконфигурировать логику, соответствующую системе, чтобы определить условия для завершения эпизода. Одно приложение должно закончить эпизод, который ясно подходит или идет плохо. Например, можно закончить эпизод, если агент достигает своей цели или идет необратимо далекий от его цели.

`external action` — Сигнал внешнего действия
скаляр | вектор

Используйте этот сигнал предоставить внешнее действие блоку. Этот сигнал может быть действием управления от эксперта - человека, который может использоваться для безопасных или искусственных приложений изучения. Когда значением сигнала use external action является 1, передачи external action сигнализируют к среде через выведенный блок action. Блок также использует внешнее действие, чтобы обновить политику агента на основе получившихся наблюдений и вознаграждений.

Зависимости

Чтобы включить этот порт, выберите параметр Add inports for external action signal.

`use external action` — Используйте сигнал внешнего действия
0 | 1

Используйте этот сигнал передать сигнал external action среде.

Когда значением сигнала use external action является 1 блок передает сигнал external action среде. Блок также использует внешнее действие, чтобы обновить политику агента.

Когда значением сигнала use external action является 0 блок не передает сигнал external action среде и не обновляет политику с помощью внешнего действия. Вместо этого действие от блока использует действие от политики агента.

Зависимости

Чтобы включить этот порт, выберите параметр Add inports for external action signal.

Вывод

развернуть все

`action` — Действие агента
скаляр | вектор | невиртуальная шина

Действие, вычисленное агентом на основе наблюдения и премиальных входных параметров. Соедините этот порт с входными параметрами вашей системы. Чтобы использовать невиртуальный сигнал шины, использовать bus2RLSpec.

Примечание

Когда агенты, такие как rlACAgent, rlPGAgent, или rlPPOAgent используйте rlStochasticActorRepresentation агент с непрерывным пространством действий, ограничения, установленные спецификацией действия, не осуществляется агентом. В этих случаях необходимо осуществить ограничения пространства действий в среде.

`cumulative reward` — Общее вознаграждение
скаляр | вектор

Совокупная сумма сигнала вознаграждения в процессе моделирования. Наблюдайте или регистрируйте этот сигнал отследить, как совокупное вознаграждение развивается в зависимости от времени.

Зависимости

Чтобы включить этот порт, выберите параметр Provide cumulative reward signal.

Параметры

развернуть все

`Agent object` — Агент, чтобы обучаться
`agent` (значение по умолчанию) | объект агента

Введите имя объекта агента, хранившего в рабочем пространстве MATLAB или словаре данных, такой как rlACAgent или rlDDPGAgent объект. Для получения информации об объектах агента смотрите Агентов Обучения с подкреплением.

Программируемое использование

Параметры блоков: Agent

Ввод: строка, вектор символов

Значение по умолчанию: "agentObj"

`Provide cumulative reward signal` — Добавьте совокупный премиальный выходной порт
`off` (значение по умолчанию) | `on`

Включите блок cumulative reward, выведенный путем выбора этого параметра.

Программируемое использование

Параметры блоков: ProvideCumRwd

Ввод: строка, вектор символов

Значения: "off"on

Значение по умолчанию: "off"

`Add inports for external action signal` — Добавьте входные порты для внешнего действия
`off` (значение по умолчанию) | `on`

Включите входные порты блока external action и use external action путем выбора этого параметра.

Программируемое использование

Параметры блоков: ExternalActionAsInput

Ввод: строка, вектор символов

Значения: "off"on

Значение по умолчанию: "off"

Примеры модели

Train DQN Agent to Swing Up and Balance Pendulum

Обучите агента DQN к Swing и маятнику баланса

Обучите Глубокого агента Q-сети балансировать маятник, смоделированный в Simulink.

Train DDPG Agent to Swing Up and Balance Pendulum

Обучите агента DDPG к Swing и маятнику баланса

Обучите глубокого детерминированного агента градиента политики балансировать маятник, смоделированный в Simulink.

Смотрите также

bus2RLSpec | createIntegratedEnv

Темы

Введенный в R2019a

Документация

RL Agent

Описание

Порты

Входной параметр

`observation` — Наблюдения среды
скаляр | вектор | невиртуальная шина

`reward` — Вознаградите от среды
скаляр

`isdone` — Отметьте, чтобы отключить симуляцию эпизода
логический

`external action` — Сигнал внешнего действия
скаляр | вектор

Зависимости

`use external action` — Используйте сигнал внешнего действия
0 | 1

Зависимости

Вывод

`action` — Действие агента
скаляр | вектор | невиртуальная шина

`cumulative reward` — Общее вознаграждение
скаляр | вектор

Зависимости

Параметры

`Agent object` — Агент, чтобы обучаться
`agent` (значение по умолчанию) | объект агента

Программируемое использование

`Provide cumulative reward signal` — Добавьте совокупный премиальный выходной порт
`off` (значение по умолчанию) | `on`

Программируемое использование

`Add inports for external action signal` — Добавьте входные порты для внешнего действия
`off` (значение по умолчанию) | `on`

Программируемое использование

Примеры модели

Обучите агента DQN к Swing и маятнику баланса

Обучите агента DDPG к Swing и маятнику баланса

Смотрите также

Темы

Документация Reinforcement Learning Toolbox

Поддержка

Документация

RL Agent

Описание

Порты

Входной параметр

observation — Наблюдения среды скаляр | вектор | невиртуальная шина

reward — Вознаградите от среды скаляр

isdone — Отметьте, чтобы отключить симуляцию эпизода логический

external action — Сигнал внешнего действия скаляр | вектор

Зависимости

use external action — Используйте сигнал внешнего действия0 | 1

Зависимости

Вывод

action — Действие агента скаляр | вектор | невиртуальная шина

cumulative reward — Общее вознаграждение скаляр | вектор

Зависимости

Параметры

Agent object — Агент, чтобы обучаться agent (значение по умолчанию) | объект агента

Программируемое использование

Provide cumulative reward signal — Добавьте совокупный премиальный выходной порт off (значение по умолчанию) | on

Программируемое использование

Add inports for external action signal — Добавьте входные порты для внешнего действия off (значение по умолчанию) | on

Программируемое использование

Примеры модели

Обучите агента DQN к Swing и маятнику баланса

Обучите агента DDPG к Swing и маятнику баланса

Смотрите также

Темы

Документация Reinforcement Learning Toolbox

Поддержка

`observation` — Наблюдения среды
скаляр | вектор | невиртуальная шина

`reward` — Вознаградите от среды
скаляр

`isdone` — Отметьте, чтобы отключить симуляцию эпизода
логический

`external action` — Сигнал внешнего действия
скаляр | вектор

`use external action` — Используйте сигнал внешнего действия
0 | 1

`action` — Действие агента
скаляр | вектор | невиртуальная шина

`cumulative reward` — Общее вознаграждение
скаляр | вектор

`Agent object` — Агент, чтобы обучаться
`agent` (значение по умолчанию) | объект агента

`Provide cumulative reward signal` — Добавьте совокупный премиальный выходной порт
`off` (значение по умолчанию) | `on`

`Add inports for external action signal` — Добавьте входные порты для внешнего действия
`off` (значение по умолчанию) | `on`