RL Agent

Агент обучения с подкреплением

Библиотека:
Reinforcement Learning Toolbox

Описание

Используйте блок RL Agent для симуляции и обучения агента обучения с подкреплением в Simulink^®. Вы связываете блок с агентом, хранящимся в MATLAB^® рабочая область или словарь данных как объект агента, такой как rlACAgent или rlDDPGAgent объект. Вы соединяете блок так, чтобы он получил наблюдение и вычисленное вознаграждение. Например, рассмотрите следующий блок rlSimplePendulumModel модель.

The observation входной порт блока RL Agent получает сигнал, который выводится из мгновенных угла и скорости вращения маятника. The reward порт получает вознаграждение, рассчитанное из тех же двух значений и приложенного действия. Вы конфигурируете наблюдения и расчеты вознаграждения, соответствующие вашей системе.

Блок использует агента, чтобы сгенерировать действие на основе наблюдений и вознаграждения, которое вы предоставляете. Соедините action выходной порт на соответствующий вход для вашей системы. Для образца, в rlSimplePendulumModel, а action порт является крутящим моментом, приложенным к системе маятника. Для получения дополнительной информации об этой модели см. «Train агента DQN к качанию» и «Баланс маятника».

Чтобы обучить агента обучения с подкреплением в Simulink, вы генерируете окружение из модели Simulink. Затем вы создаете и конфигурируете агента для обучения с этим окружением. Для получения дополнительной информации см. Раздел «Создание окружений обучения с подкреплением Simulink». Когда вы звоните train используя окружение, train моделирует модель и обновляет агента, связанного с блоком.

Порты

Вход

расширить все

`observation` - Наблюдения за окружением
скалярный вектор | | невиртуальная шина

Этот порт получает сигналы наблюдения от окружения. Сигналы наблюдения представляют измерения или другие данные мгновенной системы. Если у вас есть несколько наблюдений, можно использовать блок Mux, чтобы объединить их в сигнал вектора. Чтобы использовать невиртуальный сигнал шины, используйте bus2RLSpec.

`reward` - Вознаграждение от окружения
скаляр

Этот порт получает сигнал вознаграждения, который вы вычисляете на основе данных наблюдения. Сигнал вознаграждения используется во время обучения агента, чтобы максимизировать ожидание долгосрочного вознаграждения.

`isdone` - Флаг для завершения симуляции эпизода
логичный

Используйте этот сигнал для задания условий, при которых можно завершить эпизод тренировки. Необходимо сконфигурировать логику, соответствующую вашей системе, чтобы определить условия завершения эпизода. Одно из приложений состоит в том, чтобы прекратить эпизод, который явно идет хорошо или идет плохо. Например, вы можете прекратить эпизод, если агент достигает своей цели или безвозвратно удаляется от своей цели.

`external action` - Сигнал внешнего действия
скалярный вектор |

Используйте этот сигнал для обеспечения внешнего действия блока. Этот сигнал может быть управляющим действием от человеческого эксперта, которое может использоваться для безопасных или имитационных приложений обучения. Когда значение use external action сигнала 1, передает сигнал external action в окружение через выход блока action. Блок также использует внешнее действие, чтобы обновить политику агента на основе полученных наблюдений и вознаграждений.

Зависимости

Чтобы включить этот порт, выберите параметр Add inports for external action signal.

`use external action` - Использовать сигнал внешнего действия
`0` | `1`

Используйте этот сигнал, чтобы передать external action сигнал окружающему окружению.

Когда значение use external action сигнала 1 блок передает сигнал external action в окружение. Блок также использует внешнее действие для обновления политики агента.

Когда значение use external action сигнала 0 блок не передает сигнал external action в окружение и не обновляет политику с помощью внешнего действия. Вместо этого действие из блока использует действие из политики агента.

Зависимости

Чтобы включить этот порт, выберите параметр Add inports for external action signal.

Выход

расширить все

`action` - Действие агента
скалярный вектор | | невиртуальная шина

Действие, вычисленное агентом на основе входов наблюдений и вознаграждения. Подключите этот порт к входам вашей системы. Чтобы использовать невиртуальный сигнал шины, используйте bus2RLSpec.

Примечание

Когда такие агенты, как rlACAgent, rlPGAgent, или rlPPOAgent использовать rlStochasticActorRepresentation актёр с непрерывным пространством действий, ограничения, установленные спецификацией действия, не применяются агентом. В этих случаях необходимо применить ограничения пространства действий в окружении.

`cumulative_reward` - Общее вознаграждение
скалярный вектор |

Совокупная сумма сигнала вознаграждения во время симуляции. Наблюдайте или регистрируйте этот сигнал, чтобы отследить, как совокупное вознаграждение развивается с течением времени.

Зависимости

Чтобы включить этот порт, выберите параметр Provide cumulative reward signal.

Параметры

расширить все

`Agent object` - Агент для обучения
`agent` (по умолчанию) | объект агента

Введите имя объекта агента, хранящегося в рабочем пространстве MATLAB или словаре данных, таком как rlACAgent или rlDDPGAgent объект. Для получения информации об объектах агента см. Раздел «Агенты обучения с подкреплением».

Программное использование

Параметры блоков: Agent

Тип: строка, вектор символов

По умолчанию: "agentObj"

`Provide cumulative reward signal` - Добавьте совокупный выходной порт вознаграждения
`off` (по умолчанию) | `on`

Включите вывод блока cumulative_reward путем выбора этого параметра.

Программное использование

Параметры блоков: ProvideCumRwd

Тип: строка, вектор символов

Значения: "off", "on"

По умолчанию: "off"

`Add inports for external action signal` - Добавьте входные порты для внешнего действия
`off` (по умолчанию) | `on`

Включите external action и use external action входные порты блоков, выбрав этот параметр.

Программное использование

Параметры блоков: ExternalActionAsInput

Тип: строка, вектор символов

Значения: "off", "on"

По умолчанию: "off"

Примеры моделей

Train DQN Agent to Swing Up and Balance Pendulum

Обучите агента DQN качаться вверх и балансировать маятник

Обучите агента глубокой Q-сети для балансировки маятника, смоделированного в Simulink.

Train DDPG Agent to Swing Up and Balance Pendulum

Обучите агента DDPG качаться вверх и балансировать маятник

Обучите агента глубокого детерминированного градиента политики, чтобы сбалансировать маятник, смоделированный в Simulink.

См. также

bus2RLSpec | createIntegratedEnv

Темы

Введенный в R2019a

Документация

RL Agent

Описание

Порты

Вход

`observation` - Наблюдения за окружением
скалярный вектор | | невиртуальная шина

`reward` - Вознаграждение от окружения
скаляр

`isdone` - Флаг для завершения симуляции эпизода
логичный

`external action` - Сигнал внешнего действия
скалярный вектор |

Зависимости

`use external action` - Использовать сигнал внешнего действия
`0` | `1`

Зависимости

Выход

`action` - Действие агента
скалярный вектор | | невиртуальная шина

`cumulative_reward` - Общее вознаграждение
скалярный вектор |

Зависимости

Параметры

`Agent object` - Агент для обучения
`agent` (по умолчанию) | объект агента

Программное использование

`Provide cumulative reward signal` - Добавьте совокупный выходной порт вознаграждения
`off` (по умолчанию) | `on`

Программное использование

`Add inports for external action signal` - Добавьте входные порты для внешнего действия
`off` (по умолчанию) | `on`

Программное использование

Примеры моделей

Обучите агента DQN качаться вверх и балансировать маятник

Обучите агента DDPG качаться вверх и балансировать маятник

См. также

Темы

Документация по приложению Reinforcement Learning Toolbox

Поддержка

Документация

RL Agent

Описание

Порты

Вход

observation - Наблюдения за окружением скалярный вектор | | невиртуальная шина

reward - Вознаграждение от окружения скаляр

isdone - Флаг для завершения симуляции эпизода логичный

external action - Сигнал внешнего действия скалярный вектор |

Зависимости

use external action - Использовать сигнал внешнего действия 0 | 1

Зависимости

Выход

action - Действие агента скалярный вектор | | невиртуальная шина

cumulative_reward - Общее вознаграждение скалярный вектор |

Зависимости

Параметры

Agent object - Агент для обучения agent (по умолчанию) | объект агента

Программное использование

Provide cumulative reward signal - Добавьте совокупный выходной порт вознаграждения off (по умолчанию) | on

Программное использование

Add inports for external action signal - Добавьте входные порты для внешнего действия off (по умолчанию) | on

Программное использование

Примеры моделей

Обучите агента DQN качаться вверх и балансировать маятник

Обучите агента DDPG качаться вверх и балансировать маятник

См. также

Темы

Документация по приложению Reinforcement Learning Toolbox

Поддержка

`observation` - Наблюдения за окружением
скалярный вектор | | невиртуальная шина

`reward` - Вознаграждение от окружения
скаляр

`isdone` - Флаг для завершения симуляции эпизода
логичный

`external action` - Сигнал внешнего действия
скалярный вектор |

`use external action` - Использовать сигнал внешнего действия
`0` | `1`

`action` - Действие агента
скалярный вектор | | невиртуальная шина

`cumulative_reward` - Общее вознаграждение
скалярный вектор |

`Agent object` - Агент для обучения
`agent` (по умолчанию) | объект агента

`Provide cumulative reward signal` - Добавьте совокупный выходной порт вознаграждения
`off` (по умолчанию) | `on`

`Add inports for external action signal` - Добавьте входные порты для внешнего действия
`off` (по умолчанию) | `on`