Агент RL

Агент изучения укрепления

Библиотека:
Reinforcement Learning Toolbox

Описание

Используйте блок RL Agent, чтобы моделировать и обучить агент изучения укрепления в Simulink^®. Вы сопоставляете блок с агентом, сохраненным в рабочей области MATLAB^® или словаре данных как объект агента, такой как объект rlACAgent или rlDDPGAgent. Вы соединяете блок так, чтобы он получил наблюдение и вычисленное вознаграждение. Например, рассмотрите следующую блок-схему модели SimplePendulumModel.

Входной порт observation блока RL Agent получает сигнал, который выведен от мгновенного угла и угловой скорости маятника. Порт reward получает вознаграждение, вычисленное от тех же двух значений и прикладного действия. Вы конфигурируете наблюдения и вознаграждаете вычисления, которые соответствуют вашей системе.

Блок использует агент, чтобы сгенерировать действие на основе наблюдения и вознаграждения, которое вы предоставляете. Соедините выходной порт action с соответствующим входом для вашей системы. Например, в SimplePendulumModel, порт action является крутящим моментом, применился к системе маятника. Для получения дополнительной информации об этой модели, смотрите Train Агент DQN к Swing и Маятнику Баланса.

Чтобы обучить агент изучения укрепления в Simulink, вы генерируете среду из модели Simulink. Вы затем создаете и конфигурируете агент для обучения против той среды. Для получения дополнительной информации смотрите, Создают окружения Simulink для Изучения Укрепления. Когда вы вызываете train с помощью среды, train моделирует модель и обновляет агент, сопоставленный с блоком.

Порты

Входной параметр

развернуть все

`observation` — Наблюдения среды
скаляр | вектор | невиртуальная шина

Этот порт получает сигналы наблюдения от среды. Сигналы наблюдения представляют измерения или другие мгновенные системные данные. Если у вас есть несколько наблюдений, можно использовать блок Mux, чтобы объединить их в векторный сигнал. Чтобы использовать невиртуальный сигнал шины, используйте bus2RLSpec.

`reward` — Вознаградите от среды
скаляр

Этот порт получает премиальный сигнал, который вы вычисляете на основе данных о наблюдении. Премиальный сигнал используется во время обучения агента максимизировать ожидание долгосрочного вознаграждения.

`isdone` — Отметьте, чтобы отключить симуляцию эпизода
логический

Используйте этот сигнал задать условия, при которых можно отключить учебный эпизод. Необходимо сконфигурировать логику, соответствующую системе, чтобы определить условия для завершения эпизода. Одно приложение должно отключить эпизод, который ясно подходит или идет плохо. Например, можно отключить эпизод, если агент достигает своей цели или идет необратимо далекий от его цели.

Вывод

развернуть все

`action` — Действие агента
скаляр | вектор | невиртуальная шина

Действие, вычисленное агентом на основе наблюдения и премиальных входных параметров. Соедините этот порт с входными параметрами вашей системы. Чтобы использовать невиртуальный сигнал шины, используйте bus2RLSpec.

`cumulative_reward` — Общее вознаграждение
скаляр | вектор

Совокупная сумма вознаграждения сигнализирует во время симуляции. Наблюдайте или регистрируйте этот сигнал отследить, как совокупное вознаграждение развивается в зависимости от времени.

Зависимости

Чтобы включить этот порт, выберите параметр Provide cumulative reward signal.

Параметры

развернуть все

`Agent object` — Агент, чтобы обучаться
`agent` (значение по умолчанию) | объект агента

Введите имя объекта агента, хранившего в рабочем пространстве MATLAB или словаре данных, таком как объект rlACAgent или rlDDPGAgent. Для получения информации об объектах агента смотрите, что Укрепление Изучает Агенты.