Обучение с подкреплением для приложений систем управления

Поведение политики обучения с подкреплением — то есть, как политика наблюдает среду и генерирует действия, чтобы выполнить задачу оптимальным способом — похоже на работу контроллера в системе управления. Обучение с подкреплением может быть переведено в представление системы управления с помощью следующего отображения.

Diagram showing an agent that interacts with its environment. The observation signal goes from the environment to the agent, and the action signal goes from the agent to the environment. The reward signal goes from the environment to the reinforcement learning algorithm inside the agent. The reinforcement learning algorithm uses the available information to update a policy. The agent uses a policy to map an observation to an action. This is similar to a control diagram, shown below, in which a controller senses an error between a desired reference and a plant output and uses the error to acts on a plant input.

Обучение с подкреплениемСистемы управления
ПолитикаКонтроллер
Среда

Все, что не является контроллером — В предыдущей схеме среда включает в себя объект, уставку и вычисление ошибки. В целом среда может также включать дополнительные элементы, такие как:

  • Шум измерения

  • Сигналы возмущения

  • Фильтры

  • Аналого-цифровые и цифро-аналоговые преобразователи

Наблюдение

Любое измеряемое значение от среды, которое видимо агенту — В предыдущей схеме контроллер получает сигнал ошибки от среды. Можно также создать агенты, которые наблюдают, например, уставку, сигнал измерения и скорость изменения сигнала измерения.

ДействиеПеременные, которыми управляют, или действия управления
ВознаграждениеФункция измерения, сигнала ошибки или некоторого другого показателя производительности — Например, можно реализовать премиальные функции, которые минимизируют установившуюся ошибку при минимизации усилия по управлению. Когда технические требования управления такой, как стоится и ограничительные функции доступны, можно использовать generateRewardFunction чтобы сгенерировать вознаграждение функционируют от объекта MPC или блоков верификации модели. Можно затем использовать сгенерированную премиальную функцию в качестве начальной точки для премиального проекта, например, путем изменения функций штрафа или весов.
Алгоритм обученияМеханизм адаптации адаптивного контроллера

Многие проблемы управления, с которыми сталкиваются в областях, таких как робототехника и беспилотное вождение, требуют сложных, нелинейных структур управления. Методы, такие как изменение коэффициента усиления по расписанию, устойчивое управление и нелинейное прогнозирующее управление (MPC), могут использоваться для этих проблем, но часто требуют значительных обширных проверок инженером систем управления. Например, коэффициент усиления и параметры трудно настроить. Получившиеся контроллеры могут поставить проблемы реализации, такие как вычислительная сложность нелинейного MPC.

Можно использовать глубокие нейронные сети, настроенные с помощью обучения с подкреплением, для реализации такие сложных контроллеров. Эти системы могут выучиться самостоятельно без вмешательства со стороны опытного инженера по системам управления. Кроме того, если система обучена, можно развернуть политику обучения с подкреплением в вычислительном отношении эффективным способом.

Можно также использовать обучение с подкреплением для создания сквозного контроллера, который производит действия непосредственно от необработанных данных, таких как изображения. Этот подход привлекателен для интенсивных видео приложений, таких как беспилотное вождение, поскольку вы не должны вручную определять и выбирать характеристики изображений.

Похожие темы