exponenta event banner

Обучение усилению для приложений систем управления

Поведение политики обучения усилению - то есть то, как политика наблюдает за окружающей средой и генерирует действия для выполнения задачи оптимальным образом - аналогично работе контроллера в системе управления. Обучение усилению можно перевести в представление системы управления, используя следующее сопоставление.

Усиление обученияСистемы управления
ПолитикаДиспетчер
Окружающая среда

Все, что не является контроллером - На предыдущей схеме среда включает в себя установку, опорный сигнал и расчет ошибки. В общем, среда также может включать в себя дополнительные элементы, такие как:

  • Измерительный шум

  • Сигналы возмущения

  • Фильтры

  • Аналого-цифровой и цифроаналоговый преобразователи

Наблюдение

Любое измеряемое значение из среды, видимое агенту. На предыдущей схеме контроллер может видеть сигнал ошибки из среды. Можно также создавать агенты, наблюдающие, например, за опорным сигналом, сигналом измерения и скоростью изменения сигнала измерения.

ДействиеУправляемые переменные или управляющие действия
ВознаграждениеФункция измерения, сигнал ошибки или какой-либо другой показатель производительности - например, можно реализовать функции вознаграждения, которые минимизируют ошибку стационарного состояния при минимизации усилий управления.
Алгоритм обученияМеханизм адаптации адаптивного контроллера

Многие проблемы управления, встречающиеся в таких областях, как робототехника и автоматизированное вождение, требуют сложных нелинейных архитектур управления. Такие методы, как планирование усиления, надежное управление и нелинейное прогнозное управление моделью (MPC), могут быть использованы для этих проблем, но часто требуют значительных знаний в области от инженера по управлению. Например, коэффициенты усиления и параметры трудно настроить. Результирующие контроллеры могут создавать проблемы реализации, такие как вычислительная интенсивность нелинейного MPC.

Для реализации таких сложных контроллеров можно использовать глубокие нейронные сети, обученные с помощью обучения армированию. Эти системы могут быть самоучкой без вмешательства специалиста по управлению. Кроме того, после обучения системы можно эффективно развертывать политику обучения усилению.

Для создания сквозного контроллера, который генерирует действия непосредственно на основе необработанных данных, например изображений, можно также использовать обучение усилению. Этот подход привлекателен для приложений с интенсивным использованием видео, таких как автоматизированное вождение, поскольку нет необходимости вручную определять и выбирать функции изображения.

Связанные темы