Поведение политики изучения укрепления (наблюдающий среду и генерирующий действия выполнить задачу оптимальным способом) подобно работе контроллера в системе управления. Укрепление, учащееся, может быть переведено в представление системы управления с помощью следующего отображения.
Изучение укрепления | Системы управления |
---|---|
Политика | Контроллер |
Среда | Все, что не является контроллером — В предыдущей схеме, среда, включает объект, ссылочный сигнал и вычисление ошибки. В целом среда может также включать дополнительные элементы, такие как:
|
Наблюдение | Любое измеримое значение от среды, которая видима к агенту — В предыдущей схеме, контроллер, видит сигнал ошибки от среды. Можно также создать агенты, которые наблюдают, например, ссылочный сигнал, сигнал измерения и скорость изменения сигнала измерения. |
Действие | Переменные, которыми управляют, или действия управления |
Вознаграждение | Функция измерения, сигнала ошибки или некоторого другого показателя производительности — Например, можно реализовать премиальные функции, которые минимизируют установившуюся ошибку при минимизации усилия по управлению. |
Изучение алгоритма | Механизм адаптации адаптивного контроллера |
Много проблем управления, с которыми сталкиваются в областях, таких как робототехника и автоматизированное управление, требуют комплексных, нелинейных архитектур управления. Методы, такие как планирование усиления, устойчивое управление и нелинейное образцовое прогнозирующее управление (MPC) могут использоваться для этих проблем, но часто требовать значительных доменных экспертных знаний от инженера управления. Например, усиления и параметры трудно настроить. Получившиеся контроллеры могут поставить проблемы реализации, такие как вычислительная интенсивность нелинейного MPC.
Можно использовать глубокие нейронные сети, обученное изучение укрепления использования, чтобы реализовать такие комплексные контроллеры. Эти системы могут выучиться самостоятельно без вмешательства от опытного инженера управления. Кроме того, когда-то обученный, можно развернуть политику изучения укрепления в вычислительном отношении эффективным способом.
Можно также использовать укрепление, учащееся создать сквозной контроллер, который генерирует действия непосредственно от необработанных данных, таких как изображения. Этот подход привлекателен для интенсивных видео приложений, такой, как автоматизировано управление, поскольку вы не должны вручную задать и выбрать функции изображений.