Поведение политики обучения с подкреплением - то есть то, как политика наблюдает окружение и генерирует действия для выполнения задачи оптимальным способом - подобно операции контроллера в системе управления. Обучение с подкреплением может быть переведено в представление системы управления с помощью следующего отображения.
Обучение с подкреплением | Системы управления |
---|---|
Политика | Контроллер |
Окружение | Все, что не является контроллером - В предыдущей схеме окружения включает в себя объект, опорный сигнал и вычисление ошибки. В целом окружение может также включать дополнительные элементы, такие как:
|
Наблюдение | Любое измеряемое значение от окружения, которое видно агенту - В предыдущей схеме контроллер может увидеть сигнал ошибки от окружения. Можно также создать агенты, которые наблюдают, для примера, опорный сигнал, сигнал измерения и скорость изменения сигнала измерения. |
Действие | Манипулируемые переменные или управляющие действия |
Вознаграждение | Функция измерения, сигнала ошибки или некоторой другой метрики эффективности - Например, можно реализовать функции вознаграждения, которые минимизируют установившуюся ошибку при минимизации усилий по управлению. |
Алгоритм обучения | Механизм адаптации адаптивного контроллера |
Многие проблемы управления, с которыми сталкиваются в областях, таких как робототехника и беспилотное вождение, требуют сложных, нелинейных архитектур управления. Методы, такие как табличные управления, устойчивое управление и нелинейная модель прогнозирующее управление (MPC), могут использоваться для этих проблем, но часто требуют значительных областей проверок инженером систем управления. Для примера коэффициент усиления и параметры трудно настроить. Получившиеся контроллеры могут поставить проблемы реализации, такие как вычислительная сложность нелинейного MPC.
Можно использовать глубокие нейронные сети, настроенные с помощью обучения с подкреплением, для реализации таких сложных контроллеров. Эти системы могут выучиться самостоятельно без вмешательства со стороны опытного инженера по системам управления. Кроме того, как только система обучена, можно развернуть политику обучения с подкреплением вычислительно эффективным способом.
Можно также использовать обучение с подкреплением для создания сквозного контроллера, который производит действия непосредственно от необработанных данных, таких как изображения. Этот подход привлекателен для интенсивных видео приложений, таких как беспилотное вождение, поскольку вы не должны вручную определять и выбирать функции изображений.