Обучение с подкреплением для приложений систем управления

Поведение политики обучения с подкреплением - то есть то, как политика наблюдает окружение и генерирует действия для выполнения задачи оптимальным способом - подобно операции контроллера в системе управления. Обучение с подкреплением может быть переведено в представление системы управления с помощью следующего отображения.

Обучение с подкреплением	Системы управления
Политика	Контроллер
Окружение	Все, что не является контроллером - В предыдущей схеме окружения включает в себя объект, опорный сигнал и вычисление ошибки. В целом окружение может также включать дополнительные элементы, такие как: Измерительный шум Нарушения порядка Фильтры Аналого-цифровой и цифро-аналоговый преобразователи
Наблюдение	Любое измеряемое значение от окружения, которое видно агенту - В предыдущей схеме контроллер может увидеть сигнал ошибки от окружения. Можно также создать агенты, которые наблюдают, для примера, опорный сигнал, сигнал измерения и скорость изменения сигнала измерения.
Действие	Манипулируемые переменные или управляющие действия
Вознаграждение	Функция измерения, сигнала ошибки или некоторой другой метрики эффективности - Например, можно реализовать функции вознаграждения, которые минимизируют установившуюся ошибку при минимизации усилий по управлению.
Алгоритм обучения	Механизм адаптации адаптивного контроллера

Многие проблемы управления, с которыми сталкиваются в областях, таких как робототехника и беспилотное вождение, требуют сложных, нелинейных архитектур управления. Методы, такие как табличные управления, устойчивое управление и нелинейная модель прогнозирующее управление (MPC), могут использоваться для этих проблем, но часто требуют значительных областей проверок инженером систем управления. Для примера коэффициент усиления и параметры трудно настроить. Получившиеся контроллеры могут поставить проблемы реализации, такие как вычислительная сложность нелинейного MPC.

Можно использовать глубокие нейронные сети, настроенные с помощью обучения с подкреплением, для реализации таких сложных контроллеров. Эти системы могут выучиться самостоятельно без вмешательства со стороны опытного инженера по системам управления. Кроме того, как только система обучена, можно развернуть политику обучения с подкреплением вычислительно эффективным способом.

Можно также использовать обучение с подкреплением для создания сквозного контроллера, который производит действия непосредственно от необработанных данных, таких как изображения. Этот подход привлекателен для интенсивных видео приложений, таких как беспилотное вождение, поскольку вы не должны вручную определять и выбирать функции изображений.

Документация по приложению Reinforcement Learning Toolbox

Поддержка

Памятка переводчика

1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.

2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.

3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.

4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.

5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.

Документация