В сценарии обучения с подкреплением среда моделирует динамику, с которой взаимодействует агент. Среда:
Получает действия от агента
Формирует на выходе наблюдения, следующие из динамического поведения модели среды
Генерирует вознаграждение, измеряющее, насколько хорошо действие способствует достижению задачи
Можно создать предопределенные и пользовательские среды с помощью моделей Simulink. Для получения дополнительной информации смотрите, Создают окружения Simulink для Обучения с подкреплением.
RL Agent | Агент обучения с подкреплением |
Создайте окружения Simulink для обучения с подкреплением
Моделируйте динамику среды с помощью модели Simulink, которая взаимодействует с агентом, генерируя вознаграждения и наблюдения в ответ на действия агента.
Задайте сигналы вознаграждения
Создайте сигнал вознаграждения, который измеряет, насколько успешен агент при достижении своей цели.
Загрузите предопределенные окружения Simulink
Можно обучать агентов в средах для предопределенных моделей Simulink, для которых уже заданы действия, наблюдения, вознаграждения и динамика.
Модель среды обучения с подкреплением для бака с водой
Создайте окружение Simulink обучения с подкреплением, которое содержит блок RL Agent вместо контроллера для уровня воды в баке.