В сценарии обучения с подкреплением окружение моделирует динамику, с которой взаимодействует агент. Далее окружение:
Получает действия от агента
Формирует на выходе наблюдения, следующие из динамического поведения модели окружения
Генерирует вознаграждение, измеряющее, насколько хорошо действие способствует достижению задачи
Предопределённые и пользовательские окружения можно создать с помощью моделей Simulink. Для получения дополнительной информации см. Раздел «Создание окружений обучения с подкреплением Simulink».
RL Agent | Агент обучения с подкреплением |
Создайте окружения обучения с подкреплением Simulink
Моделируйте динамику окружения с помощью модели Simulink, которая взаимодействует с агентом, генерируя вознаграждения и наблюдения в ответ на действия агента.
Создайте окружения Simulink для Reinforcement Learning Designer
Импортируйте пользовательское окружение или создайте предопределённое окружение.
Задайте сигналы вознаграждения
Создайте сигнал вознаграждения, который измеряет, насколько успешен агент при достижении своей цели.
Загрузка предопределённых окружений Simulink
Можно обучать агентов в окружениях для предопределенных моделей Simulink, для которых уже заданы действия, наблюдения, вознаграждения и динамика.
Обучение с подкреплением для бака с водой Окружения модель
Создайте окружение Simulink обучения с подкреплением, которая содержит блок RL Agent вместо контроллера уровня воды в баке.