В сценарии обучения с подкреплением среда моделирует динамику, с которой взаимодействует агент. Среда:
Получает действия от агента
Формирует на выходе наблюдения, следующие из динамического поведения модели среды
Генерирует вознаграждение, измеряющее, насколько хорошо действие способствует достижению задачи
Можно создать предопределенные и пользовательские среды с помощью моделей Simulink. Для получения дополнительной информации смотрите, Создают Среды Обучения с подкреплением Simulink.
RL Agent | Агент обучения с подкреплением |
Создайте среды обучения с подкреплением Simulink
Моделируйте динамику среды с помощью модели Simulink, которая взаимодействует с агентом, генерируя вознаграждения и наблюдения в ответ на действия агента.
Создайте окружения Simulink для Reinforcement Learning Designer
Импортируйте пользовательское окружение Simulink или создайте предопределенное окружение Simulink.
Задайте сигналы вознаграждения
Создайте сигнал вознаграждения, который измеряет, насколько успешен агент при достижении своей цели.
Загрузите предопределенные окружения Simulink
Загрузите предопределил среды системы управления Simulink.
Модель среды обучения с подкреплением для бака с водой
Создайте окружение Simulink обучения с подкреплением, которое содержит блок RL Agent вместо контроллера для уровня воды в баке.