В сценарии обучения усилению среда моделирует динамику, с которой взаимодействует агент. Окружающая среда:
Получает действия от агента
Вывод результатов наблюдений, полученных в результате динамического поведения модели среды
Создает вознаграждение, измеряющее, насколько хорошо действие способствует выполнению задачи
С помощью моделей Simulink можно создавать стандартные и пользовательские среды. Дополнительные сведения см. в разделе Создание учебных сред усиления Simulink.
| Агент RL | Усиливающий обучающий агент |
Создание учебных сред для усиления Simulink
Моделирование динамики среды с использованием модели Simulink, которая взаимодействует с агентом, генерируя вознаграждения и наблюдения в ответ на действия агента.
Создание сред Simulink для конструктора обучения по усилению
Импортируйте пользовательскую среду или создайте стандартную среду.
Определение сигналов поощрения
Создайте сигнал вознаграждения, который измеряет успешность агента в достижении его цели.
Загрузка предопределенных сред Simulink
Можно обучать агентов в средах для предварительно определенных моделей Simulink, для которых уже определены действия, наблюдения, вознаграждения и динамика.
Модель учебной среды для усиления резервуаров для воды
Создайте среду обучения усилению Simulink, которая содержит блок агента RL вместо контроллера уровня воды в резервуаре.