В сценарии обучения с подкреплением среда моделирует динамику, с которой взаимодействует агент. Среда:
Получает действия от агента
Формирует на выходе наблюдения, следующие из динамического поведения модели среды
Генерирует вознаграждение, измеряющее, насколько хорошо действие способствует достижению задачи
Можно создать предопределенные и пользовательские среды с помощью моделей Simulink. Для получения дополнительной информации смотрите, Создают Среды Обучения с подкреплением Simulink.
RL Agent | Агент обучения с подкреплением |
Создайте среды обучения с подкреплением Simulink
Моделируйте динамику среды с помощью модели Simulink, которая взаимодействует с агентом, генерируя вознаграждения и наблюдения в ответ на действия агента.
Создайте окружения Simulink для Reinforcement Learning Designer
Импортируйте пользовательскую среду или создайте предопределенную среду.
Задайте сигналы вознаграждения
Создайте сигнал вознаграждения, который измеряет, насколько успешен агент при достижении своей цели.
Загрузите предопределенные окружения Simulink
Можно обучать агентов в средах для предопределенных моделей Simulink, для которых уже заданы действия, наблюдения, вознаграждения и динамика.
Модель среды обучения с подкреплением для бака с водой
Создайте окружение Simulink обучения с подкреплением, которое содержит блок RL Agent вместо контроллера для уровня воды в баке.