В сценарии изучения укрепления среда моделирует динамику, с которой взаимодействует агент. Среда:
Получает действия от агента
Выходные наблюдения, следующие из динамического поведения модели среды
Генерирует премиальное измерение, как хорошо действие способствует достижению задачи
Можно создать предопределенное и пользовательское использование сред Simulinkmodels. Для получения дополнительной информации смотрите, Создают окружения Simulink для Изучения Укрепления.
RL Agent | Агент изучения укрепления |
Создайте окружения Simulink для изучения укрепления
Образцовая динамика среды с помощью модели Simulink, которая взаимодействует с агентом, генерируя вознаграждения и наблюдения в ответ на действия агента.
Создайте премиальный сигнал, что меры, насколько успешный агент при достижении его цели.
Загрузите предопределенные окружения Simulink
Можно обучить агенты в средах для предопределенных моделей Simulink, для которых уже заданы действия, наблюдения, вознаграждения и динамика.