В сценарии обучения с подкреплением среда моделирует динамику, с которой взаимодействует агент. Среда:
Получает действия от агента
Формирует на выходе наблюдения, следующие из динамического поведения модели среды
Вырабатывает вознаграждение, показывающее как хорошо действие способствует достижению задачи
Можно создать предопределенные и пользовательские среды с помощью моделей Simulink. Для получения дополнительной информации смотрите, Создают окружения Simulink для Обучения с подкреплением.
RL Agent | Агент обучения с подкреплением |
Создайте окружения Simulink для обучения с подкреплением
Динамика среды модели с помощью модели Simulink, которая взаимодействует с агентом, генерируя вознаграждения и наблюдения в ответ на действия агента.
Задайте сигналы вознаграждения
Создайте сигнал вознаграждения, который измеряется, насколько успешный агент при достижении его цели.
Загрузите предопределенные окружения Simulink
Можно обучить агентов в средах для предопределенных моделей Simulink, для которых уже заданы действия, наблюдения, вознаграждения и динамика.