В сценарии обучения с подкреплением среда моделирует динамику, с которой взаимодействует агент. Среда:
Получает действия от агента
Формирует на выходе наблюдения, следующие из динамического поведения модели среды
Генерирует вознаграждение, измеряющее, насколько хорошо действие способствует достижению задачи
Можно создать предопределенные и пользовательские среды в MATLAB. Для получения дополнительной информации смотрите, Создают Среды MATLAB для Обучения с подкреплением.
Создайте среды MATLAB для обучения с подкреплением
Динамика окружения модели с помощью объекта MATLAB, который взаимодействует с агентом, генерируя вознаграждения и наблюдения в ответ на действия агента.
Задайте сигналы вознаграждения
Создайте сигнал вознаграждения, который измеряет, насколько успешен агент при достижении своей цели.
Загрузите предопределенные среды системы управления
Можно обучить агентов в предопределенных средах системы управления MATLAB, для которых уже заданы действия, наблюдения, вознаграждения и динамика.
Загрузите предопределенные среды мира сетки
Можно обучить агентов в предопределенных средах мира сетки MATLAB, для которых уже заданы действия, наблюдения и вознаграждения.
Создайте пользовательские среды мира сетки
Можно создать пользовательские среды мира сетки MATLAB путем определения собственного размера, вознаграждений и препятствий.
Создайте среду MATLAB Используя пользовательские функции
Создайте среду обучения с подкреплением путем предоставления пользовательских динамических функций.
Создайте пользовательскую среду MATLAB из шаблона
Можно задать пользовательскую среду обучения с подкреплением путем создания и изменения объекта среды шаблона.