В сценарии обучения с подкреплением среда моделирует динамику, с которой взаимодействует агент. Среда:
Получает действия от агента
Формирует на выходе наблюдения, следующие из динамического поведения модели среды
Вырабатывает вознаграждение, показывающее как хорошо действие способствует достижению задачи
Можно создать предопределенные и пользовательские среды в MATLAB. Для получения дополнительной информации смотрите, Создают Среды MATLAB для Обучения с подкреплением.
Создайте среды MATLAB для обучения с подкреплением
Динамика среды модели с помощью объекта MATLAB, который взаимодействует с агентом, генерируя вознаграждения и наблюдения в ответ на действия агента.
Задайте сигналы вознаграждения
Создайте сигнал вознаграждения, который измеряется, насколько успешный агент при достижении его цели.
Загрузите предопределенные среды системы управления
Можно обучить агентов в предопределенных средах системы управления MATLAB, для которых уже заданы действия, наблюдения, вознаграждения и динамика.
Загрузите предопределенные среды мира сетки
Можно обучить агентов в предопределенных средах мира сетки MATLAB, для которых уже заданы действия, наблюдения и вознаграждения.
Создайте пользовательские среды мира сетки
Можно создать пользовательские среды мира сетки MATLAB путем определения собственного размера, вознаграждений и препятствий.
Создайте Среду MATLAB с помощью Пользовательских Функций
Создайте среду обучения с подкреплением путем предоставления пользовательских динамических функций.
Создайте пользовательскую среду MATLAB из шаблона
Можно задать пользовательскую среду обучения с подкреплением путем создания и изменения объекта среды шаблона.