В сценарии обучения усилению среда моделирует динамику, с которой взаимодействует агент. Окружающая среда:
Получает действия от агента
Вывод результатов наблюдений, полученных в результате динамического поведения модели среды
Создает вознаграждение, измеряющее, насколько хорошо действие способствует выполнению задачи
В MATLAB можно создавать предопределенные и пользовательские среды. Дополнительные сведения см. в разделе Создание учебных сред для усиления MATLAB.
Создание учебных сред для усиления MATLAB
Моделирование динамики среды с использованием объекта MATLAB, который взаимодействует с агентом, генерируя вознаграждения и наблюдения в ответ на действия агента.
Создание среды MATLAB для конструктора обучения по усилению
Импортируйте пользовательскую среду или создайте стандартную среду.
Определение сигналов поощрения
Создайте сигнал вознаграждения, который измеряет успешность агента в достижении его цели.
Загрузка предопределенных сред системы управления
Можно обучать агентов в предварительно определенных средах системы управления MATLAB, для которых уже определены действия, наблюдения, вознаграждения и динамика.
Загрузка предопределенных сред Grid World
Можно обучать агентов в предварительно определенных средах grid world MATLAB, для которых уже определены действия, наблюдения и вознаграждения.
Создание пользовательских сред Grid World
Можно создавать пользовательские среды grid world MATLAB, определяя собственные размеры, награды и препятствия.
Создание среды MATLAB с помощью пользовательских функций
Создание среды обучения армированию путем предоставления пользовательских динамических функций.
Создание пользовательской среды MATLAB на основе шаблона
Можно определить пользовательскую среду обучения армированию, создав и изменив объект среды шаблона.