Создайте среду марковского процесса принятия решений для обучения с подкреплением
Марковский процесс принятия решений (MDP) является стохастическим процессом управления с дискретным временем. Это служит математической основой для моделирования принятия решения в ситуациях, где результаты частично случайны и частично под управлением лица, принимающего решения. MDPs полезны для изучения задач оптимизации, решенных с помощью обучения с подкреплением. Используйте rlMDPEnv
создать среду марковского процесса принятия решений для обучения с подкреплением в MATLAB®.
getActionInfo | Получите спецификации данных о действии из среды обучения с подкреплением или от агента |
getObservationInfo | Получите спецификации данных о наблюдении из среды обучения с подкреплением или от агента |
sim | Симулируйте обученных агентов обучения с подкреплением в заданной среде |
train | Обучите агентов обучения с подкреплением в заданной среде |
validateEnvironment | Проверьте пользовательскую среду обучения с подкреплением |