Создайте среду марковского процесса принятия решений для обучения с подкреплением
Марковский процесс принятия решений (MDP) является дискретным временем стохастический процесс управления. Это служит математической основой для моделирования принятия решения в ситуациях, где результаты частично случайны и частично под управлением лица, принимающего решения. MDPs полезны для изучения задач оптимизации, решенных с помощью обучения с подкреплением. Используйте rlMDPEnv
создать основанный на MATLAB® объект rlMDPEnv
среды марковского процесса принятия решений для обучения с подкреплением.
getActionInfo | Получите спецификации данных о действии из среды обучения с подкреплением или от агента |
getObservationInfo | Получите спецификации данных о наблюдении из среды обучения с подкреплением или от агента |
sim | Симулируйте обученного агента обучения с подкреплением в заданной среде |
train | Обучите агента обучения с подкреплением в заданной среде |
validateEnvironment | Проверьте пользовательскую среду обучения с подкреплением |