Создайте среду процесса принятия решений Маркова для изучения укрепления
Процесс принятия решений Маркова (MDP) является дискретным временем стохастический процесс управления. Это служит математической основой для моделирования принятия решения в ситуациях, где результаты частично случайны и частично под управлением лица, принимающего решения. MDPs полезны для изучения задач оптимизации, решенных с помощью изучения укрепления. Используйте rlMDPEnv
, чтобы создать основанный на MATLAB® объект rlMDPEnv
среды процесса принятия решений Маркова для изучения укрепления.
env = rlMDPEnv(MDP)
getActionInfo | Получите спецификации данных о действии из среды обучения укрепления или агента |
getObservationInfo | Получите спецификации данных о наблюдении из среды обучения укрепления или агента |
sim | Моделируйте обученный агент изучения укрепления в заданной среде |
train | Обучите агент изучения укрепления в заданной среде |
validateEnvironment | Подтвердите пользовательскую среду обучения укрепления |