Создайте окружение марковского процесса принятия решений для обучения с подкреплением
A Марковского процесса принятия решений (MDP) является стохастическим процессом управления с дискретным временем. Это обеспечивает математическую среду для моделирования принятия решений в ситуациях, когда результаты частично случайны и частично находятся под контролем лица, принимающего решения. MDP полезны для изучения задач оптимизации, решаемых с помощью обучения с подкреплением. Использование rlMDPEnv
создать окружение марковского процесса принятия решений для обучения с подкреплением в MATLAB®.
getActionInfo | Получите спецификации данных о действии из окружения обучения с подкреплением или от агента |
getObservationInfo | Получите спецификации данных о наблюдении из окружения обучения с подкреплением или от агента |
sim | Симулируйте обученных агентов обучения с подкреплением в заданном окружении |
train | Обучите агентов обучения с подкреплением в заданном окружении |
validateEnvironment | Проверьте пользовательское окружение обучения с подкреплением |