Создание среды процесса принятия решений Маркова для обучения усилению
Процесс решения Маркова (MDP) - это дискретный процесс стохастического управления временем. Он предоставляет математическую основу для моделирования принятия решений в ситуациях, когда результаты частично случайны и частично находятся под контролем лица, принимающего решение. MDP полезны для изучения задач оптимизации, решаемых с помощью обучения армированию. Использовать rlMDPEnv создание среды процесса принятия решений Маркова для обучения усилению в MATLAB ®.
getActionInfo | Получение спецификаций данных действий из среды обучения подкреплению или агента |
getObservationInfo | Получение спецификаций данных наблюдения из среды обучения армированию или агента |
sim | Моделирование обученных агентов по обучению подкреплению в определенной среде |
train | Подготовка обучающих агентов по усилению в определенной среде |
validateEnvironment | Проверка пользовательской среды обучения армированию |