Создайте среду обучения с подкреплением путем предоставления пользовательских динамических функций в MATLAB®. Используя rlFunctionEnv
, можно создать среду обучения с подкреплением MATLAB из спецификации наблюдения, спецификации действия и step
и reset
функции, которые вы задаете.
В данном примере создайте среду, которая представляет систему для балансировки корзины на полюсе. Наблюдения средой являются положением корзины, скоростью корзины, углом маятника и угловой производной маятника. (Для дополнительных деталей об этой среде смотрите, Создают Среду MATLAB с помощью Пользовательских Функций.) Создают спецификацию наблюдения для тех сигналов.
Среда имеет дискретный пробел действия, где агент может применить одно из двух возможных значений силы к корзине,-10 Н или 10 Н. Создайте спецификацию действия для тех действий.
Затем задайте пользовательский step
и reset
функции. В данном примере используйте предоставленные функции myResetFunction.m
и myStepFunction.m
. Для получения дополнительной информации об этих функциях и как они создаются, смотрите, Создают Среду MATLAB с помощью Пользовательских Функций.
Создайте пользовательскую среду с помощью заданной спецификации наблюдения, спецификации действия и имен функций.
Можно создать агентов для env
и обучите их в среде, как вы были бы для любой другой среды обучения с подкреплением.
Как альтернатива использованию имен функций, можно задать функции как указатели на функцию. Для получения дополнительной информации и пример, смотрите, Создают Среду MATLAB с помощью Пользовательских Функций.