Создайте среду обучения с подкреплением путем предоставления пользовательских динамических функций в MATLAB®. Используя rlFunctionEnv
, можно создать среду обучения с подкреплением MATLAB из спецификации наблюдений, спецификации действия и step
и reset
функции, которые вы задаете.
В данном примере создайте среду, которая представляет систему для балансировки тележки на полюсе. Наблюдения средой являются положением тележки, скоростью тележки, углом маятника и угловой производной маятника. (Для дополнительных деталей об этой среде смотрите, Создают Среду MATLAB Используя Пользовательские Функции.) Создают спецификацию наблюдений для тех сигналов.
Среда имеет дискретное пространство действий, где агент может применить одно из двух возможных значений силы к тележке,-10 Н или 10 Н. Создайте спецификацию действия для тех действий.
Затем задайте пользовательский step
и reset
функции. В данном примере используйте предоставленные функции myResetFunction.m
и myStepFunction.m
. Для получения дополнительной информации об этих функциях и как они создаются, смотрите, Создают Среду MATLAB Используя Пользовательские Функции.
Создайте пользовательскую среду с помощью заданной спецификации наблюдений, спецификации действия и имен функций.
Можно создать агентов для env
и обучите их в среде, как вы были бы для любой другой среды обучения с подкреплением.
Как альтернатива использованию имен функций, можно задать функции как указатели на функцию. Для получения дополнительной информации и пример, смотрите, Создают Среду MATLAB Используя Пользовательские Функции.