(Не рекомендуемый) представление Модели для агентов обучения с подкреплением
rlRepresentation
не рекомендуется. Использование rlValueRepresentation
, rlQValueRepresentation
, rlDeterministicActorRepresentation
, или rlStochasticActorRepresentation
вместо этого. Для получения дополнительной информации см. Вопросы совместимости.
Использование rlRepresentation
создать функциональное представление аппроксимации для агента или критика агента обучения с подкреплением. Для этого вы задаете сигналы наблюдения и действия для учебной среды и опций, которые влияют на обучение агента, который использует представление. Для получения дополнительной информации о создании представлений смотрите, Создают Представления Функции ценности и политика.
создает представление для глубокой нейронной сети rep
= rlRepresentation(net
,obsInfo
,'Observation',obsNames
)net
. Наблюдение называет obsNames
сетевые входные имена слоя. obsInfo
содержит соответствующие спецификации наблюдений для учебной среды. Используйте этот синтаксис, чтобы создать представление для критика, который не требует входных параметров действия, таких как критик для rlACAgent
или rlPGAgent
агент.
создает представление с сигналами действия, заданными именами rep
= rlRepresentation(net
,obsInfo
,actInfo
,'Observation',obsNames
,'Action',actNames
)actNames
и спецификация actInfo
. Используйте этот синтаксис, чтобы создать представление для любого агента, или для критика, который берет и наблюдение и действие, как введено, такое как критик для rlDQNAgent
или rlDDPGAgent
агент.
создает представление критика для таблицы значения или Q-таблицы tableCritic
= rlRepresentation(tab
)tab
. Когда вы создаете табличное представление, вы задаете спецификации наблюдений и спецификации действия, когда вы создаете tab
.
создает представление в виде линейного базиса функций с помощью указателя на пользовательскую основную функцию critic
= rlRepresentation(basisFcn
,W0
,obsInfo
)basisFcn
и начальный вектор веса W0
. obsInfo
содержит соответствующие спецификации наблюдений для учебной среды. Используйте этот синтаксис, чтобы создать представление для критика, который не требует входных параметров действия, таких как критик для rlACAgent
или rlPGAgent
агент.
создает представление в виде линейного базиса функций с помощью массива ячеек спецификации critic
= rlRepresentation(basisFcn
,W0
,oaInfo
)oaInfo
, где oaInfo
= {obsInfo,actInfo}
. Используйте этот синтаксис, чтобы создать представление для критика, который берет и наблюдения и действия как входные параметры, такие как критик для rlDQNAgent
или rlDDPGAgent
агент.
создает представление в виде линейного базиса функций с помощью заданного наблюдения и спецификаций действия, actor
= rlRepresentation(basisFcn
,W0
,obsInfo
,actInfo
)obsInfo
и actInfo
, соответственно. Используйте этот синтаксис, чтобы создать представление для агента, который берет наблюдения в качестве входных параметров и генерирует действия.
создает представление с помощью дополнительных опций, которые задают изучение параметров для представления, когда вы обучаете агента. Доступные параметры включают оптимизатор, используемый для обучения и скорости обучения. Использование rep
= rlRepresentation(___,repOpts
)rlRepresentationOptions
чтобы создать опции устанавливает repOpts
. Можно использовать этот синтаксис с любой из предыдущих комбинаций входных аргументов.