Представление модели для агентов изучения укрепления
Используйте rlRepresentation
, чтобы создать функцию approximator представление для агента или критика агента изучения укрепления. Для этого вы задаете сигналы наблюдения и действия для учебной среды и опций, которые влияют на обучение агента, который использует представление. Для получения дополнительной информации о создании представлений смотрите, Создают политику и Представления Функции Значения.
rep = rlRepresentation(net,obsInfo,'Observation',obsNames)
rep = rlRepresentation(net,obsInfo,actInfo,'Observation',obsNames,'Action',actNames)
tableCritic = rlRepresentation(tab)
critic = rlRepresentation(basisFcn,W0,obsInfo)
critic = rlRepresentation(basisFcn,W0,oaInfo)
actor = rlRepresentation(basisFcn,W0,obsInfo,actInfo)
rep = rlRepresentation(___,repOpts)
создает представление для глубокой нейронной сети rep
= rlRepresentation(net
,obsInfo
,'Observation',obsNames
)net
. Имена наблюдения obsNames
являются сетевыми входными именами слоя. obsInfo
содержит соответствующие спецификации наблюдения для учебной среды. Используйте этот синтаксис, чтобы создать представление для критика, который не требует входных параметров действия, таких как критик для агента rlPGAgent
или rlACAgent
.
создает представление с сигналами действия, заданными именами rep
= rlRepresentation(net
,obsInfo
,actInfo
,'Observation',obsNames
,'Action',actNames
)actNames
и спецификация actInfo
. Используйте этот синтаксис, чтобы создать представление для любого агента, или для критика, который берет и наблюдение и действие, как введено, такое как критик для агента rlDDPGAgent
или rlDQNAgent
.
создает представление критика для таблицы значения или таблицы Q tableCritic
= rlRepresentation(tab
)tab
. Когда вы создаете табличное представление, вы задаете наблюдение и спецификации действия, когда вы создаете tab
.
создает линейное представление основной функции с помощью указателя на пользовательскую основную функцию critic
= rlRepresentation(basisFcn
,W0
,obsInfo
)basisFcn
и начальный вектор веса W0
. obsInfo
содержит соответствующие спецификации наблюдения для учебной среды. Используйте этот синтаксис, чтобы создать представление для критика, который не требует входных параметров действия, таких как критик для агента rlPGAgent
или rlACAgent
.
создает линейное представление основной функции с помощью массива ячеек спецификации critic
= rlRepresentation(basisFcn
,W0
,oaInfo
)oaInfo
, где oaInfo
= {obsInfo,actInfo}
. Используйте этот синтаксис, чтобы создать представление для критика, который берет и наблюдения и действия как входные параметры, такие как критик для агента rlDDPGAgent
или rlDQNAgent
.
создает линейное представление основной функции с помощью заданного наблюдения и спецификаций действия, actor
= rlRepresentation(basisFcn
,W0
,obsInfo
,actInfo
)obsInfo
и actInfo
, соответственно. Используйте этот синтаксис, чтобы создать представление для агента, который берет наблюдения в качестве входных параметров и генерирует действия.
создает представление с помощью дополнительных опций, которые задают изучение параметров для представления, когда вы обучаете агент. Доступные параметры включают оптимизатор, используемый для обучения и темпа обучения. Используйте rep
= rlRepresentation(___,repOpts
)rlRepresentationOptions
, чтобы создать набор опций repOpts
. Можно использовать этот синтаксис с любой из предыдущих комбинаций входных аргументов.