Представление модели для агентов обучения с подкреплением
Используйте rlRepresentation
создать функцию approximator представление для агента или критика агента обучения с подкреплением. Для этого вы задаете сигналы наблюдения и действия для учебной среды и опций, которые влияют на обучение агента, который использует представление. Для получения дополнительной информации о создании представлений смотрите, Создают политику и Представления Функции Значения.
создает представление для глубокой нейронной сети rep
= rlRepresentation(net
,obsInfo
,'Observation',obsNames
)net
. Наблюдение называет obsNames
сетевые входные имена слоя. obsInfo
содержит соответствующие спецификации наблюдения для учебной среды. Используйте этот синтаксис, чтобы создать представление для критика, который не требует входных параметров действия, таких как критик для rlACAgent
или rlPGAgent
агент.
создает представление с сигналами действия, заданными именами rep
= rlRepresentation(net
,obsInfo
,actInfo
,'Observation',obsNames
,'Action',actNames
)actNames
и спецификация actInfo
. Используйте этот синтаксис, чтобы создать представление для любого агента, или для критика, который берет и наблюдение и действие, как введено, такое как критик для rlDQNAgent
или rlDDPGAgent
агент.
создает представление критика для таблицы значения или Q-таблицы tableCritic
= rlRepresentation(tab
)tab
. Когда вы создаете табличное представление, вы задаете наблюдение и спецификации действия, когда вы создаете tab
.
создает линейное представление основной функции с помощью указателя на пользовательскую основную функцию critic
= rlRepresentation(basisFcn
,W0
,obsInfo
)basisFcn
и начальный вектор веса W0
. obsInfo
содержит соответствующие спецификации наблюдения для учебной среды. Используйте этот синтаксис, чтобы создать представление для критика, который не требует входных параметров действия, таких как критик для rlACAgent
или rlPGAgent
агент.
создает линейное представление основной функции с помощью массива ячеек спецификации critic
= rlRepresentation(basisFcn
,W0
,oaInfo
)oaInfo
, где oaInfo
= {obsInfo,actInfo}
. Используйте этот синтаксис, чтобы создать представление для критика, который берет и наблюдения и действия как входные параметры, такие как критик для rlDQNAgent
или rlDDPGAgent
агент.
создает линейное представление основной функции с помощью заданного наблюдения и спецификаций действия, actor
= rlRepresentation(basisFcn
,W0
,obsInfo
,actInfo
)obsInfo
и actInfo
, соответственно. Используйте этот синтаксис, чтобы создать представление для агента, который берет наблюдения в качестве входных параметров и генерирует действия.
создает представление с помощью дополнительных опций, которые задают изучение параметров для представления, когда вы обучаете агента. Доступные параметры включают оптимизатор, используемый в обучении и темпе обучения. Используйте rep
= rlRepresentation(___,repOpts
)rlRepresentationOptions
чтобы создать опции устанавливает repOpts
. Можно использовать этот синтаксис с любой из предыдущих комбинаций входных аргументов.