(Не рекомендуемый) Моделирование представления для агентов обучения с подкреплением
rlRepresentation
не рекомендуется. Использование rlValueRepresentation
, rlQValueRepresentation
, rlDeterministicActorRepresentation
, или rlStochasticActorRepresentation
вместо этого. Для получения дополнительной информации см. раздел Вопросов совместимости.
Использовать rlRepresentation
создать представление функциональной аппроксимации для актёра или критика агента обучения с подкреплением. Для этого вы задаете сигналы наблюдения и действия для окружения обучения и опции, которые влияют на обучение агента, который использует представление. Дополнительные сведения о создании представлений см. в разделах Создание политики и Представления функции ценности.
создает представление для глубокой нейронной сети rep
= rlRepresentation(net
,obsInfo
,'Observation',obsNames
)net
. Имена наблюдений obsNames
являются именами сетевого входного слоя. obsInfo
содержит соответствующие спецификации наблюдений для окружения обучения. Используйте этот синтаксис, чтобы создать представление для критика, который не требует входов действия, таких как критик для rlACAgent
или rlPGAgent
агент.
создает представление с сигналами действия, заданными именами rep
= rlRepresentation(net
,obsInfo
,actInfo
,'Observation',obsNames
,'Action',actNames
)actNames
и спецификация actInfo
. Используйте этот синтаксис, чтобы создать представление для любого актёра или для критика, который принимает и наблюдение, и действие в качестве входных данных, таких как критик для rlDQNAgent
или rlDDPGAgent
агент.
создает представление критика для таблицы значений или Q-таблицы tableCritic
= rlRepresentation(tab
)tab
. Когда вы создаете представление таблицы, вы задаете наблюдения и спецификации действия при создании tab
.
создает представление в виде линейного базиса функций с помощью указателя на пользовательский базис critic
= rlRepresentation(basisFcn
,W0
,obsInfo
)basisFcn
и начальный вектор веса W0
. obsInfo
содержит соответствующие спецификации наблюдений для окружения обучения. Используйте этот синтаксис, чтобы создать представление для критика, который не требует входов действия, таких как критик для rlACAgent
или rlPGAgent
агент.
создает представление в виде линейного базиса функций с использованием массива ячеек спецификации critic
= rlRepresentation(basisFcn
,W0
,oaInfo
)oaInfo
, где oaInfo
= {obsInfo,actInfo}
. Используйте этот синтаксис, чтобы создать представление для критика, которое принимает как наблюдения, так и действия в качестве входов, таких как критик для rlDQNAgent
или rlDDPGAgent
агент.
создает представление в виде линейного базиса функций с помощью заданных наблюдений и спецификаций действия, actor
= rlRepresentation(basisFcn
,W0
,obsInfo
,actInfo
)obsInfo
и actInfo
, соответственно. Используйте этот синтаксис, чтобы создать представление для актёра, который принимает наблюдения в качестве входов и генерирует действия.
создает представление с помощью дополнительных опций, которые задают параметры обучения для представления при обучении агента. Доступные опции включают оптимизатор, используемый для обучения, и скорость обучения. Использовать rep
= rlRepresentation(___,repOpts
)rlRepresentationOptions
чтобы создать набор опций repOpts
. Можно использовать этот синтаксис с любой из предыдущих комбинаций входных аргументов.