(Не рекомендуемый) представление Модели для агентов обучения с подкреплением
rlRepresentationне рекомендуется. Используйте rlValueRepresentation, rlQValueRepresentation, rlDeterministicActorRepresentation, или rlStochasticActorRepresentation вместо этого. Для получения дополнительной информации см. Вопросы совместимости.
Используйте rlRepresentation создать функциональное представление аппроксимации для агента или критика агента обучения с подкреплением. Для этого вы задаете сигналы наблюдения и действия для учебной среды и опций, которые влияют на обучение агента, который использует представление. Для получения дополнительной информации о создании представлений смотрите, Создают Представления Функции ценности и политика.
создает представление для глубокой нейронной сети rep = rlRepresentation(net,obsInfo,'Observation',obsNames)net. Наблюдение называет obsNames сетевые входные имена слоя. obsInfo содержит соответствующие спецификации наблюдений для учебной среды. Используйте этот синтаксис, чтобы создать представление для критика, который не требует входных параметров действия, таких как критик для rlACAgent или rlPGAgent агент.
создает представление с сигналами действия, заданными именами rep = rlRepresentation(net,obsInfo,actInfo,'Observation',obsNames,'Action',actNames)actNames и спецификация actInfo. Используйте этот синтаксис, чтобы создать представление для любого агента, или для критика, который берет и наблюдение и действие, как введено, такое как критик для rlDQNAgent или rlDDPGAgent агент.
создает представление критика для таблицы значения или Q-таблицы tableCritic = rlRepresentation(tab)tab. Когда вы создаете табличное представление, вы задаете спецификации наблюдений и спецификации действия, когда вы создаете tab.
создает представление в виде линейного базиса функций с помощью указателя на пользовательскую основную функцию critic = rlRepresentation(basisFcn,W0,obsInfo)basisFcn и начальный вектор веса W0. obsInfo содержит соответствующие спецификации наблюдений для учебной среды. Используйте этот синтаксис, чтобы создать представление для критика, который не требует входных параметров действия, таких как критик для rlACAgent или rlPGAgent агент.
создает представление в виде линейного базиса функций с помощью массива ячеек спецификации critic = rlRepresentation(basisFcn,W0,oaInfo)oaInfo, где oaInfo = {obsInfo,actInfo}. Используйте этот синтаксис, чтобы создать представление для критика, который берет и наблюдения и действия как входные параметры, такие как критик для rlDQNAgent или rlDDPGAgent агент.
создает представление в виде линейного базиса функций с помощью заданного наблюдения и спецификаций действия, actor = rlRepresentation(basisFcn,W0,obsInfo,actInfo)obsInfo и actInfo, соответственно. Используйте этот синтаксис, чтобы создать представление для агента, который берет наблюдения в качестве входных параметров и генерирует действия.
создает представление с помощью дополнительных опций, которые задают изучение параметров для представления, когда вы обучаете агента. Доступные параметры включают оптимизатор, используемый в обучении и скорости обучения. Используйте rep = rlRepresentation(___,repOpts)rlRepresentationOptions чтобы создать опции устанавливает repOpts. Можно использовать этот синтаксис с любой из предыдущих комбинаций входных аргументов.