(Не рекомендуется) Представление модели для агентов обучения усилению
rlRepresentation не рекомендуется. Использовать rlValueRepresentation, rlQValueRepresentation, rlDeterministicActorRepresentation, или rlStochasticActorRepresentation вместо этого. Дополнительные сведения см. в разделе Вопросы совместимости.
Использовать rlRepresentation для создания представления аппроксиматора функции для актера или критика агента обучения усиления. Для этого задаются сигналы наблюдения и действия для учебной среды и опции, влияющие на обучение агента, использующего представление. Дополнительные сведения о создании представлений см. в разделе Создание представлений политик и функций значений.
создает представление для глубокой нейронной сети rep = rlRepresentation(net,obsInfo,'Observation',obsNames)net. Имена наблюдений obsNames - имена сетевых входных уровней. obsInfo содержит соответствующие спецификации наблюдения для среды обучения. Этот синтаксис используется для создания представления для критика, не требующего ввода действий, например, для критика rlACAgent или rlPGAgent агент.
создает представление с сигналами действий, заданными именами rep = rlRepresentation(net,obsInfo,actInfo,'Observation',obsNames,'Action',actNames)actNames и спецификации actInfo. Используйте этот синтаксис, чтобы создать представление для любого актера или для критика, который принимает как наблюдение, так и действие в качестве входных данных, например критика для rlDQNAgent или rlDDPGAgent агент.
создает критическое представление для таблицы значений или таблицы Q tableCritic = rlRepresentation(tab)tab. При создании табличного представления задаются параметры наблюдения и действия при создании tab.
создает представление линейной базисной функции с использованием маркера перемещения к пользовательской базисной функции critic = rlRepresentation(basisFcn,W0,obsInfo)basisFcn и исходный весовой вектор W0. obsInfo содержит соответствующие спецификации наблюдения для среды обучения. Этот синтаксис используется для создания представления для критика, не требующего ввода действий, например, для критика rlACAgent или rlPGAgent агент.
создает представление линейной базисной функции с использованием массива ячеек спецификации critic = rlRepresentation(basisFcn,W0,oaInfo)oaInfo, где oaInfo = {obsInfo,actInfo}. Используйте этот синтаксис, чтобы создать представление для критика, который принимает как наблюдения, так и действия в качестве входных данных, например критика для rlDQNAgent или rlDDPGAgent агент.
создает представление линейной базисной функции с использованием заданных характеристик наблюдения и действия; actor = rlRepresentation(basisFcn,W0,obsInfo,actInfo)obsInfo и actInfoсоответственно. Этот синтаксис используется для создания представления для актера, принимающего наблюдения в качестве входных данных и генерирующего действия.
создает представление с помощью дополнительных опций, задающих параметры обучения для представления при обучении агента. Доступные варианты включают оптимизатор, используемый для обучения, и скорость обучения. Использовать rep = rlRepresentation(___,repOpts)rlRepresentationOptions для создания набора опций repOpts. Этот синтаксис можно использовать с любой из предыдущих комбинаций входных аргументов.