Представление модели для агентов изучения укрепления
Используйте rlRepresentation, чтобы создать функцию approximator представление для агента или критика агента изучения укрепления. Для этого вы задаете сигналы наблюдения и действия для учебной среды и опций, которые влияют на обучение агента, который использует представление. Для получения дополнительной информации о создании представлений смотрите, Создают политику и Представления Функции Значения.
rep = rlRepresentation(net,obsInfo,'Observation',obsNames)rep = rlRepresentation(net,obsInfo,actInfo,'Observation',obsNames,'Action',actNames)tableCritic = rlRepresentation(tab)critic = rlRepresentation(basisFcn,W0,obsInfo)critic = rlRepresentation(basisFcn,W0,oaInfo)actor = rlRepresentation(basisFcn,W0,obsInfo,actInfo)rep = rlRepresentation(___,repOpts) создает представление для глубокой нейронной сети rep = rlRepresentation(net,obsInfo,'Observation',obsNames)net. Имена наблюдения obsNames являются сетевыми входными именами слоя. obsInfo содержит соответствующие спецификации наблюдения для учебной среды. Используйте этот синтаксис, чтобы создать представление для критика, который не требует входных параметров действия, таких как критик для агента rlPGAgent или rlACAgent.
создает представление с сигналами действия, заданными именами rep = rlRepresentation(net,obsInfo,actInfo,'Observation',obsNames,'Action',actNames)actNames и спецификация actInfo. Используйте этот синтаксис, чтобы создать представление для любого агента, или для критика, который берет и наблюдение и действие, как введено, такое как критик для агента rlDDPGAgent или rlDQNAgent.
создает представление критика для таблицы значения или таблицы Q tableCritic = rlRepresentation(tab)tab. Когда вы создаете табличное представление, вы задаете наблюдение и спецификации действия, когда вы создаете tab.
создает линейное представление основной функции с помощью указателя на пользовательскую основную функцию critic = rlRepresentation(basisFcn,W0,obsInfo)basisFcn и начальный вектор веса W0. obsInfo содержит соответствующие спецификации наблюдения для учебной среды. Используйте этот синтаксис, чтобы создать представление для критика, который не требует входных параметров действия, таких как критик для агента rlPGAgent или rlACAgent.
создает линейное представление основной функции с помощью массива ячеек спецификации critic = rlRepresentation(basisFcn,W0,oaInfo)oaInfo, где oaInfo = {obsInfo,actInfo}. Используйте этот синтаксис, чтобы создать представление для критика, который берет и наблюдения и действия как входные параметры, такие как критик для агента rlDDPGAgent или rlDQNAgent.
создает линейное представление основной функции с помощью заданного наблюдения и спецификаций действия, actor = rlRepresentation(basisFcn,W0,obsInfo,actInfo)obsInfo и actInfo, соответственно. Используйте этот синтаксис, чтобы создать представление для агента, который берет наблюдения в качестве входных параметров и генерирует действия.
создает представление с помощью дополнительных опций, которые задают изучение параметров для представления, когда вы обучаете агент. Доступные параметры включают оптимизатор, используемый для обучения и темпа обучения. Используйте rep = rlRepresentation(___,repOpts)rlRepresentationOptions, чтобы создать набор опций repOpts. Можно использовать этот синтаксис с любой из предыдущих комбинаций входных аргументов.