(Не рекомендуемый) Моделирование представления для агентов обучения с подкреплением
rlRepresentation не рекомендуется. Использование rlValueRepresentation, rlQValueRepresentation, rlDeterministicActorRepresentation, или rlStochasticActorRepresentation вместо этого. Для получения дополнительной информации см. раздел Вопросов совместимости.
Использовать rlRepresentation создать представление функциональной аппроксимации для актёра или критика агента обучения с подкреплением. Для этого вы задаете сигналы наблюдения и действия для окружения обучения и опции, которые влияют на обучение агента, который использует представление. Дополнительные сведения о создании представлений см. в разделах Создание политики и Представления функции ценности.
создает представление для глубокой нейронной сети rep = rlRepresentation(net,obsInfo,'Observation',obsNames)net. Имена наблюдений obsNames являются именами сетевого входного слоя. obsInfo содержит соответствующие спецификации наблюдений для окружения обучения. Используйте этот синтаксис, чтобы создать представление для критика, который не требует входов действия, таких как критик для rlACAgent или rlPGAgent агент.
создает представление с сигналами действия, заданными именами rep = rlRepresentation(net,obsInfo,actInfo,'Observation',obsNames,'Action',actNames)actNames и спецификация actInfo. Используйте этот синтаксис, чтобы создать представление для любого актёра или для критика, который принимает и наблюдение, и действие в качестве входных данных, таких как критик для rlDQNAgent или rlDDPGAgent агент.
создает представление критика для таблицы значений или Q-таблицы tableCritic = rlRepresentation(tab)tab. Когда вы создаете представление таблицы, вы задаете наблюдения и спецификации действия при создании tab.
создает представление в виде линейного базиса функций с помощью указателя на пользовательский базис critic = rlRepresentation(basisFcn,W0,obsInfo)basisFcn и начальный вектор веса W0. obsInfo содержит соответствующие спецификации наблюдений для окружения обучения. Используйте этот синтаксис, чтобы создать представление для критика, который не требует входов действия, таких как критик для rlACAgent или rlPGAgent агент.
создает представление в виде линейного базиса функций с использованием массива ячеек спецификации critic = rlRepresentation(basisFcn,W0,oaInfo)oaInfo, где oaInfo = {obsInfo,actInfo}. Используйте этот синтаксис, чтобы создать представление для критика, которое принимает как наблюдения, так и действия в качестве входов, таких как критик для rlDQNAgent или rlDDPGAgent агент.
создает представление в виде линейного базиса функций с помощью заданных наблюдений и спецификаций действия, actor = rlRepresentation(basisFcn,W0,obsInfo,actInfo)obsInfo и actInfo, соответственно. Используйте этот синтаксис, чтобы создать представление для актёра, который принимает наблюдения в качестве входов и генерирует действия.
создает представление с помощью дополнительных опций, которые задают параметры обучения для представления при обучении агента. Доступные опции включают оптимизатор, используемый для обучения, и скорость обучения. Использовать rep = rlRepresentation(___,repOpts)rlRepresentationOptions чтобы создать набор опций repOpts. Можно использовать этот синтаксис с любой из предыдущих комбинаций входных аргументов.