Критическое представление функции Q-Value для агентов обучения усиления
Этот объект реализует аппроксиматор функции Q-значения для использования в качестве критика в агенте обучения усилению. Функция Q-значения - это функция, которая отображает пару наблюдение-действие на скалярное значение, представляющее ожидаемое общее долгосрочное вознаграждение, которое, как ожидается, будет накоплено агентом, когда оно начинается с данного наблюдения, и выполняет данное действие. Поэтому критикам функции Q-Value необходимы как наблюдения, так и действия в качестве входных данных. После создания rlQValueRepresentation критик, используйте его для создания агента, полагающегося на критика функции Q-value, такого как rlQAgent, rlDQNAgent, rlSARSAAgent, rlDDPGAgent, или rlTD3Agent. Дополнительные сведения о создании представлений см. в разделе Создание представлений политик и функций значений.
создает функцию Q-значения critic = rlQValueRepresentation(net,observationInfo,actionInfo,'Observation',obsName,'Action',actName)critic. net является глубокой нейронной сетью, используемой в качестве аппроксиматора, и должна иметь как наблюдения и действие в качестве входов, так и один скалярный выход. Этот синтаксис задает свойства TranslationInfo и ActionInfo для critic соответственно входам observationInfo и actionInfo, содержащий замечания и спецификации действий. obsName должен содержать имена входных слоев net которые связаны со спецификациями наблюдения. Имя действия actName должно быть именем входного уровня net который связан со спецификациями действий.
создает функцию Q-значения на основе critic = rlQValueRepresentation(tab,observationInfo,actionInfo)critic с дискретными пространствами действия и наблюдения из таблицы Q-значений tab. tab является rlTable объект, содержащий таблицу с максимально возможным количеством строк и как можно большим количеством столбцов. Этот синтаксис задает свойства TranslationInfo и ActionInfo для critic соответственно входам observationInfo и actionInfo, который должен быть rlFiniteSetSpec объекты, содержащие спецификации для дискретных наблюдений и пространств действий соответственно.
создает функцию Q-значения на основе critic = rlQValueRepresentation({basisFcn,W0},observationInfo,actionInfo)critic использование пользовательской базисной функции в качестве базового аппроксиматора. Первый входной аргумент представляет собой двухэлементную ячейку, в которой первый элемент содержит дескриптор basisFcn к пользовательской базисной функции, а второй элемент содержит начальный весовой вектор W0. Здесь базовая функция должна иметь как наблюдения, так и действия в качестве входных данных и W0 должен быть вектором столбца. Этот синтаксис задает свойства TranslationInfo и ActionInfo для critic соответственно входам observationInfo и actionInfo.
создает функцию Q-значения с несколькими выходами critic = rlQValueRepresentation(net,observationInfo,actionInfo,'Observation',obsName)critic
для дискретного пространства действия. net является глубокой нейронной сетью, используемой в качестве аппроксиматора, и должна иметь только наблюдения в качестве входного и один выходной слой, имеющий столько элементов, сколько возможно дискретных действий. Этот синтаксис задает свойства TranslationInfo и ActionInfo для critic соответственно входам observationInfo и actionInfo, содержащий замечания и спецификации действий. Здесь, actionInfo должно быть rlFiniteSetSpec объект, содержащий спецификации для дискретного пространства действия. Имена наблюдений obsName должны быть именами входных слоев net.
создает функцию Q-значения с несколькими выходами critic = rlQValueRepresentation({basisFcn,W0},observationInfo,actionInfo)critic
для пространства дискретных действий с использованием пользовательской базисной функции в качестве базового аппроксиматора. Первый входной аргумент представляет собой двухэлементную ячейку, в которой первый элемент содержит дескриптор basisFcn к пользовательской базисной функции, а второй элемент содержит исходную весовую матрицу W0. Здесь базисная функция должна иметь только наблюдения в качестве входных данных, и W0 должно иметь столько столбцов, сколько возможно действий. Этот синтаксис задает свойства TranslationInfo и ActionInfo для critic соответственно входам observationInfo и actionInfo.
создает функцию значений на основе critic = rlQValueRepresentation(___,options)critic использование дополнительного набора опций options, который является rlRepresentationOptions объект. Этот синтаксис задает свойство Options для critic в options входной аргумент. Этот синтаксис можно использовать с любой из предыдущих комбинаций входных аргументов.
rlDDPGAgent | Глубокая детерминированная политика градиентного усиления обучающий агент |
rlTD3Agent | Двойная задержка глубокого детерминированного усиления градиента политики обучающий агент |
rlDQNAgent | Агент обучения усилению глубокой Q-сети |
rlQAgent | Агент по обучению Q-learning |
rlSARSAAgent | Агент обучения по усилению SARSA |
rlSACAgent | Мягкий актерско-критический агент по обучению |
getValue | Получить представление функции расчетного значения |
getMaxQValue | Получить максимальную оценку функции состояния-значения для представления функции Q-значения с дискретным пространством действия |