Представление Q-функции критика для агентов обучения с подкреплением
Этот объект реализует аппроксимацию функции Q-значения, которая будет использоваться в качестве критика в агенте обучения с подкреплением. Функция Q-значения является функцией, которая преобразует пару наблюдение-действие в скалярное значение, представляющее ожидаемые общие долгосрочные вознаграждения, которые агент, как ожидается, накопит, когда он начнет с заданного наблюдения и выполняет данное действие. Поэтому критикам функции Q-значения нужны как наблюдения, так и действия в качестве входов. После создания rlQValueRepresentation критик, используйте его, чтобы создать агента, полагающегося на функции Q-значения критика, такого как rlQAgent, rlDQNAgent, rlSARSAAgent, rlDDPGAgent, или rlTD3Agent. Дополнительные сведения о создании представлений см. в разделах Создание политики и Представления функции ценности.
создает функцию Q-значений critic = rlQValueRepresentation(net,observationInfo,actionInfo,'Observation',obsName,'Action',actName)critic. net - глубокая нейронная сеть, используемая в качестве аппроксимации, и должна иметь как наблюдения, так и действие в качестве входов и один скалярный выход. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo critic соответственно на входы observationInfo и actionInfo, содержащие наблюдения и спецификации действия. obsName должны содержать имена входных слоев net которые связаны со спецификациями наблюдений. Имя действия actName должно быть именем входного слоя net связанный со спецификациями действия.
создает функцию Q-значений на основе critic = rlQValueRepresentation(tab,observationInfo,actionInfo)critic с дискретными пространствами действий и наблюдений из таблицы Q-значений tab. tab является rlTable объект, содержащий таблицу с таким количеством строк, как возможные наблюдения и столько столбцов, сколько возможных действий. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo critic соответственно на входы observationInfo и actionInfo, который должен быть rlFiniteSetSpec объекты, содержащие спецификации для дискретных наблюдений и пространств действий, соответственно.
создает функцию Q-значений, основанную на critic = rlQValueRepresentation({basisFcn,W0},observationInfo,actionInfo)critic использование пользовательской функции базиса в качестве базовой аппроксимации. Первый входной параметр является камерой с двумя элементами, в которой первый элемент содержит указатель basisFcn в пользовательскую функцию базиса, а второй элемент содержит начальный вектор веса W0. Здесь функция базиса должна иметь как наблюдения, так и действие как входы и W0 должен быть вектор-столбец. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo critic соответственно на входы observationInfo и actionInfo.
создает мультивыход critic = rlQValueRepresentation(net,observationInfo,actionInfo,'Observation',obsName)critic
для дискретного пространства действий. net - глубокая нейронная сеть, используемая в качестве аппроксимации, и должна иметь только наблюдения как входной и один выходной слой, имеющий столько элементов, сколько количества возможных дискретных действий. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo critic соответственно на входы observationInfo и actionInfo, содержащие наблюдения и спецификации действия. Здесь, actionInfo должен быть rlFiniteSetSpec объект, содержащий спецификации дискретного пространства действий. Имена наблюдений obsName должны быть именами входных слоев net.
создает мультивыход critic = rlQValueRepresentation({basisFcn,W0},observationInfo,actionInfo)critic
для дискретного пространства действий с использованием пользовательской функции базиса в качестве базовой аппроксимации. Первый входной параметр является камерой с двумя элементами, в которой первый элемент содержит указатель basisFcn в пользовательскую функцию базиса, а второй элемент содержит начальную матрицу веса W0. Здесь функция базиса должна иметь только наблюдения в качестве входов, и W0 должно иметь столько столбцов, сколько возможных действий. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo critic соответственно на входы observationInfo и actionInfo.
создает функцию ценности, основанную на critic = rlQValueRepresentation(___,options)critic использование дополнительного набора опций options, который является rlRepresentationOptions объект. Этот синтаксис задает свойство Опций critic на options входной параметр. Можно использовать этот синтаксис с любой из предыдущих комбинаций входных аргументов.
rlDDPGAgent | Агент глубокого детерминированного градиента обучения с подкреплением политики |
rlTD3Agent | Агент обучения с подкреплением с двумя задержками в глубоком детерминировании политики |
rlDQNAgent | Агент обучения с подкреплением глубокой Q-сети |
rlQAgent | Агент обучения с подкреплением Q-обучения |
rlSARSAAgent | Агент обучения с подкреплением SARSA |
rlSACAgent | Мягкий агент обучения с подкреплением актёра-критика |
getValue | Получите расчетное представление функции ценности |
getMaxQValue | Получите максимальную оценку функции состояния для представления функции Q-значения с дискретным пространством действий |