Представление Q-функции критика для агентов обучения с подкреплением
Этот объект реализует аппроксимацию функции Q-значения, которая будет использоваться в качестве критика в агенте обучения с подкреплением. Функция Q-значения является функцией, которая преобразует пару наблюдение-действие в скалярное значение, представляющее ожидаемые общие долгосрочные вознаграждения, которые агент, как ожидается, накопит, когда он начнет с заданного наблюдения и выполняет данное действие. Поэтому критикам функции Q-значения нужны как наблюдения, так и действия в качестве входов. После создания rlQValueRepresentation
критик, используйте его, чтобы создать агента, полагающегося на функции Q-значения критика, такого как rlQAgent
, rlDQNAgent
, rlSARSAAgent
, rlDDPGAgent
, или rlTD3Agent
. Дополнительные сведения о создании представлений см. в разделах Создание политики и Представления функции ценности.
создает функцию Q-значений critic
= rlQValueRepresentation(net
,observationInfo
,actionInfo
,'Observation',obsName
,'Action',actName
)critic
. net
- глубокая нейронная сеть, используемая в качестве аппроксимации, и должна иметь как наблюдения, так и действие в качестве входов и один скалярный выход. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo critic
соответственно на входы observationInfo
и actionInfo
, содержащие наблюдения и спецификации действия. obsName
должны содержать имена входных слоев net
которые связаны со спецификациями наблюдений. Имя действия actName
должно быть именем входного слоя net
связанный со спецификациями действия.
создает функцию Q-значений на основе critic
= rlQValueRepresentation(tab
,observationInfo
,actionInfo
)critic
с дискретными пространствами действий и наблюдений из таблицы Q-значений tab
. tab
является rlTable
объект, содержащий таблицу с таким количеством строк, как возможные наблюдения и столько столбцов, сколько возможных действий. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo critic
соответственно на входы observationInfo
и actionInfo
, который должен быть rlFiniteSetSpec
объекты, содержащие спецификации для дискретных наблюдений и пространств действий, соответственно.
создает функцию Q-значений, основанную на critic
= rlQValueRepresentation({basisFcn
,W0
},observationInfo
,actionInfo
)critic
использование пользовательской функции базиса в качестве базовой аппроксимации. Первый входной параметр является камерой с двумя элементами, в которой первый элемент содержит указатель basisFcn
в пользовательскую функцию базиса, а второй элемент содержит начальный вектор веса W0
. Здесь функция базиса должна иметь как наблюдения, так и действие как входы и W0
должен быть вектор-столбец. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo critic
соответственно на входы observationInfo
и actionInfo
.
создает мультивыход critic
= rlQValueRepresentation(net
,observationInfo
,actionInfo
,'Observation',obsName
)critic
для дискретного пространства действий. net
- глубокая нейронная сеть, используемая в качестве аппроксимации, и должна иметь только наблюдения как входной и один выходной слой, имеющий столько элементов, сколько количества возможных дискретных действий. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo critic
соответственно на входы observationInfo
и actionInfo
, содержащие наблюдения и спецификации действия. Здесь, actionInfo
должен быть rlFiniteSetSpec
объект, содержащий спецификации дискретного пространства действий. Имена наблюдений obsName
должны быть именами входных слоев net
.
создает мультивыход critic
= rlQValueRepresentation({basisFcn
,W0
},observationInfo
,actionInfo
)critic
для дискретного пространства действий с использованием пользовательской функции базиса в качестве базовой аппроксимации. Первый входной параметр является камерой с двумя элементами, в которой первый элемент содержит указатель basisFcn
в пользовательскую функцию базиса, а второй элемент содержит начальную матрицу веса W0
. Здесь функция базиса должна иметь только наблюдения в качестве входов, и W0
должно иметь столько столбцов, сколько возможных действий. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo critic
соответственно на входы observationInfo
и actionInfo
.
создает функцию ценности, основанную на critic
= rlQValueRepresentation(___,options
)critic
использование дополнительного набора опций options
, который является rlRepresentationOptions
объект. Этот синтаксис задает свойство Опций critic
на options
входной параметр. Можно использовать этот синтаксис с любой из предыдущих комбинаций входных аргументов.
rlDDPGAgent | Агент глубокого детерминированного градиента обучения с подкреплением политики |
rlTD3Agent | Агент обучения с подкреплением с двумя задержками в глубоком детерминировании политики |
rlDQNAgent | Агент обучения с подкреплением глубокой Q-сети |
rlQAgent | Агент обучения с подкреплением Q-обучения |
rlSARSAAgent | Агент обучения с подкреплением SARSA |
rlSACAgent | Мягкий агент обучения с подкреплением актёра-критика |
getValue | Получите расчетное представление функции ценности |
getMaxQValue | Получите максимальную оценку функции состояния для представления функции Q-значения с дискретным пространством действий |