Представление критика Q-функции-ценности для агентов обучения с подкреплением
Этот объект реализует аппроксимацию Q-функции-ценности, которая будет использоваться в качестве критика в агенте обучения с подкреплением. Q-функция-ценности является функцией, которая сопоставляет пару действия наблюдения со скалярным значением, представляющим ожидаемые общие долгосрочные вознаграждения, которые агент, как ожидают, накопит, когда это начнет с заданного наблюдения и выполняет данное действие. Критикам Q-функции-ценности поэтому нужны и наблюдения и в действия как входные параметры. После того, как вы создаете rlQValueRepresentation
критик, используйте его, чтобы создать агента, использующего критика Q-функции-ценности, такого как rlQAgent
, rlDQNAgent
, rlSARSAAgent
, rlDDPGAgent
, или rlTD3Agent
. Для получения дополнительной информации о создании представлений смотрите, Создают Представления Функции ценности и политика.
создает Q-функцию-ценности critic
= rlQValueRepresentation(net
,observationInfo
,actionInfo
,'Observation',obsName
,'Action',actName
)critic
.NET
глубокая нейронная сеть, используемая в качестве аппроксимации, и должна иметь оба наблюдения и действие как входные параметры и один скалярный выход. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo critic
соответственно к входным параметрам observationInfo
и actionInfo
, содержа наблюдения и спецификации действия. obsName
должен содержать имена входных слоев net
это сопоставлено со спецификациями наблюдений. Имя действия actName
должно быть имя входного слоя net
это сопоставлено со спецификациями действия.
создает основанный на Q-функции-ценности critic
= rlQValueRepresentation(tab
,observationInfo
,actionInfo
)critic
с дискретным действием и пространствами наблюдений из таблицы tab
Q-значения.
tab
rlTable
объект, содержащий таблицу со столькими же строк сколько возможные наблюдения и столько же столбцов сколько возможные действия. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo critic
соответственно к входным параметрам observationInfo
и actionInfo
, который должен быть rlFiniteSetSpec
объекты, содержащие технические требования для дискретных наблюдений и пространств действий, соответственно.
создает основанный на Q-функции-ценности critic
= rlQValueRepresentation({basisFcn
,W0
},observationInfo
,actionInfo
)critic
использование пользовательской основной функции как базовая аппроксимация. Первый входной параметр является ячейкой 2D элементов, в которой первый элемент содержит указатель basisFcn
к пользовательской основной функции и второму элементу содержит начальный вектор веса W0
. Здесь основная функция должна иметь оба наблюдения и действие как входные параметры и W0
должен быть вектор-столбец. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo critic
соответственно к входным параметрам observationInfo
и actionInfo
.
создает мультивыходную Q-функцию-ценности critic
= rlQValueRepresentation(net
,observationInfo
,actionInfo
,'Observation',obsName
)critic
для дискретного пространства действий. net
глубокая нейронная сеть, используемая в качестве аппроксимации, и должна иметь только наблюдения, как введено и один выходной слой, имеющий столько же элементов сколько количество возможных дискретных действий. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo critic
соответственно к входным параметрам observationInfo
и actionInfo
, содержа наблюдения и спецификации действия. Здесь, actionInfo
должен быть rlFiniteSetSpec
объект, содержащий технические требования для дискретного пространства действий. Наблюдение называет obsName
должны быть имена входных слоев net
.
создает мультивыходную Q-функцию-ценности critic
= rlQValueRepresentation({basisFcn
,W0
},observationInfo
,actionInfo
)critic
для дискретного пространства действий с помощью пользовательской основной функции в качестве базовой аппроксимации. Первый входной параметр является ячейкой 2D элементов, в которой первый элемент содержит указатель basisFcn
к пользовательской основной функции и второму элементу содержит начальную матрицу веса W0
. Здесь основная функция должна иметь только наблюдения как входные параметры и W0
должен иметь столько же столбцов сколько количество возможных действий. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo critic
соответственно к входным параметрам observationInfo
и actionInfo
.
создает основанный на функции ценности critic
= rlQValueRepresentation(___,options
)critic
использование дополнительной опции установило options
, который является rlRepresentationOptions
объект. Этот синтаксис устанавливает свойство Options critic
к options
входной параметр. Можно использовать этот синтаксис с любой из предыдущих комбинаций входных аргументов.
rlDDPGAgent | Глубоко детерминированный агент обучения с подкреплением градиента политики |
rlTD3Agent | Задержанный близнецами глубоко детерминированный агент обучения с подкреплением градиента политики |
rlDQNAgent | Глубокий агент обучения с подкреплением Q-сети |
rlQAgent | Агент обучения с подкреплением Q-изучения |
rlSARSAAgent | Агент обучения с подкреплением SARSA |
rlSACAgent | Мягкий агент обучения с подкреплением критика агента |
getValue | Получите представление функции ориентировочной стоимости |
getMaxQValue | Получите максимальную оценку функции ценности состояния для представления Q-функции-ценности с дискретным пространством действий |