Представление критика функции ценности для агентов обучения с подкреплением
Этот объект реализует аппроксимацию функции ценности, которая будет использоваться в качестве критика в агенте обучения с подкреплением. Функция ценности является функцией, которая сопоставляет наблюдение со скалярным значением. Выход представляет ожидаемое общее долгосрочное вознаграждение, когда агент начинает с заданного наблюдения и принимает самые лучшие меры. Критикам функции ценности поэтому только нужны наблюдения (но не действия) как входные параметры. После того, как вы создаете rlValueRepresentation
критик, используйте его, чтобы создать агента, использующего критика функции ценности, такого как rlACAgent
, rlPGAgent
, или rlPPOAgent
. Для примера этого рабочего процесса смотрите, Создают Представления актёра и критика. Для получения дополнительной информации о создании представлений смотрите, Создают Представления Функции ценности и политика.
создает основанный на функции ценности critic
= rlValueRepresentation(net
,observationInfo
,'Observation',obsName
)critic
от глубокой нейронной сети net
. Этот синтаксис устанавливает свойство ObservationInfo critic
к входу observationInfo
. obsName
должен содержать имена входных слоев net
.
создает основанный на функции ценности critic
= rlValueRepresentation(tab
,observationInfo
)critic
с дискретным пространством наблюдений, из таблицы tab
значения, который является
rlTable
объект, содержащий массив столбца со столькими же элементов сколько возможные наблюдения. Этот синтаксис устанавливает свойство ObservationInfo critic
к входу observationInfo
.
создает основанный на функции ценности critic
= rlValueRepresentation({basisFcn
,W0
},observationInfo
)critic
использование пользовательской основной функции как базовая аппроксимация. Первый входной параметр является ячейкой 2D элементов, в которой первый элемент содержит указатель basisFcn
к пользовательской основной функции и второму элементу содержит начальный вектор веса W0
. Этот синтаксис устанавливает свойство ObservationInfo critic
к входу observationInfo
.
создает основанный на функции ценности critic
= rlValueRepresentation(___,options
)critic
использование дополнительной опции установило options
, который является rlRepresentationOptions
объект. Этот синтаксис устанавливает свойство Options critic
к options
входной параметр. Можно использовать этот синтаксис с любой из предыдущих комбинаций входных аргументов.
rlACAgent | Агент обучения с подкреплением критика агента |
rlPGAgent | Агент обучения с подкреплением градиента политики |
rlPPOAgent | Ближайший агент обучения с подкреплением оптимизации политики |
getValue | Получите представление функции ориентировочной стоимости |