Представление критика функции ценности для агентов обучения с подкреплением
Этот объект реализует аппроксимацию функции ценности, которая будет использоваться в качестве критика в агенте обучения с подкреплением. Функция ценности является функцией, которая преобразует наблюдение в скалярное значение. Это выход представляет ожидаемое общее долгосрочное вознаграждение, когда агент начинает с заданного наблюдения и предпринимает лучшее возможное действие. Критикам функции ценности поэтому нужны только наблюдения (но не действия) в качестве входов. После создания rlValueRepresentation
критик, используйте его, чтобы создать агента, полагающегося на функцию ценности критика, такого как rlACAgent
, rlPGAgent
, или rlPPOAgent
. Пример этого рабочего процесса см. в разделе Создание представлений актёра и критика. Дополнительные сведения о создании представлений см. в разделах Создание политики и Представления функции ценности.
создает функцию ценности, основанную на critic
= rlValueRepresentation(net
,observationInfo
,'Observation',obsName
)critic
от глубокой нейронной сети net
. Этот синтаксис устанавливает свойство ObservationInfo critic
в вход observationInfo
. obsName
должны содержать имена входных слоев net
.
создает функцию ценности, основанную на critic
= rlValueRepresentation(tab
,observationInfo
)critic
с дискретным пространством наблюдений из таблицы значений tab
, который является rlTable
объект, содержащий массив столбцов с таким количеством элементов, как возможные наблюдения. Этот синтаксис устанавливает свойство ObservationInfo critic
в вход observationInfo
.
создает функцию ценности, основанную на critic
= rlValueRepresentation({basisFcn
,W0
},observationInfo
)critic
использование пользовательской функции базиса в качестве базовой аппроксимации. Первый входной параметр является камерой с двумя элементами, в которой первый элемент содержит указатель basisFcn
в пользовательскую функцию базиса, а второй элемент содержит начальный вектор веса W0
. Этот синтаксис устанавливает свойство ObservationInfo critic
в вход observationInfo
.
создает функцию ценности, основанную на critic
= rlValueRepresentation(___,options
)critic
использование дополнительного набора опций options
, который является rlRepresentationOptions
объект. Этот синтаксис задает свойство Опций critic
на options
входной параметр. Можно использовать этот синтаксис с любой из предыдущих комбинаций входных аргументов.
rlACAgent | Агент обучения с подкреплением актёра-критика |
rlPGAgent | Агент обучения с подкреплением с градиентом политики |
rlPPOAgent | Проксимальный агент обучения с подкреплением оптимизации политики |
getValue | Получите расчетное представление функции ценности |