Представление критика функции ценности для агентов обучения с подкреплением
Этот объект реализует аппроксимацию функции ценности, которая будет использоваться в качестве критика в агенте обучения с подкреплением. Функция ценности является функцией, которая преобразует наблюдение в скалярное значение. Это выход представляет ожидаемое общее долгосрочное вознаграждение, когда агент начинает с заданного наблюдения и предпринимает лучшее возможное действие. Критикам функции ценности поэтому нужны только наблюдения (но не действия) в качестве входов. После создания rlValueRepresentation критик, используйте его, чтобы создать агента, полагающегося на функцию ценности критика, такого как rlACAgent, rlPGAgent, или rlPPOAgent. Пример этого рабочего процесса см. в разделе Создание представлений актёра и критика. Дополнительные сведения о создании представлений см. в разделах Создание политики и Представления функции ценности.
создает функцию ценности, основанную на critic = rlValueRepresentation(net,observationInfo,'Observation',obsName)critic от глубокой нейронной сети net. Этот синтаксис устанавливает свойство ObservationInfo critic в вход observationInfo. obsName должны содержать имена входных слоев net.
создает функцию ценности, основанную на critic = rlValueRepresentation(tab,observationInfo)critic с дискретным пространством наблюдений из таблицы значений tab, который является rlTable объект, содержащий массив столбцов с таким количеством элементов, как возможные наблюдения. Этот синтаксис устанавливает свойство ObservationInfo critic в вход observationInfo.
создает функцию ценности, основанную на critic = rlValueRepresentation({basisFcn,W0},observationInfo)critic использование пользовательской функции базиса в качестве базовой аппроксимации. Первый входной параметр является камерой с двумя элементами, в которой первый элемент содержит указатель basisFcn в пользовательскую функцию базиса, а второй элемент содержит начальный вектор веса W0. Этот синтаксис устанавливает свойство ObservationInfo critic в вход observationInfo.
создает функцию ценности, основанную на critic = rlValueRepresentation(___,options)critic использование дополнительного набора опций options, который является rlRepresentationOptions объект. Этот синтаксис задает свойство Опций critic на options входной параметр. Можно использовать этот синтаксис с любой из предыдущих комбинаций входных аргументов.
rlACAgent | Агент обучения с подкреплением актёра-критика |
rlPGAgent | Агент обучения с подкреплением с градиентом политики |
rlPPOAgent | Проксимальный агент обучения с подкреплением оптимизации политики |
getValue | Получите расчетное представление функции ценности |