Критическое представление функции оценки для агентов обучения по усилению
Этот объект реализует аппроксиматор функции значения для использования в качестве критика в агенте обучения усилению. Функция значения - это функция, отображающая наблюдение на скалярное значение. Результат представляет собой ожидаемое общее долгосрочное вознаграждение, когда агент начинает с данного наблюдения и предпринимает наилучшее возможное действие. Таким образом, критикам стоимостных функций требуются только наблюдения (но не действия) в качестве входных данных. После создания rlValueRepresentation критик, используйте его для создания агента, полагающегося на критика ценностной функции, такого как rlACAgent, rlPGAgent, или rlPPOAgent. Пример этого рабочего процесса см. в разделе Создание представлений актера и критика. Дополнительные сведения о создании представлений см. в разделе Создание представлений политик и функций значений.
создает функцию значений на основе critic = rlValueRepresentation(net,observationInfo,'Observation',obsName)critic от глубокой нейронной сети net. Этот синтаксис задает свойство ExecutionInfo для critic на вход observationInfo. obsName должен содержать имена входных слоев net.
создает функцию значений на основе critic = rlValueRepresentation(tab,observationInfo)critic с дискретным пространством наблюдения, из таблицы значений tab, который является rlTable объект, содержащий массив столбцов с максимально возможным количеством элементов. Этот синтаксис задает свойство ExecutionInfo для critic на вход observationInfo.
создает функцию значений на основе critic = rlValueRepresentation({basisFcn,W0},observationInfo)critic использование пользовательской базисной функции в качестве базового аппроксиматора. Первый входной аргумент представляет собой двухэлементную ячейку, в которой первый элемент содержит дескриптор basisFcn к пользовательской базисной функции, а второй элемент содержит начальный весовой вектор W0. Этот синтаксис задает свойство ExecutionInfo для critic на вход observationInfo.
создает функцию значений на основе critic = rlValueRepresentation(___,options)critic использование дополнительного набора опций options, который является rlRepresentationOptions объект. Этот синтаксис задает свойство Options для critic в options входной аргумент. Этот синтаксис можно использовать с любой из предыдущих комбинаций входных аргументов.
rlACAgent | Актерско-критический агент по обучению |
rlPGAgent | Агент обучения для усиления градиента политики |
rlPPOAgent | Агент обучения по оптимизации проксимальной политики |
getValue | Получить представление функции расчетного значения |