Представление критика Q-функции-ценности для агентов обучения с подкреплением
Этот объект реализует аппроксимацию Q-функции-ценности, которая будет использоваться в качестве критика в агенте обучения с подкреплением. Q-функция-ценности является функцией, которая сопоставляет пару действия наблюдения со скалярным значением, представляющим ожидаемые общие долгосрочные вознаграждения, которые агент, как ожидают, накопит, когда это начнет с заданного наблюдения и выполняет данное действие. Критикам Q-функции-ценности поэтому нужны и наблюдения и в действия как входные параметры. После того, как вы создаете rlQValueRepresentation критик, используйте его, чтобы создать агента, использующего критика Q-функции-ценности, такого как rlQAgent, rlDQNAgent, rlSARSAAgent, rlDDPGAgent, или rlTD3Agent. Для получения дополнительной информации о создании представлений смотрите, Создают Представления Функции ценности и политика.
создает Q-функцию-ценности critic = rlQValueRepresentation(net,observationInfo,actionInfo,'Observation',obsName,'Action',actName)critic.NET глубокая нейронная сеть, используемая в качестве аппроксимации, и должна иметь оба наблюдения и действие как входные параметры и один скалярный выход. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo critic соответственно к входным параметрам observationInfo и actionInfo, содержа наблюдения и спецификации действия. obsName должен содержать имена входных слоев net это сопоставлено со спецификациями наблюдений. Имя действия actName должно быть имя входного слоя net это сопоставлено со спецификациями действия.
создает основанный на Q-функции-ценности critic = rlQValueRepresentation(tab,observationInfo,actionInfo)critic с дискретным действием и пространствами наблюдений из таблицы tab Q-значения. tab rlTable объект, содержащий таблицу со столькими же строк сколько возможные наблюдения и столько же столбцов сколько возможные действия. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo critic соответственно к входным параметрам observationInfo и actionInfo, который должен быть rlFiniteSetSpec объекты, содержащие технические требования для дискретных наблюдений и пространств действий, соответственно.
создает основанный на Q-функции-ценности critic = rlQValueRepresentation({basisFcn,W0},observationInfo,actionInfo)critic использование пользовательской основной функции как базовая аппроксимация. Первый входной параметр является ячейкой 2D элементов, в которой первый элемент содержит указатель basisFcn к пользовательской основной функции и второму элементу содержит начальный вектор веса W0. Здесь основная функция должна иметь оба наблюдения и действие как входные параметры и W0 должен быть вектор-столбец. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo critic соответственно к входным параметрам observationInfo и actionInfo.
создает мультивыходную Q-функцию-ценности critic = rlQValueRepresentation(net,observationInfo,actionInfo,'Observation',obsName)critic
для дискретного пространства действий. net глубокая нейронная сеть, используемая в качестве аппроксимации, и должна иметь только наблюдения, как введено и один выходной слой, имеющий столько же элементов сколько количество возможных дискретных действий. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo critic соответственно к входным параметрам observationInfo и actionInfo, содержа наблюдения и спецификации действия. Здесь, actionInfo должен быть rlFiniteSetSpec объект, содержащий технические требования для дискретного пространства действий. Наблюдение называет obsName должны быть имена входных слоев net.
создает мультивыходную Q-функцию-ценности critic = rlQValueRepresentation({basisFcn,W0},observationInfo,actionInfo)critic
для дискретного пространства действий с помощью пользовательской основной функции в качестве базовой аппроксимации. Первый входной параметр является ячейкой 2D элементов, в которой первый элемент содержит указатель basisFcn к пользовательской основной функции и второму элементу содержит начальную матрицу веса W0. Здесь основная функция должна иметь только наблюдения как входные параметры и W0 должен иметь столько же столбцов сколько количество возможных действий. Этот синтаксис устанавливает свойства ObservationInfo и ActionInfo critic соответственно к входным параметрам observationInfo и actionInfo.
создает основанный на функции ценности critic = rlQValueRepresentation(___,options)critic использование дополнительной опции установило options, который является rlRepresentationOptions объект. Этот синтаксис устанавливает свойство Options critic к options входной параметр. Можно использовать этот синтаксис с любой из предыдущих комбинаций входных аргументов.
rlDDPGAgent | Глубоко детерминированный агент обучения с подкреплением градиента политики |
rlTD3Agent | Задержанный близнецами глубоко детерминированный агент обучения с подкреплением градиента политики |
rlDQNAgent | Глубокий агент обучения с подкреплением Q-сети |
rlQAgent | Агент обучения с подкреплением Q-изучения |
rlSARSAAgent | Агент обучения с подкреплением SARSA |
rlSACAgent | Мягкий агент обучения с подкреплением критика агента |
getValue | Получите представление функции ориентировочной стоимости |
getMaxQValue | Получите максимальную оценку функции ценности состояния для представления Q-функции-ценности с дискретным пространством действий |