Политики и функции ценности

Задайте представления политики и функции значения в виде глубоких нейронных сетей и Q-таблиц

Политика обучения с подкреплением является отображением, которое выбирает действие, которое берётся исходя из наблюдений окружения. Во время обучения агент настраивает параметры своего представления политики, чтобы максимизировать долгосрочное вознаграждение.

Пакет Reinforcement Learning Toolbox™ обеспечивает объекты для представлений актёра и критика. Актёр представляет политику, выбирающую лучшее действие, которое должно быть применено. Критик представляет функцию ценности, которая оценивает значение текущей политики. В зависимости от вашего приложения и выбранного агента, можно задать политику и функции ценности с помощью глубоких нейронных сетей, линейного базиса функций или интерполяционных таблиц. Для получения дополнительной информации смотрите, Создают Представления Функции ценности и политика.

Функции

развернуть все

rlValueRepresentationПредставление критика функции ценности для агентов обучения с подкреплением
rlQValueRepresentation Представление критика Q-функции-ценности для агентов обучения с подкреплением
rlDeterministicActorRepresentation Детерминированное представление актера для агентов обучения с подкреплением
rlStochasticActorRepresentationСтохастическое представление актера для агентов обучения с подкреплением
rlRepresentationOptionsНабор опций для представлений агента обучения с подкреплением (критики и агенты)
rlTableТаблица Value или Q-таблица
quadraticLayerКвадратичный слой для агента или сети критика
scalingLayerСлой Scaling для агента или сети критика
softplusLayerСлой Softplus для агента или сети критика
getActorПолучите представление актера от агента обучения с подкреплением
setActorУстановите представление актера агента обучения с подкреплением
getCriticПолучите представление критика от агента обучения с подкреплением
setCriticУстановите представление критика агента обучения с подкреплением
getLearnableParametersПолучите значения настраиваемого параметра из представления функции ценности или политики
setLearnableParametersУстановите значения настраиваемого параметра представления функции ценности или политики
getActionПолучите действие из агента или представления актера, данного наблюдения среды
getValueПолучите представление функции ориентировочной стоимости
getMaxQValueПолучите максимальную оценку функции ценности состояния для представления Q-функции-ценности с дискретным пространством действий

Темы

Создайте представления политики и функции ценности

Задайте политику и представления функции ценности с помощью функциональных аппроксимаций, таких как глубокие нейронные сети.

Импортируйте политику и представления функции ценности

Можно импортировать существующие политики из других сред глубокого обучения с помощью формата модели ONNX™.