Политики и функции ценности

Задайте представления политики и функции ценности в виде глубоких нейронных сетей и Q-таблиц

Политика обучения с подкреплением является отображением, которое выбирает действие, которое берётся исходя из наблюдений окружения. Во время обучения агент настраивает параметры своего представления политики, чтобы максимизировать долгосрочное вознаграждение.

Пакет Reinforcement Learning Toolbox™ предоставляет объекты для представлений актёра и критика. Актёр представляет политику, выбирающую лучшее действие, которое должно быть выполнено. Критик представляет функцию ценности, которая оценивает значение текущей политики. В зависимости от вашего приложения и выбранного агента, можно задать политику и функции ценности с помощью глубоких нейронных сетей, линейного базиса функций или интерполяционных таблиц. Для получения дополнительной информации смотрите Создание политики и Представления функции ценности.

Функции

расширить все

rlValueRepresentationПредставление критика функции ценности для агентов обучения с подкреплением
rlQValueRepresentation Представление Q-функции критика для агентов обучения с подкреплением
rlDeterministicActorRepresentation Детерминированное представление актера для агентов обучения с подкреплением
rlStochasticActorRepresentationСтохастическое представление актера для агентов обучения с подкреплением
rlRepresentationOptionsНабор опций для представлений агента обучения с подкреплением (критики и актёры)
rlTableТаблица значений или Q-таблица
quadraticLayerКвадратичный слой для сети актёра или критика
scalingLayerСлой масштабирования для сети актёра или критика
softplusLayerСлой Softplus для сети актёра или критика
getActorПолучите представление актера от агента обучения с подкреплением
setActorУстановите представление актера агента обучения с подкреплением
getCriticПолучите представление критика от агента обучения с подкреплением
setCriticУстановите представление критика агента обучения с подкреплением
getLearnableParametersПолучите настраиваемый параметр значения из политики или представления функции ценности
setLearnableParametersУстановите настраиваемые параметры политики или представления функции ценности
getModelПолучите вычислительную модель из политики или представления функции ценности
setModelУстановите вычислительную модель для представления политики или функции ценности
getActionПолучите действие от агента или представления актера заданных наблюдений окружения
getValueПолучите расчетное представление функции ценности
getMaxQValueПолучите максимальную оценку функции состояния для представления функции Q-значения с дискретным пространством действий

Темы

Создайте представления политики и функции ценности

Задайте представления политики и функции ценности, используя функциональные аппроксимации, такие как глубокие нейронные сети.

Импортируйте политику и представления функции ценности

Можно импортировать существующие политики из других глубокого обучения сред с помощью ONNX™ формата модели.