Политика и Функции Ценности

Задайте представления политики и функции значения в виде глубоких нейронных сетей и Q-таблиц

Политика обучения с подкреплением является отображением, которое выбирает действие, чтобы взять на основе наблюдений из среды. Во время обучения агент настраивает параметры своего представления политики, чтобы максимизировать долгосрочное вознаграждение.

Пакет Reinforcement Learning Toolbox™ обеспечивает объекты для представлений критика и агента. Агент представляет политику, которая выбирает лучшее действие, чтобы взять. Критик представляет функцию значения, которая оценивает значение текущей политики. В зависимости от вашего приложения и выбранного агента, можно задать политику и функции значения с помощью глубоких нейронных сетей, линейных основных функций или интерполяционных таблиц. Для получения дополнительной информации смотрите, Создают политику и Представления Функции Значения.

Функции

развернуть все

rlRepresentationПредставление модели для агентов обучения с подкреплением
rlRepresentationOptionsСоздайте опции для представлений агента обучения с подкреплением
scalingLayerСлой Scaling для агента или сети критика
quadraticLayerКвадратичный слой для агента или сети критика
rlTableТаблица Value или Q-таблица
getActorПолучите представление агента от агента обучения с подкреплением
setActorУстановите представление агента агента обучения с подкреплением
getCriticПолучите представление критика от агента обучения с подкреплением
setCriticУстановите представление критика агента обучения с подкреплением
getLearnableParameterValuesПолучите learnable значения параметров из политики или представления функции значения
setLearnableParameterValuesУстановите learnable значения параметров политики или представления функции значения

Темы

Создайте политику и представления функции значения

Задайте политику и представления функции значения с помощью функции approximators, такие как глубокие нейронные сети.

Импортируйте политику и представления функции значения

Можно импортировать существующие политики из других сред глубокого обучения с помощью формата модели ONNX™.

Для просмотра документации необходимо авторизоваться на сайте