Политики и функции значения

Задайте политику и представления функции значения, такие как таблицы Q и глубокие нейронные сети

Политика изучения укрепления является отображением, которое выбирает действие, чтобы взять на основе наблюдений из среды. Во время обучения агент настраивает параметры своего представления политики, чтобы максимизировать долгосрочное вознаграждение.

Программное обеспечение Reinforcement Learning Toolbox™ обеспечивает объекты для представлений критика и агента. Агент представляет политику, которая выбирает лучшее действие, чтобы взять. Критик представляет функцию значения, которая оценивает значение текущей политики. В зависимости от вашего приложения и выбранного агента, можно задать политику и функции значения с помощью глубоких нейронных сетей, линейных основных функций или интерполяционных таблиц. Для получения дополнительной информации смотрите, Создают политику и Представления Функции Значения.

Функции

развернуть все

rlRepresentationПредставление модели для агентов изучения укрепления
rlRepresentationOptionsСоздайте опции для укрепления, изучив представления агента
scalingLayerСлой Scaling для агента или сети критика
quadraticLayerКвадратичный слой для агента или сети критика
rlTableТаблица Value или таблица Q
getActorПолучите представление агента от агента изучения укрепления
setActorУстановите представление агента агента изучения укрепления
getCriticПолучите представление критика от агента изучения укрепления
setCriticУстановите представление критика агента изучения укрепления
getLearnableParameterValuesПолучите learnable значения параметров из политики или представления функции значения
setLearnableParameterValuesУстановите learnable значения параметров политики или представления функции значения

Темы

Создайте политику и представления функции значения

Задайте политику и представления функции значения с помощью функции approximators, такие как глубокие нейронные сети.

Импортируйте политику и представления функции значения

Можно импортировать существующие политики из других сред глубокого обучения с помощью формата модели ONNX™.

Для просмотра документации необходимо авторизоваться на сайте