Политики и функции ценности

Задайте представления политики и функции значения в виде глубоких нейронных сетей и Q-таблиц

Политика обучения с подкреплением является отображением, которое выбирает действие, которое берётся исходя из наблюдений окружения. Во время обучения агент настраивает параметры своего представления политики, чтобы максимизировать долгосрочное вознаграждение.

Пакет Reinforcement Learning Toolbox™ обеспечивает объекты для представлений актёра и критика. Актёр представляет политику, выбирающую лучшее действие, которое должно быть применено. Критик представляет функцию ценности, которая оценивает значение текущей политики. В зависимости от вашего приложения и выбранного агента, можно задать политику и функции ценности с помощью глубоких нейронных сетей, линейного базиса функций или интерполяционных таблиц. Для получения дополнительной информации смотрите, Создают Представления Функции ценности и политика.

Функции

развернуть все

Создайте представления

`rlValueRepresentation`	Представление критика функции ценности для агентов обучения с подкреплением
`rlQValueRepresentation`	Представление критика Q-функции-ценности для агентов обучения с подкреплением
`rlDeterministicActorRepresentation`	Детерминированное представление актера для агентов обучения с подкреплением
`rlStochasticActorRepresentation`	Стохастическое представление актера для агентов обучения с подкреплением
`rlRepresentationOptions`	Набор опций для представлений агента обучения с подкреплением (критики и агенты)
`rlTable`	Таблица Value или Q-таблица

Слои глубокой нейронной сети

`quadraticLayer`	Квадратичный слой для агента или сети критика
`scalingLayer`	Слой Scaling для агента или сети критика
`softplusLayer`	Слой Softplus для агента или сети критика

Доберитесь и представления агента набора

`getActor`	Получите представление актера от агента обучения с подкреплением
`setActor`	Установите представление актера агента обучения с подкреплением
`getCritic`	Получите представление критика от агента обучения с подкреплением
`setCritic`	Установите представление критика агента обучения с подкреплением
`getLearnableParameters`	Получите значения настраиваемого параметра из представления функции ценности или политики
`setLearnableParameters`	Установите значения настраиваемого параметра представления функции ценности или политики

Получите действия и функции ценности

`getAction`	Получите действие из агента или представления актера, данного наблюдения среды
`getValue`	Получите представление функции ориентировочной стоимости
`getMaxQValue`	Получите максимальную оценку функции ценности состояния для представления Q-функции-ценности с дискретным пространством действий

Темы

Создайте представления политики и функции ценности

Задайте политику и представления функции ценности с помощью функциональных аппроксимаций, таких как глубокие нейронные сети.

Импортируйте политику и представления функции ценности

Можно импортировать существующие политики из других сред глубокого обучения с помощью формата модели ONNX™.

Документация Reinforcement Learning Toolbox

Поддержка

Памятка переводчика

1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.

2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.

3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.

4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.

5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.