Политика обучения с подкреплением является отображением, которое выбирает действие, которое берётся исходя из наблюдений окружения. Во время обучения агент настраивает параметры своего представления политики, чтобы максимизировать долгосрочное вознаграждение.
Пакет Reinforcement Learning Toolbox™ обеспечивает объекты для представлений актёра и критика. Актёр представляет политику, выбирающую лучшее действие, которое должно быть применено. Критик представляет функцию ценности, которая оценивает значение текущей политики. В зависимости от вашего приложения и выбранного агента, можно задать политику и функции ценности с помощью глубоких нейронных сетей, линейного базиса функций или интерполяционных таблиц. Для получения дополнительной информации смотрите, Создают Представления Функции ценности и политика.
Создайте представления политики и функции ценности
Задайте политику и представления функции ценности с помощью функциональных аппроксимаций, таких как глубокие нейронные сети.
Импортируйте политику и представления функции ценности
Можно импортировать существующие политики из других сред глубокого обучения с помощью формата модели ONNX™.