Политика обучения с подкреплением является отображением, которое выбирает действие, которое берётся исходя из наблюдений окружения. Во время обучения агент настраивает параметры своего представления политики, чтобы максимизировать долгосрочное вознаграждение.
Пакет Reinforcement Learning Toolbox™ предоставляет объекты для представлений актёра и критика. Актёр представляет политику, выбирающую лучшее действие, которое должно быть выполнено. Критик представляет функцию ценности, которая оценивает значение текущей политики. В зависимости от вашего приложения и выбранного агента, можно задать политику и функции ценности с помощью глубоких нейронных сетей, линейного базиса функций или интерполяционных таблиц. Для получения дополнительной информации смотрите Создание политики и Представления функции ценности.
Создайте представления политики и функции ценности
Задайте представления политики и функции ценности, используя функциональные аппроксимации, такие как глубокие нейронные сети.
Импортируйте политику и представления функции ценности
Можно импортировать существующие политики из других глубокого обучения сред с помощью ONNX™ формата модели.