Политика изучения укрепления является отображением, которое выбирает действие, чтобы взять на основе наблюдений из среды. Во время обучения агент настраивает параметры своего представления политики, чтобы максимизировать долгосрочное вознаграждение.
Программное обеспечение Reinforcement Learning Toolbox™ обеспечивает объекты для представлений критика и агента. Агент представляет политику, которая выбирает лучшее действие, чтобы взять. Критик представляет функцию значения, которая оценивает значение текущей политики. В зависимости от вашего приложения и выбранного агента, можно задать политику и функции значения с помощью глубоких нейронных сетей, линейных основных функций или интерполяционных таблиц. Для получения дополнительной информации смотрите, Создают политику и Представления Функции Значения.
Создайте политику и представления функции значения
Задайте политику и представления функции значения с помощью функции approximators, такие как глубокие нейронные сети.
Импортируйте политику и представления функции значения
Можно импортировать существующие политики из других сред глубокого обучения с помощью формата модели ONNX™.