Политика обучения с подкреплением является отображением, которое выбирает действие, чтобы взять на основе наблюдений из среды. Во время обучения агент настраивает параметры своего представления политики, чтобы максимизировать долгосрочное вознаграждение.
Пакет Reinforcement Learning Toolbox™ обеспечивает объекты для представлений критика и агента. Агент представляет политику, которая выбирает лучшее действие, чтобы взять. Критик представляет функцию значения, которая оценивает значение текущей политики. В зависимости от вашего приложения и выбранного агента, можно задать политику и функции значения с помощью глубоких нейронных сетей, линейных основных функций или интерполяционных таблиц. Для получения дополнительной информации смотрите, Создают политику и Представления Функции Значения.
Создайте политику и представления функции значения
Задайте политику и представления функции значения с помощью функции approximators, такие как глубокие нейронные сети.
Импортируйте политику и представления функции значения
Можно импортировать существующие политики из других сред глубокого обучения с помощью формата модели ONNX™.