Политика обучения усилению - это отображение, которое выбирает действие на основе наблюдений из среды. Во время обучения агент настраивает параметры своего политического представления, чтобы максимизировать долгосрочное вознаграждение.
Программа Toolbox™ обучения усилению предоставляет объекты для представлений актера и критика. Актер представляет политику, которая выбирает наилучшее действие. Критик представляет функцию стоимости, которая оценивает ценность текущей политики. В зависимости от приложения и выбранного агента можно определить функции политик и значений с помощью глубоких нейронных сетей, линейных базисных функций или таблиц поиска. Дополнительные сведения см. в разделе Создание представлений политик и функций значений.
Создание представлений политик и ценностных функций
Укажите представления функций политики и значения, используя аппроксиматоры функций, такие как глубокие нейронные сети.
Импорт представлений политик и ценностных функций
Существующие политики можно импортировать из других структур глубокого обучения с использованием формата модели ONNX™.