exponenta event banner

Политики и функции ценности

Определение представлений политик и функций значений, таких как глубокие нейронные сети и таблицы Q

Политика обучения усилению - это отображение, которое выбирает действие на основе наблюдений из среды. Во время обучения агент настраивает параметры своего политического представления, чтобы максимизировать долгосрочное вознаграждение.

Программа Toolbox™ обучения усилению предоставляет объекты для представлений актера и критика. Актер представляет политику, которая выбирает наилучшее действие. Критик представляет функцию стоимости, которая оценивает ценность текущей политики. В зависимости от приложения и выбранного агента можно определить функции политик и значений с помощью глубоких нейронных сетей, линейных базисных функций или таблиц поиска. Дополнительные сведения см. в разделе Создание представлений политик и функций значений.

Функции

развернуть все

rlValueRepresentationКритическое представление функции оценки для агентов обучения по усилению
rlQValueRepresentation Критическое представление функции Q-Value для агентов обучения усиления
rlDeterministicActorRepresentation Детерминированное представление акторов для усиливающих обучающих агентов
rlStochasticActorRepresentationСтохастическое представление актера для усиливающих обучающих агентов
rlRepresentationOptionsВыбор вариантов усиления представлений обучающих агентов (критиков и актеров)
rlTableТаблица значений или таблица Q
quadraticLayerКвадратичный слой для актера или критика сети
scalingLayerУровень масштабирования для сети актеров или критиков
softplusLayerСлой Softplus для актера или критика сети
getActorПолучение представления актера от обучающего агента усиления
setActorЗадать представление актора обучающего агента усиления
getCriticПолучение критического представления от агента обучения усиления
setCriticЗадать критическое представление агента обучения усилению
getLearnableParametersПолучение узнаваемых значений параметров из представления политики или функции значений
setLearnableParametersУстановка значений обучаемых параметров для представления политики или функции значений
getModelПолучение вычислительной модели из представления политики или функции значения
setModelЗадать вычислительную модель для представления политики или функции значения
getActionПолучить действие от агента или актора при наблюдении за окружающей средой
getValueПолучить представление функции расчетного значения
getMaxQValueПолучить максимальную оценку функции состояния-значения для представления функции Q-значения с дискретным пространством действия

Темы

Создание представлений политик и ценностных функций

Укажите представления функций политики и значения, используя аппроксиматоры функций, такие как глубокие нейронные сети.

Импорт представлений политик и ценностных функций

Существующие политики можно импортировать из других структур глубокого обучения с использованием формата модели ONNX™.