Разверните обученные политики обучения с подкреплением

Если вы обучаете агента обучения с подкреплением, можно сгенерировать код, чтобы развернуть оптимальную политику. Можно сгенерировать:

  • Код CUDA® для политик глубокой нейронной сети с помощью GPU Coder™

  • Код C/C++ для таблицы, глубокой нейронной сети или линейных политик основной функции с помощью MATLAB® Coder™

Примечание

Генерация кода для политик глубокой нейронной сети поддерживает только сети с одним входным слоем.

Для получения дополнительной информации об учебных агентах обучения с подкреплением смотрите, Обучают Агентов Обучения с подкреплением.

Создайте функцию оценки политики

Чтобы сгенерировать код для обученной оптимальной политики агента обучения с подкреплением, необходимо сначала создать функцию оценки политики для агента. Можно сгенерировать функцию политики для агента с любым типом объекта представления политики:

  • Значение и Q-таблицы (rlTableRepresentation)

  • Глубокие нейронные сети (rlLayerRepresentation)

  • Линейные основные функции (rlLinearBasisRepresentation)

Для получения дополнительной информации о различных типах политик смотрите, Создают Представления Функции ценности и политика.

Чтобы создать функцию оценки политики, которая выбирает действие на основе заданного наблюдения, используйте generatePolicyFunction команда. Эта команда генерирует скрипт MATLAB, который содержит функцию оценки политики и MAT-файл, который содержит оптимальные данные о политике.

Можно сгенерировать код, чтобы развернуть эту функцию политики использование GPU Coder или MATLAB Coder.

Сгенерируйте код Используя GPU Coder

Если ваша обученная оптимальная политика использует глубокую нейронную сеть, можно сгенерировать код CUDA для политики с помощью GPU Coder. Существуют несколько необходимые и рекомендовали необходимые как условие продукты для генерации кода CUDA для глубоких нейронных сетей. Для получения дополнительной информации смотрите Устанавливающие Необходимые как условие продукты (GPU Coder) и Подготовка Необходимых как условие продуктов (GPU Coder).

Не вся поддержка слоев глубокой нейронной сети генерация кода графического процессора. Для списка поддерживаемых слоев смотрите Поддерживаемые Сети и Слои (GPU Coder). Для получения дополнительной информации и примеры на генерации кода графического процессора, смотрите Глубокое обучение для GPU Coder (GPU Coder).

Сгенерируйте код CUDA для политики глубокой нейронной сети

Как пример, сгенерируйте код графического процессора для агента градиента политики, обученного в, Обучают Агента PG Балансировать Систему Тележки с шестом.

Загрузите обученного агента.

load('MATLABCartpolePG.mat','agent')

Создайте функцию оценки политики для этого агента.

generatePolicyFunction(agent)

Эта команда создает evaluatePolicy.m файл, который содержит функцию политики и agentData.mat файл, который содержит обученного агента глубокой нейронной сети. Для заданного наблюдения функция политики оценивает вероятность для каждого возможного действия с помощью сети агента. Затем функция политики случайным образом выбирает действие на основе этих вероятностей.

Поскольку сеть агента для этого агента PG имеет один входной слой и один выходной слой, можно сгенерировать код для этой сети с помощью GPU Coder. Например, можно сгенерировать совместимую MEX-функцию CUDA.

Сконфигурируйте codegen функция, чтобы создать совместимую MEX-функцию C++ CUDA.

cfg = coder.gpuConfig('mex');
cfg.TargetLang = 'C++';
cfg.DeepLearningConfig = coder.DeepLearningConfig('cudnn');

Установите размерности входного параметра оценки политики, которые соответствуют размерностям спецификации наблюдений для агента. Чтобы найти размерности наблюдения, используйте getObservationInfo функция. В этом случае наблюдения находятся в четырехэлементном векторе.

argstr = '{ones(4,1)}';

Сгенерируйте код с помощью codegen функция.

codegen('-config','cfg','evaluatePolicy','-args',argstr,'-report');

Эта команда генерирует MEX-функцию evaluatePolicy_mex.

Сгенерируйте код Используя MATLAB Coder

Можно сгенерировать код C/C++ для таблицы, глубокой нейронной сети или линейных политик основной функции с помощью MATLAB Coder.

Используя MATLAB Coder, можно сгенерировать:

Сгенерируйте код С для политики Q-таблицы

Как пример, сгенерируйте код С для агента Q-обучения, обученного в, Обучают Агента Обучения с подкреплением в Основном Мире Сетки.

Загрузите обученного агента.

load('basicGWQAgent.mat','qAgent')

Создайте функцию оценки политики для этого агента.

generatePolicyFunction(qAgent)

Эта команда создает evaluatePolicy.m файл, который содержит функцию политики и agentData.mat файл, который содержит обученную функцию ценности Q-таблицы. Для заданного наблюдения функция политики ищет функцию ценности для каждого возможного действия с помощью Q-таблицы. Затем функция политики выбирает действие, для которого функция ценности является самой большой.

Установите размерности входного параметра оценки политики, которые соответствуют размерностям спецификации наблюдений для агента. Чтобы найти размерности наблюдения, используйте getObservationInfo функция. В этом случае существует одно конечное наблюдение.

argstr = '{[1]}';

Сконфигурируйте codegen функция, чтобы сгенерировать встраиваемый код С, подходящий для предназначения для статической библиотеки, и, установила выходную папку на buildFolder.

cfg = coder.config('lib');
outFolder = 'buildFolder';

Сгенерируйте код С с помощью codegen функция.

codegen('-c','-d',outFolder,'-config','cfg',...
    'evaluatePolicy','-args',argstr,'-report');

Смотрите также

Похожие темы