Если вы обучаете агента обучения с подкреплением, можно сгенерировать код, чтобы развернуть оптимальную политику. Можно сгенерировать:
Код CUDA® для политик глубокой нейронной сети с помощью GPU Coder™
Код C/C++ для таблицы, глубокой нейронной сети или линейных политик основной функции с помощью MATLAB® Coder™
Примечание
Генерация кода для политик глубокой нейронной сети поддерживает только сети с одним входным слоем.
Для получения дополнительной информации об учебных агентах обучения с подкреплением смотрите, Обучают Агентов Обучения с подкреплением.
Чтобы создать функцию оценки политики, которая выбирает действие на основе заданного наблюдения, используйте generatePolicyFunction
команда. Эта команда генерирует скрипт MATLAB, который содержит функцию оценки политики и MAT-файл, который содержит оптимальные данные о политике.
Можно сгенерировать код, чтобы развернуть эту функцию политики использование GPU Coder или MATLAB Coder.
Если ваша обученная оптимальная политика использует глубокую нейронную сеть, можно сгенерировать код CUDA для политики с помощью GPU Coder. Существуют несколько необходимые и рекомендовали необходимые как условие продукты для генерации кода CUDA для глубоких нейронных сетей. Для получения дополнительной информации смотрите Устанавливающие Необходимые как условие продукты (GPU Coder) и Подготовка Необходимых как условие продуктов (GPU Coder).
Не вся поддержка слоев глубокой нейронной сети генерация кода графического процессора. Для списка поддерживаемых слоев смотрите Поддерживаемые Сети и Слои (GPU Coder). Для получения дополнительной информации и примеры на генерации кода графического процессора, смотрите Глубокое обучение для GPU Coder (GPU Coder).
Как пример, сгенерируйте код графического процессора для агента градиента политики, обученного в, Обучают Агента PG Балансировать Систему Тележки с шестом.
Загрузите обученного агента.
load('MATLABCartpolePG.mat','agent')
Создайте функцию оценки политики для этого агента.
generatePolicyFunction(agent)
Эта команда создает evaluatePolicy.m
файл, который содержит функцию политики и agentData.mat
файл, который содержит обученного агента глубокой нейронной сети. Для заданного наблюдения функция политики оценивает вероятность для каждого возможного действия с помощью сети агента. Затем функция политики случайным образом выбирает действие на основе этих вероятностей.
Поскольку сеть агента для этого агента PG имеет один входной слой и один выходной слой, можно сгенерировать код для этой сети с помощью GPU Coder. Например, можно сгенерировать совместимую MEX-функцию CUDA.
Сконфигурируйте codegen
функция, чтобы создать совместимую MEX-функцию C++ CUDA.
cfg = coder.gpuConfig('mex'); cfg.TargetLang = 'C++'; cfg.DeepLearningConfig = coder.DeepLearningConfig('cudnn');
Установите размерности входного параметра оценки политики, которые соответствуют размерностям спецификации наблюдений для агента. Чтобы найти размерности наблюдения, используйте getObservationInfo
функция. В этом случае наблюдения находятся в четырехэлементном векторе.
argstr = '{ones(4,1)}';
Сгенерируйте код с помощью codegen
функция.
codegen('-config','cfg','evaluatePolicy','-args',argstr,'-report');
Эта команда генерирует MEX-функцию evaluatePolicy_mex
.
Можно сгенерировать код C/C++ для таблицы, глубокой нейронной сети или линейных политик основной функции с помощью MATLAB Coder.
Используя MATLAB Coder, можно сгенерировать:
Код C/C++ для политик, которые используют Q-таблицы, таблицы значения или линейные основные функции. Для получения дополнительной информации об общей генерации кода C/C++ см. Генерирующийся Код (MATLAB Coder).
Код С++ для политик то использование глубокие нейронные сети. Для получения дополнительной информации смотрите Необходимые условия для Глубокого обучения для MATLAB Coder (MATLAB Coder) и Глубокое обучение для MATLAB Coder (MATLAB Coder).
Как пример, сгенерируйте код С для агента градиента политики, обученного в, Обучают Агента PG Балансировать Систему Тележки с шестом.
Загрузите обученного агента.
load('MATLABCartpolePG.mat','agent')
Создайте функцию оценки политики для этого агента.
generatePolicyFunction(agent)
Эта команда создает evaluatePolicy.m
файл, который содержит функцию политики и agentData.mat
файл, который содержит обученного агента глубокой нейронной сети. Для заданного наблюдения функция политики оценивает вероятность для каждого возможного действия с помощью сети агента. Затем функция политики случайным образом выбирает действие на основе этих вероятностей.
Сконфигурируйте codegen
функция, чтобы сгенерировать код, подходящий для предназначения для статической библиотеки.
cfg = coder.config('lib');
На объекте настройки, набор выходной язык на C++ и набор DeepLearningConfig
к целевой библиотеке 'mkldnn
'. Эта опция генерирует код с помощью Math Kernel Library Intel для Глубоких нейронных сетей (Intel MKL-DNN).
cfg.TargetLang = 'C++'; cfg.DeepLearningConfig = coder.DeepLearningConfig('mkldnn');
Установите размерности входного параметра оценки политики, которые соответствуют размерностям спецификации наблюдений для агента. Чтобы найти размерности наблюдения, используйте getObservationInfo
функция. В этом случае наблюдения находятся в четырехэлементном векторе.
argstr = '{ones(4,1)}';
Сгенерируйте код с помощью codegen
функция.
codegen('-config','cfg','evaluatePolicy','-args',argstr,'-report');
Эта команда генерирует Код С++ для агента градиента политики, содержащего агента глубокой нейронной сети.
Как пример, сгенерируйте код С для агента Q-обучения, обученного в, Обучают Агента Обучения с подкреплением в Основном Мире Сетки.
Загрузите обученного агента.
load('basicGWQAgent.mat','qAgent')
Создайте функцию оценки политики для этого агента.
generatePolicyFunction(qAgent)
Эта команда создает evaluatePolicy.m
файл, который содержит функцию политики и agentData.mat
файл, который содержит обученную функцию ценности Q-таблицы. Для заданного наблюдения функция политики ищет функцию ценности для каждого возможного действия с помощью Q-таблицы. Затем функция политики выбирает действие, для которого функция ценности является самой большой.
Установите размерности входного параметра оценки политики, которые соответствуют размерностям спецификации наблюдений для агента. Чтобы найти размерности наблюдения, используйте getObservationInfo
функция. В этом случае существует одно конечное наблюдение.
argstr = '{[1]}';
Сконфигурируйте codegen
функция, чтобы сгенерировать встраиваемый код С, подходящий для предназначения для статической библиотеки, и, установила выходную папку на buildFolder
.
cfg = coder.config('lib'); outFolder = 'buildFolder';
Сгенерируйте код С с помощью codegen
функция.
codegen('-c','-d',outFolder,'-config','cfg',... 'evaluatePolicy','-args',argstr,'-report');