Чтобы уменьшать время, требуемое спроектировать пользовательскую нейронную сеть для глубокого обучения, которая соответствует требованиям к производительности, прежде, чем развернуть сеть, анализируют задержки уровня слоя. Сравните эффективность нейронной сети для глубокого обучения на пользовательских настройках процессора потоков двоичных данных к эффективности на ссылке (поставляющей) настройки процессора потоков двоичных данных.
Изучить, как использовать информацию в табличных данных из estimatePerformance
функция, чтобы вычислить вашу производительность сети, смотрите Запуск Вывода Профиля.
В этом примере показано, как вычислить эффективность нейронной сети для глубокого обучения для пользовательской настройки процессора.
Создайте файл в своей текущей рабочей папке под названием getLogoNetwork.m
. В файле, введите:
function net = getLogoNetwork() if ~isfile('LogoNet.mat') url = 'https://www.mathworks.com/supportfiles/gpucoder/cnn_models/logo_detection/LogoNet.mat'; websave('LogoNet.mat',url); end data = load('LogoNet.mat'); net = data.convnet; end
Вызовите функцию и сохраните результат в snet
.
snet = getLogoNetwork;
Создайте dlhdl.ProcessorConfig
объект.
hPC = dlhdl.ProcessorConfig;
Вызовите estimatePerformance
с snet
получать задержки уровня слоя и эффективность для сети LogoNet.
hPC.estimatePerformance(snet)
3 Memory Regions created. Deep Learning Processor Estimator Performance Results LastFrameLatency(cycles) LastFrameLatency(seconds) FramesNum Total Latency Frames/s ------------- ------------- --------- --------- --------- Network 39853460 0.19927 1 39853460 5.0 conv_1 6825287 0.03413 maxpool_1 3755088 0.01878 conv_2 10440701 0.05220 maxpool_2 1447840 0.00724 conv_3 9393397 0.04697 maxpool_3 1765856 0.00883 conv_4 1770484 0.00885 maxpool_4 28098 0.00014 fc_1 2644884 0.01322 fc_2 1692532 0.00846 fc_3 89293 0.00045 * The clock frequency of the DL processor is: 200MHz
Узнать о параметрах и значениях, возвращенных estimatePerformance
, смотрите.
Протестируйте эффективности в сравнении с эталоном нейронной сети для глубокого обучения на пользовательской настройке потока битов путем сравнения его с эффективностью на ссылке (поставляющей) настройку потока битов. Используйте результаты сравнения настроить ваши пользовательские параметры процессора глубокого обучения, чтобы достигнуть оптимальной эффективности.
В этом примере сравнивают эффективность сети ResNet-18 на zcu102_single
настройка потока битов к эффективности на пользовательской настройке потока битов по умолчанию.
Необходимые условия
Пакет поддержки Deep Learning HDL Toolbox™ для FPGA Xilinx и SoC
Deep Learning Toolbox™
Deep Learning HDL Toolbox™
Модель Deep Learning Toolbox для сети ResNet-18
Загрузите предварительно обученную сеть
Загрузите предварительно обученную сеть.
snet = resnet18;
Получите zcu102_single Bitstream Configuration
Получать zcu102_single
настройка потока битов, используйте dlhdl.ProcessorConfig
объект. Для получения дополнительной информации смотрите dlhdl.ProcessorConfig
. Чтобы узнать о модифицируемых параметрах настройки процессора, смотрите getModuleProperty
и setModuleProperty
.
hPC_shipping = dlhdl.ProcessorConfig('Bitstream',"zcu102_single")
hPC_shipping = Processing Module "conv" ConvThreadNumber: 16 InputMemorySize: [227 227 3] OutputMemorySize: [227 227 3] FeatureSizeLimit: 2048 KernelDataType: 'single' Processing Module "fc" FCThreadNumber: 4 InputMemorySize: 25088 OutputMemorySize: 4096 KernelDataType: 'single' Processing Module "adder" InputMemorySize: 40 OutputMemorySize: 40 KernelDataType: 'single' System Level Properties TargetPlatform: 'Xilinx Zynq UltraScale+ MPSoC ZCU102 Evaluation Kit' TargetFrequency: 220 SynthesisTool: 'Xilinx Vivado' ReferenceDesign: 'AXI-Stream DDR Memory Access : 3-AXIM' SynthesisToolChipFamily: 'Zynq UltraScale+' SynthesisToolDeviceName: 'xczu9eg-ffvb1156-2-e' SynthesisToolPackageName: '' SynthesisToolSpeedValue: ''
Оцените эффективность ResNet-18 для zcu102_single
Настройка потока битов
К estimate
эффективность сети ResNet-18 DAG, используйте estimatePerformance
функция dlhdl.ProcessorConfig
объект. Функция возвращает предполагаемую задержку слоя, сетевую задержку и производительность сети в кадрах в секунду (Frames/s).
hPC_shipping.estimatePerformance(snet)
### Optimizing series network: Fused 'nnet.cnn.layer.BatchNormalizationLayer' into 'nnet.cnn.layer.Convolution2DLayer' 5 Memory Regions created. Deep Learning Processor Estimator Performance Results LastFrameLatency(cycles) LastFrameLatency(seconds) FramesNum Total Latency Frames/s ------------- ------------- --------- --------- --------- Network 22576184 0.10262 1 22576184 9.7 ____conv1 2165372 0.00984 ____pool1 646226 0.00294 ____res2a_branch2a 966221 0.00439 ____res2a_branch2b 966221 0.00439 ____res2b_branch2a 966221 0.00439 ____res2b_branch2b 966221 0.00439 ____res3a_branch2a 757716 0.00344 ____res3a_branch2b 919117 0.00418 ____res3a_branch1 540749 0.00246 ____res3b_branch2a 919117 0.00418 ____res3b_branch2b 919117 0.00418 ____res4a_branch2a 509261 0.00231 ____res4a_branch2b 905421 0.00412 ____res4a_branch1 509261 0.00231 ____res4b_branch2a 905421 0.00412 ____res4b_branch2b 905421 0.00412 ____res5a_branch2a 1013837 0.00461 ____res5a_branch2b 1939661 0.00882 ____res5a_branch1 1013837 0.00461 ____res5b_branch2a 1939661 0.00882 ____res5b_branch2b 1939661 0.00882 ____pool5 54594 0.00025 ____fc1000 207850 0.00094 * The clock frequency of the DL processor is: 220MHz
Создайте пользовательскую настройку процессора
Чтобы создать пользовательскую настройку процессора, используйте dlhdl.ProcessorConfig
объект. Для получения дополнительной информации смотрите dlhdl.ProcessorConfig
. Чтобы узнать о модифицируемых параметрах настройки процессора, смотрите getModuleProperty
и setModuleProperty
.
hPC_custom = dlhdl.ProcessorConfig
hPC_custom = Processing Module "conv" ConvThreadNumber: 16 InputMemorySize: [227 227 3] OutputMemorySize: [227 227 3] FeatureSizeLimit: 2048 KernelDataType: 'single' Processing Module "fc" FCThreadNumber: 4 InputMemorySize: 25088 OutputMemorySize: 4096 KernelDataType: 'single' Processing Module "adder" InputMemorySize: 40 OutputMemorySize: 40 KernelDataType: 'single' System Level Properties TargetPlatform: 'Xilinx Zynq UltraScale+ MPSoC ZCU102 Evaluation Kit' TargetFrequency: 200 SynthesisTool: 'Xilinx Vivado' ReferenceDesign: 'AXI-Stream DDR Memory Access : 3-AXIM' SynthesisToolChipFamily: 'Zynq UltraScale+' SynthesisToolDeviceName: 'xczu9eg-ffvb1156-2-e' SynthesisToolPackageName: '' SynthesisToolSpeedValue: ''
Оцените эффективность ResNet-18 для пользовательской настройки потока битов
К estimate
эффективность сети ResNet-18 DAG, используйте estimatePerformance
функция dlhdl.ProcessorConfig
объект. Функция возвращает предполагаемую задержку слоя, сетевую задержку и производительность сети в кадрах в секунду (Frames/s).
hPC_custom.estimatePerformance(snet)
### Optimizing series network: Fused 'nnet.cnn.layer.BatchNormalizationLayer' into 'nnet.cnn.layer.Convolution2DLayer' 5 Memory Regions created. Deep Learning Processor Estimator Performance Results LastFrameLatency(cycles) LastFrameLatency(seconds) FramesNum Total Latency Frames/s ------------- ------------- --------- --------- --------- Network 22575683 0.11288 1 22575683 8.9 ____conv1 2165372 0.01083 ____pool1 646226 0.00323 ____res2a_branch2a 966221 0.00483 ____res2a_branch2b 966221 0.00483 ____res2b_branch2a 966221 0.00483 ____res2b_branch2b 966221 0.00483 ____res3a_branch2a 757716 0.00379 ____res3a_branch2b 919117 0.00460 ____res3a_branch1 540749 0.00270 ____res3b_branch2a 919117 0.00460 ____res3b_branch2b 919117 0.00460 ____res4a_branch2a 509261 0.00255 ____res4a_branch2b 905421 0.00453 ____res4a_branch1 509261 0.00255 ____res4b_branch2a 905421 0.00453 ____res4b_branch2b 905421 0.00453 ____res5a_branch2a 1013837 0.00507 ____res5a_branch2b 1939661 0.00970 ____res5a_branch1 1013837 0.00507 ____res5b_branch2a 1939661 0.00970 ____res5b_branch2b 1939661 0.00970 ____pool5 54594 0.00027 ____fc1000 207349 0.00104 * The clock frequency of the DL processor is: 200MHz
Эффективность сети ResNet-18 на пользовательской настройке потока битов ниже, чем эффективность на zcu102_single
настройка потока битов. Различие между пользовательской настройкой потока битов и zcu102_single
настройка потока битов является целевой частотой.
Измените пользовательскую настройку процессора
Измените пользовательскую настройку процессора, чтобы увеличить целевую частоту. Чтобы узнать о модифицируемых параметрах настройки процессора, смотрите dlhdl.ProcessorConfig
.
hPC_custom.TargetFrequency = 220; hPC_custom
hPC_custom = Processing Module "conv" ConvThreadNumber: 16 InputMemorySize: [227 227 3] OutputMemorySize: [227 227 3] FeatureSizeLimit: 2048 KernelDataType: 'single' Processing Module "fc" FCThreadNumber: 4 InputMemorySize: 25088 OutputMemorySize: 4096 KernelDataType: 'single' Processing Module "adder" InputMemorySize: 40 OutputMemorySize: 40 KernelDataType: 'single' System Level Properties TargetPlatform: 'Xilinx Zynq UltraScale+ MPSoC ZCU102 Evaluation Kit' TargetFrequency: 220 SynthesisTool: 'Xilinx Vivado' ReferenceDesign: 'AXI-Stream DDR Memory Access : 3-AXIM' SynthesisToolChipFamily: 'Zynq UltraScale+' SynthesisToolDeviceName: 'xczu9eg-ffvb1156-2-e' SynthesisToolPackageName: '' SynthesisToolSpeedValue: ''
Повторно оцените эффективность ResNet-18 для модифицированной пользовательской настройки потока битов
Оцените эффективность сети ResNet-18 DAG на модифицированной пользовательской настройке потока битов.
hPC_custom.estimatePerformance(snet)
### Optimizing series network: Fused 'nnet.cnn.layer.BatchNormalizationLayer' into 'nnet.cnn.layer.Convolution2DLayer' 5 Memory Regions created. Deep Learning Processor Estimator Performance Results LastFrameLatency(cycles) LastFrameLatency(seconds) FramesNum Total Latency Frames/s ------------- ------------- --------- --------- --------- Network 22576184 0.10262 1 22576184 9.7 ____conv1 2165372 0.00984 ____pool1 646226 0.00294 ____res2a_branch2a 966221 0.00439 ____res2a_branch2b 966221 0.00439 ____res2b_branch2a 966221 0.00439 ____res2b_branch2b 966221 0.00439 ____res3a_branch2a 757716 0.00344 ____res3a_branch2b 919117 0.00418 ____res3a_branch1 540749 0.00246 ____res3b_branch2a 919117 0.00418 ____res3b_branch2b 919117 0.00418 ____res4a_branch2a 509261 0.00231 ____res4a_branch2b 905421 0.00412 ____res4a_branch1 509261 0.00231 ____res4b_branch2a 905421 0.00412 ____res4b_branch2b 905421 0.00412 ____res5a_branch2a 1013837 0.00461 ____res5a_branch2b 1939661 0.00882 ____res5a_branch1 1013837 0.00461 ____res5b_branch2a 1939661 0.00882 ____res5b_branch2b 1939661 0.00882 ____pool5 54594 0.00025 ____fc1000 207850 0.00094 * The clock frequency of the DL processor is: 220MHz
dlhdl.ProcessorConfig
| estimatePerformance
| estimateResources
| getModuleProperty
| setModuleProperty