Чтобы уменьшать время, требуемое спроектировать пользовательскую нейронную сеть для глубокого обучения, которая соответствует требованиям к производительности, прежде, чем развернуть сеть, анализируют задержки уровня слоя. Сравните эффективность нейронной сети для глубокого обучения на пользовательских настройках процессора потоков двоичных данных к эффективности на ссылке (поставляющей) настройки процессора потоков двоичных данных.
Изучить, как использовать информацию в табличных данных из estimatePerformance функция, чтобы вычислить вашу производительность сети, смотрите Запуск Вывода Профиля.
В этом примере показано, как вычислить эффективность нейронной сети для глубокого обучения для пользовательской настройки процессора.
Создайте файл в своей текущей рабочей папке под названием getLogoNetwork.m. В файле, введите:
function net = getLogoNetwork() if ~isfile('LogoNet.mat') url = 'https://www.mathworks.com/supportfiles/gpucoder/cnn_models/logo_detection/LogoNet.mat'; websave('LogoNet.mat',url); end data = load('LogoNet.mat'); net = data.convnet; end
Вызовите функцию и сохраните результат в snet.
snet = getLogoNetwork;
Создайте dlhdl.ProcessorConfig объект.
hPC = dlhdl.ProcessorConfig;
Вызовите estimatePerformance с snet получать задержки уровня слоя и эффективность для сети LogoNet.
hPC.estimatePerformance(snet)
3 Memory Regions created.
Deep Learning Processor Estimator Performance Results
LastFrameLatency(cycles) LastFrameLatency(seconds) FramesNum Total Latency Frames/s
------------- ------------- --------- --------- ---------
Network 39853460 0.19927 1 39853460 5.0
conv_1 6825287 0.03413
maxpool_1 3755088 0.01878
conv_2 10440701 0.05220
maxpool_2 1447840 0.00724
conv_3 9393397 0.04697
maxpool_3 1765856 0.00883
conv_4 1770484 0.00885
maxpool_4 28098 0.00014
fc_1 2644884 0.01322
fc_2 1692532 0.00846
fc_3 89293 0.00045
* The clock frequency of the DL processor is: 200MHzУзнать о параметрах и значениях, возвращенных estimatePerformance, смотрите.
Протестируйте эффективности в сравнении с эталоном нейронной сети для глубокого обучения на пользовательской настройке потока битов путем сравнения его с эффективностью на ссылке (поставляющей) настройку потока битов. Используйте результаты сравнения настроить ваши пользовательские параметры процессора глубокого обучения, чтобы достигнуть оптимальной эффективности.
В этом примере сравнивают эффективность сети ResNet-18 на zcu102_single настройка потока битов к эффективности на пользовательской настройке потока битов по умолчанию.
Необходимые условия
Пакет поддержки Deep Learning HDL Toolbox™ для FPGA Xilinx и SoC
Deep Learning Toolbox™
Deep Learning HDL Toolbox™
Модель Deep Learning Toolbox для сети ResNet-18
Загрузите предварительно обученную сеть
Загрузите предварительно обученную сеть.
snet = resnet18;
Получите zcu102_single Bitstream Configuration
Получать zcu102_single настройка потока битов, используйте dlhdl.ProcessorConfig объект. Для получения дополнительной информации смотрите dlhdl.ProcessorConfig. Чтобы узнать о модифицируемых параметрах настройки процессора, смотрите getModuleProperty и setModuleProperty.
hPC_shipping = dlhdl.ProcessorConfig('Bitstream',"zcu102_single")
hPC_shipping =
Processing Module "conv"
ConvThreadNumber: 16
InputMemorySize: [227 227 3]
OutputMemorySize: [227 227 3]
FeatureSizeLimit: 2048
KernelDataType: 'single'
Processing Module "fc"
FCThreadNumber: 4
InputMemorySize: 25088
OutputMemorySize: 4096
KernelDataType: 'single'
Processing Module "adder"
InputMemorySize: 40
OutputMemorySize: 40
KernelDataType: 'single'
System Level Properties
TargetPlatform: 'Xilinx Zynq UltraScale+ MPSoC ZCU102 Evaluation Kit'
TargetFrequency: 220
SynthesisTool: 'Xilinx Vivado'
ReferenceDesign: 'AXI-Stream DDR Memory Access : 3-AXIM'
SynthesisToolChipFamily: 'Zynq UltraScale+'
SynthesisToolDeviceName: 'xczu9eg-ffvb1156-2-e'
SynthesisToolPackageName: ''
SynthesisToolSpeedValue: ''
Оцените эффективность ResNet-18 для zcu102_single Настройка потока битов
К estimate эффективность сети ResNet-18 DAG, используйте estimatePerformance функция dlhdl.ProcessorConfig объект. Функция возвращает предполагаемую задержку слоя, сетевую задержку и производительность сети в кадрах в секунду (Frames/s).
hPC_shipping.estimatePerformance(snet)
### Optimizing series network: Fused 'nnet.cnn.layer.BatchNormalizationLayer' into 'nnet.cnn.layer.Convolution2DLayer'
5 Memory Regions created.
Deep Learning Processor Estimator Performance Results
LastFrameLatency(cycles) LastFrameLatency(seconds) FramesNum Total Latency Frames/s
------------- ------------- --------- --------- ---------
Network 22576184 0.10262 1 22576184 9.7
____conv1 2165372 0.00984
____pool1 646226 0.00294
____res2a_branch2a 966221 0.00439
____res2a_branch2b 966221 0.00439
____res2b_branch2a 966221 0.00439
____res2b_branch2b 966221 0.00439
____res3a_branch2a 757716 0.00344
____res3a_branch2b 919117 0.00418
____res3a_branch1 540749 0.00246
____res3b_branch2a 919117 0.00418
____res3b_branch2b 919117 0.00418
____res4a_branch2a 509261 0.00231
____res4a_branch2b 905421 0.00412
____res4a_branch1 509261 0.00231
____res4b_branch2a 905421 0.00412
____res4b_branch2b 905421 0.00412
____res5a_branch2a 1013837 0.00461
____res5a_branch2b 1939661 0.00882
____res5a_branch1 1013837 0.00461
____res5b_branch2a 1939661 0.00882
____res5b_branch2b 1939661 0.00882
____pool5 54594 0.00025
____fc1000 207850 0.00094
* The clock frequency of the DL processor is: 220MHz
Создайте пользовательскую настройку процессора
Чтобы создать пользовательскую настройку процессора, используйте dlhdl.ProcessorConfig объект. Для получения дополнительной информации смотрите dlhdl.ProcessorConfig. Чтобы узнать о модифицируемых параметрах настройки процессора, смотрите getModuleProperty и setModuleProperty.
hPC_custom = dlhdl.ProcessorConfig
hPC_custom =
Processing Module "conv"
ConvThreadNumber: 16
InputMemorySize: [227 227 3]
OutputMemorySize: [227 227 3]
FeatureSizeLimit: 2048
KernelDataType: 'single'
Processing Module "fc"
FCThreadNumber: 4
InputMemorySize: 25088
OutputMemorySize: 4096
KernelDataType: 'single'
Processing Module "adder"
InputMemorySize: 40
OutputMemorySize: 40
KernelDataType: 'single'
System Level Properties
TargetPlatform: 'Xilinx Zynq UltraScale+ MPSoC ZCU102 Evaluation Kit'
TargetFrequency: 200
SynthesisTool: 'Xilinx Vivado'
ReferenceDesign: 'AXI-Stream DDR Memory Access : 3-AXIM'
SynthesisToolChipFamily: 'Zynq UltraScale+'
SynthesisToolDeviceName: 'xczu9eg-ffvb1156-2-e'
SynthesisToolPackageName: ''
SynthesisToolSpeedValue: ''
Оцените эффективность ResNet-18 для пользовательской настройки потока битов
К estimate эффективность сети ResNet-18 DAG, используйте estimatePerformance функция dlhdl.ProcessorConfig объект. Функция возвращает предполагаемую задержку слоя, сетевую задержку и производительность сети в кадрах в секунду (Frames/s).
hPC_custom.estimatePerformance(snet)
### Optimizing series network: Fused 'nnet.cnn.layer.BatchNormalizationLayer' into 'nnet.cnn.layer.Convolution2DLayer'
5 Memory Regions created.
Deep Learning Processor Estimator Performance Results
LastFrameLatency(cycles) LastFrameLatency(seconds) FramesNum Total Latency Frames/s
------------- ------------- --------- --------- ---------
Network 22575683 0.11288 1 22575683 8.9
____conv1 2165372 0.01083
____pool1 646226 0.00323
____res2a_branch2a 966221 0.00483
____res2a_branch2b 966221 0.00483
____res2b_branch2a 966221 0.00483
____res2b_branch2b 966221 0.00483
____res3a_branch2a 757716 0.00379
____res3a_branch2b 919117 0.00460
____res3a_branch1 540749 0.00270
____res3b_branch2a 919117 0.00460
____res3b_branch2b 919117 0.00460
____res4a_branch2a 509261 0.00255
____res4a_branch2b 905421 0.00453
____res4a_branch1 509261 0.00255
____res4b_branch2a 905421 0.00453
____res4b_branch2b 905421 0.00453
____res5a_branch2a 1013837 0.00507
____res5a_branch2b 1939661 0.00970
____res5a_branch1 1013837 0.00507
____res5b_branch2a 1939661 0.00970
____res5b_branch2b 1939661 0.00970
____pool5 54594 0.00027
____fc1000 207349 0.00104
* The clock frequency of the DL processor is: 200MHz
Эффективность сети ResNet-18 на пользовательской настройке потока битов ниже, чем эффективность на zcu102_single настройка потока битов. Различие между пользовательской настройкой потока битов и zcu102_single настройка потока битов является целевой частотой.
Измените пользовательскую настройку процессора
Измените пользовательскую настройку процессора, чтобы увеличить целевую частоту. Чтобы узнать о модифицируемых параметрах настройки процессора, смотрите dlhdl.ProcessorConfig.
hPC_custom.TargetFrequency = 220; hPC_custom
hPC_custom =
Processing Module "conv"
ConvThreadNumber: 16
InputMemorySize: [227 227 3]
OutputMemorySize: [227 227 3]
FeatureSizeLimit: 2048
KernelDataType: 'single'
Processing Module "fc"
FCThreadNumber: 4
InputMemorySize: 25088
OutputMemorySize: 4096
KernelDataType: 'single'
Processing Module "adder"
InputMemorySize: 40
OutputMemorySize: 40
KernelDataType: 'single'
System Level Properties
TargetPlatform: 'Xilinx Zynq UltraScale+ MPSoC ZCU102 Evaluation Kit'
TargetFrequency: 220
SynthesisTool: 'Xilinx Vivado'
ReferenceDesign: 'AXI-Stream DDR Memory Access : 3-AXIM'
SynthesisToolChipFamily: 'Zynq UltraScale+'
SynthesisToolDeviceName: 'xczu9eg-ffvb1156-2-e'
SynthesisToolPackageName: ''
SynthesisToolSpeedValue: ''
Повторно оцените эффективность ResNet-18 для модифицированной пользовательской настройки потока битов
Оцените эффективность сети ResNet-18 DAG на модифицированной пользовательской настройке потока битов.
hPC_custom.estimatePerformance(snet)
### Optimizing series network: Fused 'nnet.cnn.layer.BatchNormalizationLayer' into 'nnet.cnn.layer.Convolution2DLayer'
5 Memory Regions created.
Deep Learning Processor Estimator Performance Results
LastFrameLatency(cycles) LastFrameLatency(seconds) FramesNum Total Latency Frames/s
------------- ------------- --------- --------- ---------
Network 22576184 0.10262 1 22576184 9.7
____conv1 2165372 0.00984
____pool1 646226 0.00294
____res2a_branch2a 966221 0.00439
____res2a_branch2b 966221 0.00439
____res2b_branch2a 966221 0.00439
____res2b_branch2b 966221 0.00439
____res3a_branch2a 757716 0.00344
____res3a_branch2b 919117 0.00418
____res3a_branch1 540749 0.00246
____res3b_branch2a 919117 0.00418
____res3b_branch2b 919117 0.00418
____res4a_branch2a 509261 0.00231
____res4a_branch2b 905421 0.00412
____res4a_branch1 509261 0.00231
____res4b_branch2a 905421 0.00412
____res4b_branch2b 905421 0.00412
____res5a_branch2a 1013837 0.00461
____res5a_branch2b 1939661 0.00882
____res5a_branch1 1013837 0.00461
____res5b_branch2a 1939661 0.00882
____res5b_branch2b 1939661 0.00882
____pool5 54594 0.00025
____fc1000 207850 0.00094
* The clock frequency of the DL processor is: 220MHz
dlhdl.ProcessorConfig | estimatePerformance | estimateResources | getModuleProperty | setModuleProperty