coder.gpu.kernelfun

Прагма, которая сопоставляет функцию с ядрами графического процессора

Синтаксис

coder.gpu.kernelfun()

Описание

coder.gpu.kernelfun() прагма глобального уровня, которая пытается сопоставить весь расчет в функции, в которой он находится на графическом процессоре. Циклы в этой функции параллелизируются в ядра графического процессора, только если они передают аналитическую проверку параллельного цикла. Этот анализ пытается доказать, что каждая итерация цикла независима друг от друга.

Эта прагма не требует никаких входных параметров. Это генерирует ядра, размерности которых вычисляются автоматически на основе параметров цикла.

Эта функция является функцией генерации кода. Это не оказывает влияния в MATLAB^®.

Примеры

свернуть все

Сгенерируйте код CUDA для функции MATLAB

В этом примере показано, как использовать kernelfun прагма в функции и генерирует код CUDA^®.

В одном файле запишите функции точки входа scalars это признает, что два вектора вводят x,y из размера 1x4096 и один скалярный вход scale. Функция имеет два for- циклы различных длин итерации, один для векторного сложения и один для нахождения совокупной суммы. Поместите coder.gpu.kernelfun() прагма в scalars функция.

function [vout, sout1] = scalars(x,y,scale)
    coder.gpu.kernelfun;
    sout1 = 0;
    vout = coder.nullcopy(zeros(size(x)));
    
    for i=1:1024
        vout(i) = x(i) + y(i);
    end

    for i=1:4096
        sout1 = (x(i)*scale) + sout1;    
    end
end

Используйте codegen функция, чтобы сгенерировать MEX-функцию CUDA.

codegen -config coder.gpuConfig('mex')...
 -args {ones(1,4096,'double'),ones(1,4096,'double'),coder.typeof(0)}...
 -report scalars

GPU Coder создает три ядра: scalars_kernel1 для инициализации sout1=0, scalars_kernel2 для векторного сложения и scalars_kernel3 ядро сокращения за совокупную сумму.

  scalars_kernel1<<<dim3(1U, 1U, 1U), dim3(32U, 1U, 1U)>>>(gpu_sout1);
  cudaMemcpy(gpu_y, y, 32768U, cudaMemcpyHostToDevice);
  cudaMemcpy(gpu_x, x, 32768U, cudaMemcpyHostToDevice);
  scalars_kernel2<<<dim3(2U, 1U, 1U), dim3(512U, 1U, 1U)>>>(gpu_y, gpu_x, gpu_vout);
  scalars_kernel3<<<dim3(8U, 1U, 1U), dim3(512U, 1U, 1U)>>>(scale, gpu_x, gpu_sout1);
  cudaMemcpy(vout, gpu_vout, 32768U, cudaMemcpyDeviceToHost);
  cudaMemcpy(sout1, gpu_sout1, 8U, cudaMemcpyDeviceToHost);

scalars_kernel2 имеет два блока с 512 потоками на блок для в общей сложности 1 024 потоков, один для добавления каждого элемента. Точно так же scalars_kernel3 имеет восемь блоков с 512 потоками на блок, приводящий к в общей сложности 4 096 потокам. GPU Coder также выполняет оптимизацию, которая минимизирует количество cudamMemcpy вызовы функции. В этом примере, копии входа x находится в графическом процессоре, никаком дополнительном cudamMemcpy требуется между scalars_kernel2 и scalars_kernel3. В дополнение к оптимизации памяти любой последовательный код между ядрами сопоставлен с потоками CUDA, чтобы сохранить данные по графическому процессору.

Темы

Введенный в R2017b

Документация GPU Coder

Поддержка

Памятка переводчика

1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.

2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.

3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.

4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.

5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.

Документация