Этот пример умножает две матрицы A
и B
при помощи библиотеки cuBLAS. MATLAB® Реализация GEneral Matrix-Matrix Multiplication (GEMM) является:
function [C] = blas_gemm(A,B) C = zeros(size(A)); C = A * B; end
Когда вы генерируете CUDA® код, GPU Coder™ создает вызовы функций для инициализации библиотеки cuBLAS, выполнения матричных операций и релиза аппаратных ресурсов, используемых библиотекой cuBLAS. Ниже представлен фрагмент сгенерированного кода CUDA.
cublasEnsureInitialization(); blas_gemm_kernel1<<<dim3(2048U, 1U, 1U), dim3(512U, 1U, 1U)>>>(gpu_C); alpha1 = 1.0; beta1 = 0.0; cudaMemcpy((void *)gpu_alpha1, (void *)&alpha1, 8ULL, cudaMemcpyHostToDevice); cudaMemcpy((void *)gpu_A, (void *)A, 8388608ULL, cudaMemcpyHostToDevice); cudaMemcpy((void *)gpu_B, (void *)B, 8388608ULL, cudaMemcpyHostToDevice); cudaMemcpy(gpu_beta1, &beta1, 8ULL, cudaMemcpyHostToDevice); cublasDgemm(cublasGlobalHandle, CUBLAS_OP_N, CUBLAS_OP_N, 1024, 1024, 1024, (double *)gpu_alpha1, (double *)&gpu_A[0], 1024, (double *)&gpu_B [0], 1024, (double *)gpu_beta1, (double *)&gpu_C[0], 1024); cublasEnsureDestruction(); cudaMemcpy((void *)C, (void *)gpu_C, 8388608ULL, cudaMemcpyDeviceToHost);
Чтобы инициализировать библиотеку cuBLAS и создать указатель на контекст библиотеки cuBLAS, функция cublasEnsureInitialization()
вызывает cublasCreate()
cuBLAS API. Он выделяет аппаратные ресурсы на хосте и устройстве.
static void cublasEnsureInitialization(void) { if (cublasGlobalHandle == NULL) { cublasCreate(&cublasGlobalHandle); cublasSetPointerMode(cublasGlobalHandle, CUBLAS_POINTER_MODE_DEVICE); } }
blas_gemm_kernel1
инициализирует матрицу результатов C
в нуль. Это ядро запускается с 2048 блоками и 512 потоками на блок. Эти значения блоков и потоков соответствуют размеру C
.
static __global__ __launch_bounds__(512, 1) void blas_gemm_kernel1(real_T *C) { int32_T threadIdX; threadIdX = (int32_T)(blockDim.x * blockIdx.x + threadIdx.x); if (!(threadIdX >= 1048576)) { C[threadIdX] = 0.0; } }
Вызовы в cudaMemcpy
передавать матрицы A
и B
от хоста к устройству. Функция cublasDgemm
является подпрограммой линейной алгебры уровня 3 (BLAS3), которая выполняет матрично-матричное умножение:
C = αAB + βC
где α и β - скаляры, а A, B и C - матрицы, сохраненные в основном формате столбца. CUBLAS_OP_N
управляет операциями транспонирования матриц входа.
Конечные вызовы должны cublasEnsureDestruction()
и другое cudaMemcpy
. cublasEnsureDestruction()
вызывает cublasCreate()
cuBLAS API для выпуска аппаратных ресурсов, используемых библиотекой cuBLAS. cudaMemcpy
копирует матрицу результатов C
от устройства к хосту.
static void cublasEnsureDestruction(void) { if (cublasGlobalHandle != NULL) { cublasDestroy(cublasGlobalHandle); cublasGlobalHandle = NULL; } }
blas_gemm
для создания ядраGPU Coder не требует специальной прагмы для генерации вызовов библиотек. Существует два способа сгенерировать ядра CUDA - coder.gpu.kernelfun
и coder.gpu.kernel
. В этом примере мы используем coder.gpu.kernelfun
прагма для генерации ядер CUDA. Измененный blas_gemm
функция является:
function [C] = blas_gemm(A,B) %#codegen C = coder.nullcopy(zeros(size(A)); coder.gpu.kernelfun; C = A * B; end
Примечание
Минимальный размер (128 элементов) требуется на входных данных для замены математических операторов и функций на реализации библиотеки cuBLAS.