exponenta event banner

gpucoder.stridedMatrixMultiply

Оптимизированная реализация GPU операции дробного и пакетного умножения матриц

Описание

D = gpucoder.stridedMatrixMultiply(A,B) выполняет пошаговое матрично-матричное умножение партии матриц. Входные матрицы A и B для каждого экземпляра пакета расположены в фиксированных смещениях адресов от их адресов в предыдущем экземпляре. gpucoder.stridedMatrixMultiply функция выполняет матрично-матричное умножение вида:

D = αАВ

где α - коэффициент скалярного умножения, A, B, и D - матрицы с размерами mоколо-k, kоколо-n, и mоколо-n соответственно. Можно необязательно транспонировать или эрмитово-конъюгатные A и B. По умолчанию α устанавливается равным единице, и матрицы не транспонируются. Чтобы задать другой коэффициент скалярного умножения и выполнить операции транспонирования для входных матриц, используйте Name,Value аргументы пары.

Все пакеты, переданные в gpucoder.stridedMatrixMultiply функция должна быть однородной. То есть все экземпляры должны иметь одинаковые размеры m,n,k.

пример

___ = gpucoder.stridedMatrixMultiply(___,Name,Value) выполняет операцию умножения полосатой матрицы с использованием опций, заданных одним или несколькими Name,Value аргументы пары.

Примеры

свернуть все

Выполните простое пакетное умножение матрица-матрица и используйте gpucoder.stridedMatrixMultiply функция для создания кода CUDA ®, который вызывает соответствующийcublas<t>gemmStridedBatched API.

В одном файле запишите функцию точки входа myStridedMatMul который принимает матричные входы A и B. Поскольку входные матрицы не транспонируются, используйте 'nn' вариант.

function [D] = myStridedMatMul(A,B,alpha)

[D] = gpucoder.stridedMatrixMultiply(A,B,'alpha',alpha, ...
    'transpose','nn');

end

Чтобы создать тип для матрицы двойников для использования при создании кода, используйте coder.newtype функция.

A = coder.newtype('double',[5 4 100],[0 0]);
B = coder.newtype('double',[4 5 100],[0 0]);
alpha = 0.3;
inputs = {A,B,alpha};

Для создания библиотеки CUDA используйте codegen функция.

cfg = coder.gpuConfig('lib');
cfg.GpuConfig.EnableCUBLAS = true;
cfg.GpuConfig.EnableCUSOLVER = true;
cfg.GenerateReport = true;
codegen -config cfg-args inputs myStridedMatMul

Созданный код CUDA содержит ядра myStridedMatMul_kernelNN для инициализации входной и выходной матриц. Код также содержит cublasDgemmStridedBatched Вызовы API в библиотеку cuBLAS. Следующий код является фрагментом созданного кода.

//
// File: myStridedMatMul.cu
//
...
void myStridedMatMul(const double A_data[], const int A_size[3], const double
                     B_data[], const int B_size[3], double alpha, double D_data[],
                     int D_size[3])
{
  double alpha1;
...
  beta1 = 0.0;
  cudaMemcpy(gpu_alpha1, &alpha1, 8ULL, cudaMemcpyHostToDevice);
  cudaMemcpy(gpu_A_data, (void *)A_data, A_size[0] * A_size[1] * A_size[2] *
             sizeof(double), cudaMemcpyHostToDevice);
  cudaMemcpy(gpu_B_data, (void *)B_data, B_size[0] * B_size[1] * B_size[2] *
             sizeof(double), cudaMemcpyHostToDevice);
  cudaMemcpy(gpu_beta1, &beta1, 8ULL, cudaMemcpyHostToDevice);
  if (D_data_dirtyOnCpu) {
    cudaMemcpy(gpu_D_data, &D_data[0], 25 * D_size[2] * sizeof(double),
               cudaMemcpyHostToDevice);
  }

  if (batchDimsA[2] >= batchDimsB[2]) {
    if (batchDimsA[2] >= 1) {
      ntilecols = batchDimsA[2];
    } else {
      ntilecols = 1;
    }
  } else {
    ntilecols = batchDimsB[2];
  }

  cublasDgemmStridedBatched(getCublasGlobalHandle(), CUBLAS_OP_N, CUBLAS_OP_N, 5,
    5, 4, (double *)gpu_alpha1, (double *)&gpu_A_data[0], 5, strideA, (double *)
    &gpu_B_data[0], 4, strideB, (double *)gpu_beta1, (double *)&gpu_D_data[0], 5,
    25, ntilecols);
  cudaMemcpy(&D_data[0], gpu_D_data, 25 * D_size[2] * sizeof(double),
             cudaMemcpyDeviceToHost);
...
}

Входные аргументы

свернуть все

Операнды, указанные как векторы или матрицы. gpucoder.stridedMatrixMultiply умножается вдоль первых двух размеров.

Типы данных: double | single | int8 | int16 | int32 | int64 | uint8 | uint16 | uint32 | uint64
Поддержка комплексного номера: Да

Аргументы пары «имя-значение»

Укажите дополнительные пары, разделенные запятыми Name,Value аргументы. Name является именем аргумента и Value - соответствующее значение. Name должен отображаться внутри кавычек. Можно указать несколько аргументов пары имен и значений в любом порядке как Name1,Value1,...,NameN,ValueN.

Пример: D = gpucoder.stridedMatrixMultiply(A,B,'alpha',0.3,'transpose','CC');

Значение скаляра, используемого для умножения на A. Значение по умолчанию равно единице.

Символьный вектор или строка, состоящая из двух символов, указывающая операцию, выполняемую с матрицами A и B до умножения матрицы. Возможные значения являются нормальными ('N'), транспонированный ('T'), или комплексное сопряженное транспонирование ('C').

Выходные аргументы

свернуть все

Произведение, возвращаемое как скаляр, вектор или матрица. Множество D имеет то же количество строк, что и входные A и то же количество столбцов, что и входные B.

Представлен в R2020a