quda-ref/v1.0.0/multi__blas__core_8cuh_source.html

 #pragma once

 #include <color_spinor_field_order.h>
 #include <blas_helper.cuh>

 namespace quda
 {

   namespace blas
   {

 #define BLAS_SPINOR // do not include ghost functions in Spinor class to reduce parameter space overhead
 #include <texture.h>

     // storage for matrix coefficients
 #define MAX_MATRIX_SIZE 4096
     static __constant__ signed char Amatrix_d[MAX_MATRIX_SIZE];
     static __constant__ signed char Bmatrix_d[MAX_MATRIX_SIZE];
     static __constant__ signed char Cmatrix_d[MAX_MATRIX_SIZE];

     static signed char *Amatrix_h;
     static signed char *Bmatrix_h;
     static signed char *Cmatrix_h;

 #if CUDA_VERSION < 9000
     // as a performance work around we put the argument struct into
     // __constant__ memory to prevent the compiler from spilling
     // registers on older CUDA
     static __constant__ signed char arg_buffer[MAX_MATRIX_SIZE];
 #endif

     template <int NXZ, typename SpinorX, typename SpinorY, typename SpinorZ, typename SpinorW, typename Functor>
     struct MultiBlasArg {
       const int NYW;
       SpinorX X[NXZ];
       SpinorY Y[MAX_MULTI_BLAS_N];
       SpinorZ Z[NXZ];
       SpinorW W[MAX_MULTI_BLAS_N];
       Functor f;
       const int length;

       MultiBlasArg(SpinorX X[NXZ], SpinorY Y[], SpinorZ Z[NXZ], SpinorW W[], Functor f, int NYW, int length) :
           NYW(NYW),
           f(f),
           length(length)
       {
         for (int i = 0; i < NXZ; ++i) {
           this->X[i] = X[i];
           this->Z[i] = Z[i];
         }
         for (int i = 0; i < NYW; ++i) {
           this->Y[i] = Y[i];
           this->W[i] = W[i];
         }
       }
     };

     template <typename FloatN, int M, int NXZ, typename Arg> __global__ void multiBlasKernel(Arg arg_)
     {
 #if CUDA_VERSION >= 9000
       Arg &arg = arg_;
 #else
       Arg &arg = *((Arg *)arg_buffer);
 #endif

       // use i to loop over elements in kernel
       unsigned int idx = blockIdx.x * blockDim.x + threadIdx.x;
       unsigned int k = blockIdx.y * blockDim.y + threadIdx.y;
       unsigned int parity = blockIdx.z;

       arg.f.init();
       if (k >= arg.NYW) return;

       while (idx < arg.length) {

         FloatN x[M], y[M], z[M], w[M];
         arg.Y[k].load(y, idx, parity);
         arg.W[k].load(w, idx, parity);

 #pragma unroll
         for (int l = 0; l < NXZ; l++) {
           arg.X[l].load(x, idx, parity);
           arg.Z[l].load(z, idx, parity);

 #pragma unroll
           for (int j = 0; j < M; j++) arg.f(x[j], y[j], z[j], w[j], k, l);
         }
         arg.Y[k].save(y, idx, parity);
         arg.W[k].save(w, idx, parity);

         idx += gridDim.x * blockDim.x;
       }
     }

     template <typename T> struct coeff_array {
       const T *data;
       const bool use_const;
       coeff_array() : data(nullptr), use_const(false) {}
       coeff_array(const T *data, bool use_const) : data(data), use_const(use_const) {}
     };

     template <int NXZ, typename Float2, typename FloatN> struct MultiBlasFunctor {

       virtual __device__ __host__ void init() { ; }

       virtual __device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, const int i, const int j)
           = 0;
     };

     __device__ __host__ inline void _caxpy(const float2 &a, const float4 &x, float4 &y)
     {
       y.x += a.x * x.x;
       y.x -= a.y * x.y;
       y.y += a.y * x.x;
       y.y += a.x * x.y;
       y.z += a.x * x.z;
       y.z -= a.y * x.w;
       y.w += a.y * x.z;
       y.w += a.x * x.w;
     }

     __device__ __host__ inline void _caxpy(const float2 &a, const float2 &x, float2 &y)
     {
       y.x += a.x * x.x;
       y.x -= a.y * x.y;
       y.y += a.y * x.x;
       y.y += a.x * x.y;
     }

     __device__ __host__ inline void _caxpy(const double2 &a, const double2 &x, double2 &y)
     {
       y.x += a.x * x.x;
       y.x -= a.y * x.y;
       y.y += a.y * x.x;
       y.y += a.x * x.y;
     }

     template <int NXZ, typename Float2, typename FloatN>
     struct multicaxpy_ : public MultiBlasFunctor<NXZ, Float2, FloatN> {
       const int NYW;
       // ignore parameter arrays since we place them in constant memory
       multicaxpy_(const coeff_array<Complex> &a, const coeff_array<Complex> &b, const coeff_array<Complex> &c, int NYW) :
           NYW(NYW)
       {
       }

       __device__ __host__ inline void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, const int i, const int j)
       {
 #ifdef __CUDA_ARCH__
         Float2 *a = reinterpret_cast<Float2 *>(Amatrix_d); // fetch coefficient matrix from constant memory
         _caxpy(a[MAX_MULTI_BLAS_N * j + i], x, y);
 #else
         Float2 *a = reinterpret_cast<Float2 *>(Amatrix_h);
         _caxpy(a[NYW * j + i], x, y);
 #endif
       }

       int streams() { return 2 * NYW + NXZ * NYW; }
       int flops() { return 4 * NXZ * NYW; }
     };

     template <int NXZ, typename Float2, typename FloatN>
     struct multicaxpyz_ : public MultiBlasFunctor<NXZ, Float2, FloatN> {
       const int NYW;
       // ignore parameter arrays since we place them in constant memory
       multicaxpyz_(const coeff_array<Complex> &a, const coeff_array<Complex> &b, const coeff_array<Complex> &c, int NYW) :
           NYW(NYW)
       {
       }

       __device__ __host__ inline void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, const int i, const int j)
       {
 #ifdef __CUDA_ARCH__
         Float2 *a = reinterpret_cast<Float2 *>(Amatrix_d); // fetch coefficient matrix from constant memory
         if (j == 0) w = y;
         _caxpy(a[MAX_MULTI_BLAS_N * j + i], x, w);
 #else
         Float2 *a = reinterpret_cast<Float2 *>(Amatrix_h);
         if (j == 0) w = y;
         _caxpy(a[NYW * j + i], x, w);
 #endif
       }

       int streams() { return 2 * NYW + NXZ * NYW; }
       int flops() { return 4 * NXZ * NYW; }
     };

     template <int NXZ, typename Float2, typename FloatN>
     struct multi_axpyBzpcx_ : public MultiBlasFunctor<NXZ, Float2, FloatN> {
       typedef typename scalar<Float2>::type real;
       const int NYW;
       real a[MAX_MULTI_BLAS_N], b[MAX_MULTI_BLAS_N], c[MAX_MULTI_BLAS_N];

       multi_axpyBzpcx_(const coeff_array<double> &a, const coeff_array<double> &b, const coeff_array<double> &c, int NYW) :
           NYW(NYW),
           a {},
           b {},
           c {}
       {
         // copy arguments into the functor
         for (int i = 0; i < NYW; i++) {
           this->a[i] = a.data[i];
           this->b[i] = b.data[i];
           this->c[i] = c.data[i];
         }
       }
       __device__ __host__ inline void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, const int i, const int j)
       {
         y += a[i] * w;
         w = b[i] * x + c[i] * w;
       }
       int streams() { return 4 * NYW + NXZ; }
       int flops() { return 5 * NXZ * NYW; }
     };

     template <int NXZ, typename Float2, typename FloatN>
     struct multi_caxpyBxpz_ : public MultiBlasFunctor<NXZ, Float2, FloatN> {
       typedef typename scalar<Float2>::type real;
       const int NYW;

       multi_caxpyBxpz_(
           const coeff_array<Complex> &a, const coeff_array<Complex> &b, const coeff_array<Complex> &c, int NYW) :
           NYW(NYW)
       {
       }

       // i loops over NYW, j loops over NXZ
       __device__ __host__ inline void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, const int i, const int j)
       {
 #ifdef __CUDA_ARCH__
         Float2 *a = reinterpret_cast<Float2 *>(Amatrix_d); // fetch coefficient matrix from constant memory
         Float2 *b = reinterpret_cast<Float2 *>(Bmatrix_d); // fetch coefficient matrix from constant memory
         _caxpy(a[MAX_MULTI_BLAS_N * j], x, y);
         _caxpy(b[MAX_MULTI_BLAS_N * j], x, w); // b/c we swizzled z into w.
 #else
         Float2 *a = reinterpret_cast<Float2 *>(Amatrix_h);
         Float2 *b = reinterpret_cast<Float2 *>(Bmatrix_h);
         _caxpy(a[j], x, y);
         _caxpy(b[j], x, w); // b/c we swizzled z into w.
 #endif
       }
       int streams() { return 4 * NYW + NXZ; }
       int flops() { return 8 * NXZ * NYW; }
     };

   } // namespace blas

 } // namespace quda
quda::blas::MultiBlasFunctor::init
virtual __device__ __host__ void init()
pre-computation routine before the main loop
Definition: multi_blas_core.cuh:120

quda::blas::multi_axpyBzpcx_::multi_axpyBzpcx_
multi_axpyBzpcx_(const coeff_array< double > &a, const coeff_array< double > &b, const coeff_array< double > &c, int NYW)
Definition: multi_blas_core.cuh:221

quda::blas::Cmatrix_d
static __constant__ signed char Cmatrix_d[MAX_MATRIX_SIZE]
Definition: multi_blas_core.cuh:19

quda::blas::MultiBlasArg::Y
SpinorY Y[MAX_MULTI_BLAS_N]
Definition: multi_blas_core.cuh:46

quda::blas::MultiBlasArg
Parameter struct for generic multi-blas kernel.
Definition: multi_blas_core.cuh:43

quda::blas::Amatrix_d
static __constant__ signed char Amatrix_d[MAX_MATRIX_SIZE]
Definition: multi_blas_core.cuh:17

quda::blas::multi_caxpyBxpz_::streams
int streams()
Definition: multi_blas_core.cuh:272

quda::blas::multicaxpyz_::multicaxpyz_
multicaxpyz_(const coeff_array< Complex > &a, const coeff_array< Complex > &b, const coeff_array< Complex > &c, int NYW)
Definition: multi_blas_core.cuh:190

quda::blas::MultiBlasArg::length
const int length
Definition: multi_blas_core.cuh:50

quda::blas::multi_caxpyBxpz_::multi_caxpyBxpz_
multi_caxpyBxpz_(const coeff_array< Complex > &a, const coeff_array< Complex > &b, const coeff_array< Complex > &c, int NYW)
Definition: multi_blas_core.cuh:251

quda::blas::coeff_array
Definition: multi_blas_core.cuh:110

quda::blas::MultiBlasArg::NYW
const int NYW
Definition: multi_blas_core.cuh:44

quda::blas::multicaxpyz_::flops
int flops()
total number of input and output streams
Definition: multi_blas_core.cuh:209

quda::blas::multicaxpyz_::streams
int streams()
Definition: multi_blas_core.cuh:208

texture.h

quda
Definition: blas_cublas.h:5

quda::scalar
Definition: register_traits.h:113

quda::blas::_caxpy
__device__ __host__ void _caxpy(const float2 &a, const float4 &x, float4 &y)
Definition: blas_core.cuh:110

quda::blas::multi_axpyBzpcx_::operator()
__device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, const int i, const int j)
where the reduction is usually computed and any auxiliary operations
Definition: multi_blas_core.cuh:234

quda::blas::MultiBlasFunctor
Definition: multi_blas_core.cuh:117

quda::blas::multi_axpyBzpcx_::streams
int streams()
Definition: multi_blas_core.cuh:239

quda::blas::multi_caxpyBxpz_
Definition: multi_blas_core.cuh:247

quda::blas::multi_axpyBzpcx_::NYW
const int NYW
Definition: multi_blas_core.cuh:218

quda::blas::coeff_array::coeff_array
coeff_array(const T *data, bool use_const)
Definition: multi_blas_core.cuh:114

quda::blas::multicaxpyz_::NYW
const int NYW
Definition: multi_blas_core.cuh:188

quda::blas::multi_axpyBzpcx_::real
scalar< Float2 >::type real
Definition: multi_blas_core.cuh:217

quda::blas::coeff_array::use_const
const bool use_const
Definition: multi_blas_core.cuh:112

quda::blas::multi_caxpyBxpz_::operator()
__device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, const int i, const int j)
where the reduction is usually computed and any auxiliary operations
Definition: multi_blas_core.cuh:258

quda::blas::Bmatrix_h
static signed char * Bmatrix_h
Definition: multi_blas_core.cuh:22

quda::blas::Bmatrix_d
static __constant__ signed char Bmatrix_d[MAX_MATRIX_SIZE]
Definition: multi_blas_core.cuh:18

quda::blas::multiBlasKernel
__global__ void multiBlasKernel(Arg arg_)
Generic multi-blas kernel with four loads and up to four stores.
Definition: multi_blas_core.cuh:73

quda::blas::multicaxpy_
Definition: multi_blas_core.cuh:160

quda::blas::MultiBlasArg::X
SpinorX X[NXZ]
Definition: multi_blas_core.cuh:45

blas_helper.cuh

quda::blas::multicaxpy_::operator()
__device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, const int i, const int j)
where the reduction is usually computed and any auxiliary operations
Definition: multi_blas_core.cuh:168

quda::blas::multi_caxpyBxpz_::real
scalar< Float2 >::type real
Definition: multi_blas_core.cuh:248

quda::Arg
Definition: spinor_noise.cu:22

quda::blas::multicaxpy_::NYW
const int NYW
Definition: multi_blas_core.cuh:161

quda::blas::multi_axpyBzpcx_::flops
int flops()
total number of input and output streams
Definition: multi_blas_core.cuh:240

quda::blas::MultiBlasArg::f
Functor f
Definition: multi_blas_core.cuh:49

quda::blas::MultiBlasArg::Z
SpinorZ Z[NXZ]
Definition: multi_blas_core.cuh:47

color_spinor_field_order.h

quda::blas::multicaxpyz_::operator()
__device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, const int i, const int j)
where the reduction is usually computed and any auxiliary operations
Definition: multi_blas_core.cuh:195

quda::blas::arg_buffer
static __constant__ signed char arg_buffer[MAX_MATRIX_SIZE]
Definition: multi_blas_core.cuh:29

quda::blas::coeff_array::data
const T * data
Definition: multi_blas_core.cuh:111

quda::blas::multi_axpyBzpcx_
Definition: multi_blas_core.cuh:216

quda::blas::multicaxpyz_
Definition: multi_blas_core.cuh:187

quda::arg
__host__ __device__ ValueType arg(const complex< ValueType > &z)
Returns the phase angle of z.
Definition: complex_quda.h:1076

quda::blas::MultiBlasArg::W
SpinorW W[MAX_MULTI_BLAS_N]
Definition: multi_blas_core.cuh:48

quda::blas::MultiBlasArg::MultiBlasArg
MultiBlasArg(SpinorX X[NXZ], SpinorY Y[], SpinorZ Z[NXZ], SpinorW W[], Functor f, int NYW, int length)
Definition: multi_blas_core.cuh:52

MAX_MATRIX_SIZE
#define MAX_MATRIX_SIZE
Definition: multi_blas_core.cuh:16

quda::blas::multicaxpy_::multicaxpy_
multicaxpy_(const coeff_array< Complex > &a, const coeff_array< Complex > &b, const coeff_array< Complex > &c, int NYW)
Definition: multi_blas_core.cuh:163

quda::blas::multi_caxpyBxpz_::flops
int flops()
total number of input and output streams
Definition: multi_blas_core.cuh:273

quda::blas::multicaxpy_::flops
int flops()
total number of input and output streams
Definition: multi_blas_core.cuh:180

quda::blas::multicaxpy_::streams
int streams()
Definition: multi_blas_core.cuh:179

quda::blas::Amatrix_h
static signed char * Amatrix_h
Definition: multi_blas_core.cuh:21

parity
QudaParity parity
Definition: covdev_test.cpp:54

quda::blas::coeff_array::coeff_array
coeff_array()
Definition: multi_blas_core.cuh:113

quda::blas::Cmatrix_h
static signed char * Cmatrix_h
Definition: multi_blas_core.cuh:23

quda::blas::multi_caxpyBxpz_::NYW
const int NYW
Definition: multi_blas_core.cuh:249

MAX_MULTI_BLAS_N
#define MAX_MULTI_BLAS_N
Definition: multi_reduce_quda.cu:14