v0.9.0/doc/blas__core_8cuh_source.html

 template <typename SpinorX, typename SpinorY, typename SpinorZ,
   typename SpinorW, typename Functor>
 struct BlasArg {
   SpinorX X;
   SpinorY Y;
   SpinorZ Z;
   SpinorW W;
   Functor f;
   const int length;
   BlasArg(SpinorX X, SpinorY Y, SpinorZ Z, SpinorW W, Functor f, int length)
   : X(X), Y(Y), Z(Z), W(W), f(f), length(length) { ; }
 };

 template <typename FloatN, int M, typename SpinorX, typename SpinorY,
   typename SpinorZ, typename SpinorW, typename Functor>
   __global__ void blasKernel(BlasArg<SpinorX,SpinorY,SpinorZ,SpinorW,Functor> arg) {
   unsigned int i = blockIdx.x*(blockDim.x) + threadIdx.x;
   unsigned int parity = blockIdx.y;
   unsigned int gridSize = gridDim.x*blockDim.x;

   arg.f.init();

   while (i < arg.length) {
     FloatN x[M], y[M], z[M], w[M];
     arg.X.load(x, i, parity);
     arg.Y.load(y, i, parity);
     arg.Z.load(z, i, parity);
     arg.W.load(w, i, parity);

 #pragma unroll
     for (int j=0; j<M; j++) arg.f(x[j], y[j], z[j], w[j]);

     arg.X.save(x, i, parity);
     arg.Y.save(y, i, parity);
     arg.Z.save(z, i, parity);
     arg.W.save(w, i, parity);
     i += gridSize;
   }
 }

 template <typename FloatN, int M, typename SpinorX, typename SpinorY,
   typename SpinorZ, typename SpinorW, typename Functor>
 class BlasCuda : public Tunable {

 private:
   mutable BlasArg<SpinorX,SpinorY,SpinorZ,SpinorW,Functor> arg;

   const int nParity;

   // host pointers used for backing up fields when tuning
   // dont't these curry these in to minimize Arg size
   char *X_h, *Y_h, *Z_h, *W_h;
   char *Xnorm_h, *Ynorm_h, *Znorm_h, *Wnorm_h;
   const size_t *bytes_;
   const size_t *norm_bytes_;

   unsigned int sharedBytesPerThread() const { return 0; }
   unsigned int sharedBytesPerBlock(const TuneParam &param) const { return 0; }

   virtual bool advanceSharedBytes(TuneParam &param) const
   {
     TuneParam next(param);
     advanceBlockDim(next); // to get next blockDim
     int nthreads = next.block.x * next.block.y * next.block.z;
     param.shared_bytes = sharedBytesPerThread()*nthreads > sharedBytesPerBlock(param) ?
       sharedBytesPerThread()*nthreads : sharedBytesPerBlock(param);
     return false;
   }

 public:
   BlasCuda(SpinorX &X, SpinorY &Y, SpinorZ &Z, SpinorW &W, Functor &f,
      int length, int nParity, const size_t *bytes, const size_t *norm_bytes) :
     arg(X, Y, Z, W, f, length/nParity), nParity(nParity), X_h(0), Y_h(0), Z_h(0), W_h(0),
     Xnorm_h(0), Ynorm_h(0), Znorm_h(0), Wnorm_h(0), bytes_(bytes), norm_bytes_(norm_bytes) { }

   virtual ~BlasCuda() { }

   inline TuneKey tuneKey() const {
     return TuneKey(blasStrings.vol_str, typeid(arg.f).name(), blasStrings.aux_tmp);
   }

   inline void apply(const cudaStream_t &stream) {
     TuneParam tp = tuneLaunch(*this, getTuning(), getVerbosity());
     blasKernel<FloatN,M> <<<tp.grid, tp.block, tp.shared_bytes, stream>>>(arg);
   }

   void preTune() {
     arg.X.backup(&X_h, &Xnorm_h, bytes_[0], norm_bytes_[0]);
     arg.Y.backup(&Y_h, &Ynorm_h, bytes_[1], norm_bytes_[1]);
     arg.Z.backup(&Z_h, &Znorm_h, bytes_[2], norm_bytes_[2]);
     arg.W.backup(&W_h, &Wnorm_h, bytes_[3], norm_bytes_[3]);
   }

   void postTune() {
     arg.X.restore(&X_h, &Xnorm_h, bytes_[0], norm_bytes_[0]);
     arg.Y.restore(&Y_h, &Ynorm_h, bytes_[1], norm_bytes_[1]);
     arg.Z.restore(&Z_h, &Znorm_h, bytes_[2], norm_bytes_[2]);
     arg.W.restore(&W_h, &Wnorm_h, bytes_[3], norm_bytes_[3]);
   }

   void initTuneParam(TuneParam &param) const {
     Tunable::initTuneParam(param);
     param.grid.y = nParity;
   }

   void defaultTuneParam(TuneParam &param) const {
     Tunable::initTuneParam(param);
     param.grid.y = nParity;
   }

   long long flops() const { return arg.f.flops()*vec_length<FloatN>::value*arg.length*nParity*M; }
   long long bytes() const
   {
     // bytes for low-precision vector
     size_t base_bytes = arg.X.Precision()*vec_length<FloatN>::value*M;
     if (arg.X.Precision() == QUDA_HALF_PRECISION) base_bytes += sizeof(float);

     // bytes for high precision vector
     size_t extra_bytes = arg.Y.Precision()*vec_length<FloatN>::value*M;
     if (arg.Y.Precision() == QUDA_HALF_PRECISION) extra_bytes += sizeof(float);

     // the factor two here assumes we are reading and writing to the high precision vector
     return ((arg.f.streams()-2)*base_bytes + 2*extra_bytes)*arg.length*nParity;
   }
   int tuningIter() const { return 3; }
 };

 template <typename RegType, typename StoreType, typename yType, int M,
     template <typename,typename> class Functor,
     int writeX, int writeY, int writeZ, int writeW>
 void blasCuda(const double2 &a, const double2 &b, const double2 &c,
         ColorSpinorField &x, ColorSpinorField &y,
         ColorSpinorField &z, ColorSpinorField &w, int length) {

   checkLength(x, y); checkLength(x, z); checkLength(x, w);

   if (!x.isNative()) {
     warningQuda("Device blas on non-native fields is not supported\n");
     return;
   }

   blasStrings.vol_str = x.VolString();
   strcpy(blasStrings.aux_tmp, x.AuxString());
   if (typeid(StoreType) != typeid(yType)) {
     strcat(blasStrings.aux_tmp, ",");
     strcat(blasStrings.aux_tmp, y.AuxString());
   }

   size_t bytes[] = {x.Bytes(), y.Bytes(), z.Bytes(), w.Bytes()};
   size_t norm_bytes[] = {x.NormBytes(), y.NormBytes(), z.NormBytes(), w.NormBytes()};

   Spinor<RegType,StoreType,M,writeX,0> X(x);
   Spinor<RegType,    yType,M,writeY,1> Y(y);
   Spinor<RegType,StoreType,M,writeZ,2> Z(z);
   Spinor<RegType,StoreType,M,writeW,3> W(w);

   typedef typename scalar<RegType>::type Float;
   typedef typename vector<Float,2>::type Float2;
   typedef vector<Float,2> vec2;
   Functor<Float2, RegType> f( (Float2)vec2(a), (Float2)vec2(b), (Float2)vec2(c));

   int partitions = (x.IsComposite() ? x.CompositeDim() : 1) * (x.SiteSubset());
   BlasCuda<RegType,M,
     decltype(X), decltype(Y), decltype(Z), decltype(W),
     Functor<Float2, RegType> >
     blas(X, Y, Z, W, f, length, partitions, bytes, norm_bytes);
   blas.apply(*blasStream);

   blas::bytes += blas.bytes();
   blas::flops += blas.flops();

   checkCudaError();
 }


 template <typename Float2, int writeX, int writeY, int writeZ, int writeW,
   typename SpinorX, typename SpinorY, typename SpinorZ, typename SpinorW,
   typename Functor>
 void genericBlas(SpinorX &X, SpinorY &Y, SpinorZ &Z, SpinorW &W, Functor f) {

   for (int parity=0; parity<X.Nparity(); parity++) {
     for (int x=0; x<X.VolumeCB(); x++) {
       for (int s=0; s<X.Nspin(); s++) {
   for (int c=0; c<X.Ncolor(); c++) {
     Float2 X2 = make_Float2<Float2>( X(parity, x, s, c) );
     Float2 Y2 = make_Float2<Float2>( Y(parity, x, s, c) );
     Float2 Z2 = make_Float2<Float2>( Z(parity, x, s, c) );
     Float2 W2 = make_Float2<Float2>( W(parity, x, s, c) );
     f(X2, Y2, Z2, W2);
     if (writeX) X(parity, x, s, c) = make_Complex(X2);
     if (writeY) Y(parity, x, s, c) = make_Complex(Y2);
     if (writeZ) Z(parity, x, s, c) = make_Complex(Z2);
     if (writeW) W(parity, x, s, c) = make_Complex(W2);
   }
       }
     }
   }
 }

 template <typename Float, typename yFloat, int nSpin, int nColor, QudaFieldOrder order,
   int writeX, int writeY, int writeZ, int writeW, typename Functor>
   void genericBlas(ColorSpinorField &x, ColorSpinorField &y, ColorSpinorField &z,
        ColorSpinorField &w, Functor f) {
   colorspinor::FieldOrderCB<Float,nSpin,nColor,1,order> X(x), Z(z), W(w);
   colorspinor::FieldOrderCB<yFloat,nSpin,nColor,1,order> Y(y);
   typedef typename vector<yFloat,2>::type Float2;
   genericBlas<Float2,writeX,writeY,writeZ,writeW>(X, Y, Z, W, f);
 }

 template <typename Float, typename yFloat, int nSpin, QudaFieldOrder order,
     int writeX, int writeY, int writeZ, int writeW, typename Functor>
   void genericBlas(ColorSpinorField &x, ColorSpinorField &y, ColorSpinorField &z, ColorSpinorField &w, Functor f) {
   if (x.Ncolor() == 2) {
     genericBlas<Float,yFloat,nSpin,2,order,writeX,writeY,writeZ,writeW,Functor>(x, y, z, w, f);
   } else if (x.Ncolor() == 3) {
     genericBlas<Float,yFloat,nSpin,3,order,writeX,writeY,writeZ,writeW,Functor>(x, y, z, w, f);
   } else if (x.Ncolor() == 4) {
     genericBlas<Float,yFloat,nSpin,4,order,writeX,writeY,writeZ,writeW,Functor>(x, y, z, w, f);
   } else if (x.Ncolor() == 8) {
     genericBlas<Float,yFloat,nSpin,8,order,writeX,writeY,writeZ,writeW,Functor>(x, y, z, w, f);
   } else if (x.Ncolor() == 12) {
     genericBlas<Float,yFloat,nSpin,12,order,writeX,writeY,writeZ,writeW,Functor>(x, y, z, w, f);
   } else if (x.Ncolor() == 16) {
     genericBlas<Float,yFloat,nSpin,16,order,writeX,writeY,writeZ,writeW,Functor>(x, y, z, w, f);
   } else if (x.Ncolor() == 20) {
     genericBlas<Float,yFloat,nSpin,20,order,writeX,writeY,writeZ,writeW,Functor>(x, y, z, w, f);
   } else if (x.Ncolor() == 24) {
     genericBlas<Float,yFloat,nSpin,24,order,writeX,writeY,writeZ,writeW,Functor>(x, y, z, w, f);
   } else if (x.Ncolor() == 32) {
     genericBlas<Float,yFloat,nSpin,32,order,writeX,writeY,writeZ,writeW,Functor>(x, y, z, w, f);
   } else {
     errorQuda("nColor = %d not implemeneted",x.Ncolor());
   }
 }

 template <typename Float, typename yFloat, QudaFieldOrder order, int writeX, int writeY, int writeZ, int writeW, typename Functor>
   void genericBlas(ColorSpinorField &x, ColorSpinorField &y, ColorSpinorField &z, ColorSpinorField &w, Functor f) {
   if (x.Nspin() == 4) {
     genericBlas<Float,yFloat,4,order,writeX,writeY,writeZ,writeW,Functor>(x, y, z, w, f);
   } else if (x.Nspin() == 2) {
     genericBlas<Float,yFloat,2,order,writeX,writeY,writeZ,writeW,Functor>(x, y, z, w, f);
 #ifdef GPU_STAGGERED_DIRAC
   } else if (x.Nspin() == 1) {
     genericBlas<Float,yFloat,1,order,writeX,writeY,writeZ,writeW,Functor>(x, y, z, w, f);
 #endif
   } else {
     errorQuda("nSpin = %d not implemeneted",x.Nspin());
   }
 }

 template <typename Float, typename yFloat, int writeX, int writeY, int writeZ, int writeW, typename Functor>
   void genericBlas(ColorSpinorField &x, ColorSpinorField &y, ColorSpinorField &z, ColorSpinorField &w, Functor f) {
   if (x.FieldOrder() == QUDA_SPACE_SPIN_COLOR_FIELD_ORDER) {
     genericBlas<Float,yFloat,QUDA_SPACE_SPIN_COLOR_FIELD_ORDER,writeX,writeY,writeZ,writeW,Functor>
       (x, y, z, w, f);
   } else {
     errorQuda("Not implemeneted");
   }
 }
blasCuda
void blasCuda(const double2 &a, const double2 &b, const double2 &c, ColorSpinorField &x, ColorSpinorField &y, ColorSpinorField &z, ColorSpinorField &w, int length)
Definition: blas_core.cuh:137

vector
Definition: reduce_core.cuh:299

blockDim
dim3 dim3 blockDim
Definition: CMakeCUDACompilerId.cpp1.ii:2471

BlasCuda::tuningIter
int tuningIter() const
Definition: blas_core.cuh:131

BlasArg::BlasArg
BlasArg(SpinorX X, SpinorY Y, SpinorZ Z, SpinorW W, Functor f, int length)
Definition: blas_core.cuh:13

BlasCuda::initTuneParam
void initTuneParam(TuneParam &param) const
Definition: blas_core.cuh:107

stream
cudaStream_t stream
Definition: CMakeCUDACompilerId.cpp1.ii:2284

BlasArg
Definition: blas_core.cuh:6

BlasCuda::Xnorm_h
char * Xnorm_h
Definition: blas_core.cuh:59

getVerbosity
QudaVerbosity getVerbosity()
Definition: util_quda.cpp:20

errorQuda
#define errorQuda(...)
Definition: util_quda.h:90

BlasCuda::sharedBytesPerThread
unsigned int sharedBytesPerThread() const
Definition: blas_core.cuh:63

QUDA_SPACE_SPIN_COLOR_FIELD_ORDER
Definition: enum_quda.h:321

QUDA_HALF_PRECISION
Definition: enum_quda.h:59

QudaFieldOrder
enum QudaFieldOrder_s QudaFieldOrder

checkLength
void checkLength(const ColorSpinorField &a, ColorSpinorField &b)
Definition: reduce_quda.cu:49

BlasCuda::Znorm_h
char * Znorm_h
Definition: blas_core.cuh:59

BlasCuda::Wnorm_h
char * Wnorm_h
Definition: blas_core.cuh:59

strcpy
char * strcpy(char *__dst, const char *__src)

blasKernel
__global__ void blasKernel(BlasArg< SpinorX, SpinorY, SpinorZ, SpinorW, Functor > arg)
Definition: blas_core.cuh:22

z
int int z
Definition: CMakeCUDACompilerId.cpp1.ii:2637

BlasCuda::Ynorm_h
char * Ynorm_h
Definition: blas_core.cuh:59

BlasCuda::BlasCuda
BlasCuda(SpinorX &X, SpinorY &Y, SpinorZ &Z, SpinorW &W, Functor &f, int length, int nParity, const size_t *bytes, const size_t *norm_bytes)
Definition: blas_core.cuh:77

strcat
char * strcat(char *__s1, const char *__s2)

BlasCuda::flops
long long flops() const
Definition: blas_core.cuh:117

BlasCuda::bytes_
const size_t * bytes_
Definition: blas_core.cuh:60

BlasCuda::Y_h
char * Y_h
Definition: blas_core.cuh:58

BlasCuda::advanceSharedBytes
virtual bool advanceSharedBytes(TuneParam &param) const
Definition: blas_core.cuh:66

gridDim
dim3 gridDim
Definition: CMakeCUDACompilerId.cpp1.ii:2471

param
QudaGaugeParam param
Definition: pack_test.cpp:17

b
#define b
Definition: dw_dslash4_core.h:83

x
p x
Definition: CMakeCUDACompilerId.cpp1.ii:3011

quda::make_Complex
complex< double > make_Complex(const double2 &a)
Definition: float_vector.h:278

BlasCuda::bytes
long long bytes() const
Definition: blas_core.cuh:118

BlasArg::X
SpinorX X
Definition: blas_core.cuh:7

BlasArg::Z
SpinorZ Z
Definition: blas_core.cuh:9

quda::blas::blasStream
static cudaStream_t * blasStream
Definition: blas_quda.cu:53

nColor
const int nColor
Definition: covdev_test.cpp:77

quda::blas::blasStrings
static struct quda::blas::@4 blasStrings

BlasCuda::sharedBytesPerBlock
unsigned int sharedBytesPerBlock(const TuneParam &param) const
Definition: blas_core.cuh:64

BlasCuda::arg
BlasArg< SpinorX, SpinorY, SpinorZ, SpinorW, Functor > arg
Definition: blas_core.cuh:52

w
int int int w
Definition: CMakeCUDACompilerId.cpp1.ii:2637

BlasCuda::tuneKey
TuneKey tuneKey() const
Definition: blas_core.cuh:84

quda::tuneLaunch
TuneParam & tuneLaunch(Tunable &tunable, QudaTune enabled, QudaVerbosity verbosity)
Definition: tune.cpp:603

fused_exterior_ndeg_tm_dslash_cuda_gen.i
int i
start here
Definition: fused_exterior_ndeg_tm_dslash_cuda_gen.py:816

warningQuda
#define warningQuda(...)
Definition: util_quda.h:101

f
int int int enum cudaChannelFormatKind f
Definition: CMakeCUDACompilerId.cpp1.ii:2637

Z
int Z[4]
Definition: test_util.cpp:27

BlasCuda::preTune
void preTune()
Definition: blas_core.cuh:93

BlasCuda::W_h
char * W_h
Definition: blas_core.cuh:58

BlasCuda
Definition: blas_core.cuh:49

BlasCuda::~BlasCuda
virtual ~BlasCuda()
Definition: blas_core.cuh:82

BlasArg::length
const int length
Definition: blas_core.cuh:12

BlasCuda::postTune
void postTune()
Definition: blas_core.cuh:100

BlasArg::W
SpinorW W
Definition: blas_core.cuh:10

X
int X
Definition: asym_wilson_clover_dslash_dagger_fermi_core.h:394

BlasCuda::X_h
char * X_h
Definition: blas_core.cuh:58

genericBlas
void genericBlas(SpinorX &X, SpinorY &Y, SpinorZ &Z, SpinorW &W, Functor f)
Definition: blas_core.cuh:192

BlasCuda::defaultTuneParam
void defaultTuneParam(TuneParam &param) const
Definition: blas_core.cuh:112

BlasCuda::norm_bytes_
const size_t * norm_bytes_
Definition: blas_core.cuh:61

s
size_t s
Definition: CMakeCUDACompilerId.cpp1.ii:2229

BlasCuda::nParity
const int nParity
Definition: blas_core.cuh:54

BlasCuda::Z_h
char * Z_h
Definition: blas_core.cuh:58

quda::blas::flops
unsigned long long flops
Definition: blas_quda.cu:42

quda::arg
__host__ __device__ ValueType arg(const complex< ValueType > &z)
Returns the phase angle of z.
Definition: complex_quda.h:880

length
void size_t length
Definition: CMakeCUDACompilerId.cpp1.ii:2433

c
const void * c
Definition: CMakeCUDACompilerId.cpp1.ii:2234

Spinor
Definition: texture.h:528

checkCudaError
#define checkCudaError()
Definition: util_quda.h:129

getTuning
QudaTune getTuning()
Query whether autotuning is enabled or not. Default is enabled but can be overridden by setting QUDA_...
Definition: util_quda.cpp:51

BlasArg::f
Functor f
Definition: blas_core.cuh:11

value
int value
Definition: CMakeCUDACompilerId.cpp1.ii:2296

BlasCuda::apply
void apply(const cudaStream_t &stream)
Definition: blas_core.cuh:88

parity
QudaParity parity
Definition: covdev_test.cpp:53

a
#define a
Definition: dw_dslash4_core.h:82

quda::blas::bytes
unsigned long long bytes
Definition: blas_quda.cu:43

BlasArg::Y
SpinorY Y
Definition: blas_core.cuh:8

y
int y
Definition: CMakeCUDACompilerId.cpp1.ii:2637