quda-ref/v0.7.0/blas__quda_8cu_source.html

 #include <stdlib.h>

 #include <stdio.h>

 #include <cstring> // needed for memset


 #include <float_vector.h>


 #include <tune_quda.h>

 #include <typeinfo>


 #include <quda_internal.h>

 #include <blas_quda.h>

 #include <color_spinor_field.h>

 #include <face_quda.h> // this is where the MPI / QMP depdendent code is


 #define checkSpinor(a, b)                                               \

   {                                                                     \

     if (a.Precision() != b.Precision())                                 \

       errorQuda("precisions do not match: %d %d", a.Precision(), b.Precision()); \

     if (a.Length() != b.Length())                                       \

       errorQuda("lengths do not match: %d %d", a.Length(), b.Length()); \

     if (a.Stride() != b.Stride())                                       \

       errorQuda("strides do not match: %d %d", a.Stride(), b.Stride()); \

   }


 #define checkLength(a, b)                                               \

   {                                                                     \

     if (a.Length() != b.Length())                                       \

       errorQuda("lengths do not match: %d %d", a.Length(), b.Length()); \

     if (a.Stride() != b.Stride())                                       \

       errorQuda("strides do not match: %d %d", a.Stride(), b.Stride()); \

   }


 namespace quda {


 #include <texture.h>


   unsigned long long blas_flops;

   unsigned long long blas_bytes;


   void zeroCuda(cudaColorSpinorField &a) { a.zero(); }


   static cudaStream_t *blasStream;


   static struct {

     const char *vol_str;

     const char *aux_str;

     char aux_tmp[TuneKey::aux_n];

   } blasStrings;


   void initReduce();

   void endReduce();


   void initBlas()

   {

     blasStream = &streams[Nstream-1];

     initReduce();

   }


   void endBlas(void)

   {

     endReduce();

   }


   cudaStream_t* getBlasStream() { return blasStream; }


 #include <blas_core.h>

 #include <blas_mixed_core.h>


   template <typename Float2, typename FloatN>

   struct axpby {

     const Float2 a;

     const Float2 b;

     axpby(const Float2 &a, const Float2 &b, const Float2 &c) : a(a), b(b) { ; }

     __device__ void operator()(const FloatN &x, FloatN &y, const FloatN &z, const FloatN &w) { y = a.x*x + b.x*y; }

     static int streams() { return 3; }

     static int flops() { return 3; }

   };


   void axpbyCuda(const double &a, cudaColorSpinorField &x, const double &b, cudaColorSpinorField &y) {

     blasCuda<axpby,0,1,0,0>(make_double2(a, 0.0), make_double2(b, 0.0), make_double2(0.0, 0.0),

                             x, y, x, x);

   }


   template <typename Float2, typename FloatN>

   struct xpy {

     xpy(const Float2 &a, const Float2 &b, const Float2 &c) { ; }

     __device__ void operator()(const FloatN &x, FloatN &y, const FloatN &z, const FloatN &w) { y += x ; }

     static int streams() { return 3; }

     static int flops() { return 1; }

   };


   void xpyCuda(cudaColorSpinorField &x, cudaColorSpinorField &y) {

     blasCuda<xpy,0,1,0,0>(make_double2(1.0, 0.0), make_double2(1.0, 0.0), make_double2(0.0, 0.0),

                           x, y, x, x);

   }


   template <typename Float2, typename FloatN>

   struct axpy {

     const Float2 a;

     axpy(const Float2 &a, const Float2 &b, const Float2 &c) : a(a) { ; }

     __device__ void operator()(const FloatN &x, FloatN &y, const FloatN &z, const FloatN &w) { y = a.x*x + y; }

     static int streams() { return 3; }

     static int flops() { return 2; }

   };


   void axpyCuda(const double &a, cudaColorSpinorField &x, cudaColorSpinorField &y) {

     if (x.Precision() != y.Precision()) {

       // call hacked mixed precision kernel

       mixed::blasCuda<axpy,0,1,0,0>(make_double2(a,0.0), make_double2(1.0,0.0), make_double2(0.0,0.0),

                                     x, y, x, x);

     } else {

       blasCuda<axpy,0,1,0,0>(make_double2(a, 0.0), make_double2(1.0, 0.0), make_double2(0.0, 0.0),

                              x, y, x, x);

     }

   }


   template <typename Float2, typename FloatN>

   struct xpay {

     const Float2 a;

     xpay(const Float2 &a, const Float2 &b, const Float2 &c) : a(a) { ; }

     __device__ void operator()(const FloatN &x, FloatN &y, const FloatN &z, const FloatN &w) { y = x + a.x*y; }

     static int streams() { return 3; }

     static int flops() { return 2; }

   };


   void xpayCuda(cudaColorSpinorField &x, const double &a, cudaColorSpinorField &y) {

     blasCuda<xpay,0,1,0,0>(make_double2(a,0.0), make_double2(0.0, 0.0), make_double2(0.0, 0.0),

                            x, y, x, x);

   }


   template <typename Float2, typename FloatN>

   struct mxpy {

     mxpy(const Float2 &a, const Float2 &b, const Float2 &c) { ; }

     __device__ void operator()(const FloatN &x, FloatN &y, const FloatN &z, const FloatN &w) { y -= x; }

     static int streams() { return 3; }

     static int flops() { return 1; }

   };


   void mxpyCuda(cudaColorSpinorField &x, cudaColorSpinorField &y) {

     blasCuda<mxpy,0,1,0,0>(make_double2(1.0, 0.0), make_double2(1.0, 0.0),

                            make_double2(0.0, 0.0), x, y, x, x);

   }


   template <typename Float2, typename FloatN>

   struct ax {

     const Float2 a;

     ax(const Float2 &a, const Float2 &b, const Float2 &c) : a(a) { ; }

     __device__ void operator()(FloatN &x, const FloatN &y, const FloatN &z, const FloatN &w) { x *= a.x; }

     static int streams() { return 2; }

     static int flops() { return 1; }

   };


   void axCuda(const double &a, cudaColorSpinorField &x) {

     blasCuda<ax,1,0,0,0>(make_double2(a, 0.0), make_double2(0.0, 0.0),

                          make_double2(0.0, 0.0), x, x, x, x);

   }


   __device__ void caxpy_(const float2 &a, const float4 &x, float4 &y) {

     y.x += a.x*x.x; y.x -= a.y*x.y;

     y.y += a.y*x.x; y.y += a.x*x.y;

     y.z += a.x*x.z; y.z -= a.y*x.w;

     y.w += a.y*x.z; y.w += a.x*x.w;

   }


   __device__ void caxpy_(const float2 &a, const float2 &x, float2 &y) {

     y.x += a.x*x.x; y.x -= a.y*x.y;

     y.y += a.y*x.x; y.y += a.x*x.y;

   }


   __device__ void caxpy_(const double2 &a, const double2 &x, double2 &y) {

     y.x += a.x*x.x; y.x -= a.y*x.y;

     y.y += a.y*x.x; y.y += a.x*x.y;

   }


   template <typename Float2, typename FloatN>

   struct caxpy {

     const Float2 a;

     caxpy(const Float2 &a, const Float2 &b, const Float2 &c) : a(a) { ; }

     __device__ void operator()(const FloatN &x, FloatN &y, const FloatN &z, const FloatN &w)

     { caxpy_(a, x, y); }

     static int streams() { return 3; }

     static int flops() { return 4; }

   };


   void caxpyCuda(const Complex &a, cudaColorSpinorField &x, cudaColorSpinorField &y) {

     blasCuda<caxpy,0,1,0,0>(make_double2(REAL(a), IMAG(a)),

                             make_double2(0.0, 0.0),

                             make_double2(0.0, 0.0), x, y, x, x);

   }


   __device__ void caxpby_(const float2 &a, const float4 &x, const float2 &b, float4 &y)

   { float4 yy;

     yy.x = a.x*x.x; yy.x -= a.y*x.y; yy.x += b.x*y.x; yy.x -= b.y*y.y;

     yy.y = a.y*x.x; yy.y += a.x*x.y; yy.y += b.y*y.x; yy.y += b.x*y.y;

     yy.z = a.x*x.z; yy.z -= a.y*x.w; yy.z += b.x*y.z; yy.z -= b.y*y.w;

     yy.w = a.y*x.z; yy.w += a.x*x.w; yy.w += b.y*y.z; yy.w += b.x*y.w;

     y = yy; }


   __device__ void caxpby_(const float2 &a, const float2 &x, const float2 &b, float2 &y)

   { float2 yy;

     yy.x = a.x*x.x; yy.x -= a.y*x.y; yy.x += b.x*y.x; yy.x -= b.y*y.y;

     yy.y = a.y*x.x; yy.y += a.x*x.y; yy.y += b.y*y.x; yy.y += b.x*y.y;

     y = yy; }


   __device__ void caxpby_(const double2 &a, const double2 &x, const double2 &b, double2 &y)

   { double2 yy;

     yy.x = a.x*x.x; yy.x -= a.y*x.y; yy.x += b.x*y.x; yy.x -= b.y*y.y;

     yy.y = a.y*x.x; yy.y += a.x*x.y; yy.y += b.y*y.x; yy.y += b.x*y.y;

     y = yy; }


   template <typename Float2, typename FloatN>

   struct caxpby {

     const Float2 a;

     const Float2 b;

     caxpby(const Float2 &a, const Float2 &b, const Float2 &c) : a(a), b(b) { ; }

     __device__ void operator()(const FloatN &x, FloatN &y, const FloatN &z, const FloatN &w) { caxpby_(a, x, b, y); }

     static int streams() { return 3; }

     static int flops() { return 7; }

   };


   void caxpbyCuda(const Complex &a, cudaColorSpinorField &x, const Complex &b, cudaColorSpinorField &y) {

     blasCuda<caxpby,0,1,0,0>(make_double2(REAL(a),IMAG(a)), make_double2(REAL(b), IMAG(b)),

                              make_double2(0.0, 0.0), x, y, x, x);

   }


   __device__ void cxpaypbz_(const float4 &x, const float2 &a, const float4 &y, const float2 &b, float4 &z) {

     float4 zz;

     zz.x = x.x + a.x*y.x; zz.x -= a.y*y.y; zz.x += b.x*z.x; zz.x -= b.y*z.y;

     zz.y = x.y + a.y*y.x; zz.y += a.x*y.y; zz.y += b.y*z.x; zz.y += b.x*z.y;

     zz.z = x.z + a.x*y.z; zz.z -= a.y*y.w; zz.z += b.x*z.z; zz.z -= b.y*z.w;

     zz.w = x.w + a.y*y.z; zz.w += a.x*y.w; zz.w += b.y*z.z; zz.w += b.x*z.w;

     z = zz;

   }


   __device__ void cxpaypbz_(const float2 &x, const float2 &a, const float2 &y, const float2 &b, float2 &z) {

     float2 zz;

     zz.x = x.x + a.x*y.x; zz.x -= a.y*y.y; zz.x += b.x*z.x; zz.x -= b.y*z.y;

     zz.y = x.y + a.y*y.x; zz.y += a.x*y.y; zz.y += b.y*z.x; zz.y += b.x*z.y;

     z = zz;

   }


   __device__ void cxpaypbz_(const double2 &x, const double2 &a, const double2 &y, const double2 &b, double2 &z) {

     double2 zz;

     zz.x = x.x + a.x*y.x; zz.x -= a.y*y.y; zz.x += b.x*z.x; zz.x -= b.y*z.y;

     zz.y = x.y + a.y*y.x; zz.y += a.x*y.y; zz.y += b.y*z.x; zz.y += b.x*z.y;

     z = zz;

   }


   template <typename Float2, typename FloatN>

   struct cxpaypbz {

     const Float2 a;

     const Float2 b;

     cxpaypbz(const Float2 &a, const Float2 &b, const Float2 &c) : a(a), b(b) { ; }

     __device__ void operator()(const FloatN &x, const FloatN &y, FloatN &z, FloatN &w)

     { cxpaypbz_(x, a, y, b, z); }

     static int streams() { return 4; }

     static int flops() { return 8; }

   };


   void cxpaypbzCuda(cudaColorSpinorField &x, const Complex &a, cudaColorSpinorField &y,

                     const Complex &b, cudaColorSpinorField &z) {

     blasCuda<cxpaypbz,0,0,1,0>(make_double2(REAL(a),IMAG(a)), make_double2(REAL(b), IMAG(b)),

                                make_double2(0.0, 0.0), x, y, z, z);

   }


   template <typename Float2, typename FloatN>

   struct axpyBzpcx {

     const Float2 a;

     const Float2 b;

     const Float2 c;

     axpyBzpcx(const Float2 &a, const Float2 &b, const Float2 &c) : a(a), b(b), c(c) { ; }

     __device__ void operator()(FloatN &x, FloatN &y, const FloatN &z, const FloatN &w)

     { y += a.x*x; x = b.x*z + c.x*x; }

     static int streams() { return 5; }

     static int flops() { return 10; }

   };


   void axpyBzpcxCuda(const double &a, cudaColorSpinorField& x, cudaColorSpinorField& y, const double &b,

                      cudaColorSpinorField& z, const double &c) {

     if (x.Precision() != y.Precision()) {

       // call hacked mixed precision kernel

       mixed::blasCuda<axpyBzpcx,1,1,0,0>(make_double2(a,0.0), make_double2(b,0.0),

                                          make_double2(c,0.0),   x, y, z, x);

     } else {

       // swap arguments around

       blasCuda<axpyBzpcx,1,1,0,0>(make_double2(a,0.0), make_double2(b,0.0),

                                   make_double2(c,0.0), x, y, z, x);

     }

   }


   template <typename Float2, typename FloatN>

   struct axpyZpbx {

     const Float2 a;

     const Float2 b;

     axpyZpbx(const Float2 &a, const Float2 &b, const Float2 &c) : a(a), b(b) { ; }

     __device__ void operator()(FloatN &x, FloatN &y, const FloatN &z, const FloatN &w)

     { y += a.x*x; x = z + b.x*x; }

     static int streams() { return 5; }

     static int flops() { return 8; }

   };


   void axpyZpbxCuda(const double &a, cudaColorSpinorField& x, cudaColorSpinorField& y,

                     cudaColorSpinorField& z, const double &b) {

     if (x.Precision() != y.Precision()) {

       // call hacked mixed precision kernel

       mixed::blasCuda<axpyZpbx,1,1,0,0>(make_double2(a,0.0), make_double2(b,0.0), make_double2(0.0,0.0),

                                                                         x, y, z, x);

     } else {

       // swap arguments around

       blasCuda<axpyZpbx,1,1,0,0>(make_double2(a,0.0), make_double2(b,0.0), make_double2(0.0,0.0),

                                  x, y, z, x);

     }

   }


   template <typename Float2, typename FloatN>

   struct caxpbypzYmbw {

     const Float2 a;

     const Float2 b;

     caxpbypzYmbw(const Float2 &a, const Float2 &b, const Float2 &c) : a(a), b(b) { ; }

     __device__ void operator()(const FloatN &x, FloatN &y, FloatN &z, const FloatN &w)

     { caxpy_(a, x, z); caxpy_(b, y, z); caxpy_(-b, w, y); }


     static int streams() { return 6; }

     static int flops() { return 12; }

   };


   void caxpbypzYmbwCuda(const Complex &a, cudaColorSpinorField &x, const Complex &b,

                         cudaColorSpinorField &y, cudaColorSpinorField &z, cudaColorSpinorField &w) {

     blasCuda<caxpbypzYmbw,0,1,1,0>(make_double2(REAL(a),IMAG(a)), make_double2(REAL(b),IMAG(b)),

                                    make_double2(0.0,0.0), x, y, z, w);

   }


   template <typename Float2, typename FloatN>

   struct cabxpyAx {

     const Float2 a;

     const Float2 b;

     cabxpyAx(const Float2 &a, const Float2 &b, const Float2 &c) : a(a), b(b) { ; }

     __device__ void operator()(FloatN &x, FloatN &y, const FloatN &z, const FloatN &w)

     { x *= a.x; caxpy_(b, x, y); }

     static int streams() { return 4; }

     static int flops() { return 5; }

   };


   void cabxpyAxCuda(const double &a, const Complex &b,

                     cudaColorSpinorField &x, cudaColorSpinorField &y) {

     // swap arguments around

     blasCuda<cabxpyAx,1,1,0,0>(make_double2(a,0.0), make_double2(REAL(b),IMAG(b)),

                                make_double2(0.0,0.0), x, y, x, x);

   }


   template <typename Float2, typename FloatN>

   struct caxpbypz {

     const Float2 a;

     const Float2 b;

     caxpbypz(const Float2 &a, const Float2 &b, const Float2 &c) : a(a), b(b) { ; }

     __device__ void operator()(const FloatN &x, const FloatN &y, FloatN &z, const FloatN &w)

     { caxpy_(a, x, z); caxpy_(b, y, z); }

     static int streams() { return 4; }

     static int flops() { return 5; }

   };


   void caxpbypzCuda(const Complex &a, cudaColorSpinorField &x, const Complex &b,

                     cudaColorSpinorField &y, cudaColorSpinorField &z) {

     blasCuda<caxpbypz,0,0,1,0>(make_double2(REAL(a),IMAG(a)), make_double2(REAL(b),IMAG(b)),

                                make_double2(0.0,0.0), x, y, z, z);

   }


   template <typename Float2, typename FloatN>

   struct caxpbypczpw {

     const Float2 a;

     const Float2 b;

     const Float2 c;

     caxpbypczpw(const Float2 &a, const Float2 &b, const Float2 &c) : a(a), b(b), c(c) { ; }

     __device__ void operator()(const FloatN &x, const FloatN &y, const FloatN &z, FloatN &w)

     { caxpy_(a, x, w); caxpy_(b, y, w); caxpy_(c, z, w); }


     static int streams() { return 4; }

     static int flops() { return 5; }

   };


   void caxpbypczpwCuda(const Complex &a, cudaColorSpinorField &x, const Complex &b,

                        cudaColorSpinorField &y, const Complex &c, cudaColorSpinorField &z,

                        cudaColorSpinorField &w) {

     blasCuda<caxpbypczpw,0,0,0,1>(make_double2(REAL(a),IMAG(a)), make_double2(REAL(b),IMAG(b)),

                                   make_double2(REAL(c),IMAG(c)), x, y, z, w);

   }


   template <typename Float2, typename FloatN>

   struct caxpyxmaz {

     Float2 a;

     caxpyxmaz(const Float2 &a, const Float2 &b, const Float2 &c) : a(a) { ; }

     __device__ void operator()(FloatN &x, FloatN &y, const FloatN &z, const FloatN &w)

     { caxpy_(a, x, y); x-= a.x*z; }

     static int streams() { return 5; }

     static int flops() { return 8; }

   };


   void caxpyXmazCuda(const Complex &a, cudaColorSpinorField &x,

                      cudaColorSpinorField &y, cudaColorSpinorField &z) {

     blasCuda<caxpyxmaz,1,1,0,0>(make_double2(REAL(a), IMAG(a)), make_double2(0.0, 0.0),

                                 make_double2(0.0, 0.0), x, y, z, x);

   }


   template <typename Float2, typename FloatN>

   struct tripleCGUpdate {

     Float2 a, b;

     tripleCGUpdate(const Float2 &a, const Float2 &b, const Float2 &c) : a(a), b(b) { ; }

     __device__ void operator()(const FloatN &x, FloatN &y, FloatN &z, FloatN &w)

     //{ y -= a.x*x; z += a.x*w; w = y + b.x*w; }

     { y += a.x*w; z -= a.x*x; w = z + b.x*w; }

     static int streams() { return 7; }

     static int flops() { return 6; }

   };


   void tripleCGUpdateCuda(const double &a, const double &b, cudaColorSpinorField &x,

                       cudaColorSpinorField &y, cudaColorSpinorField &z, cudaColorSpinorField &w) {

     if (x.Precision() != y.Precision()) {

       // call hacked mixed precision kernel

       mixed::blasCuda<tripleCGUpdate,0,1,1,1>(make_double2(a,0.0), make_double2(b,0.0),

                                               make_double2(0.0,0.0), x, y, z, w);

     } else {

       blasCuda<tripleCGUpdate,0,1,1,1>(make_double2(a, 0.0), make_double2(b, 0.0),

                                        make_double2(0.0, 0.0), x, y, z, w);

     }

   }


 } // namespace quda

quda::axpy
Definition: blas_quda.cu:107

quda::xpy::operator()
__device__ void operator()(const FloatN &x, FloatN &y, const FloatN &z, const FloatN &w)
Definition: blas_quda.cu:93

quda::axpyZpbx
Definition: blas_quda.cu:328

quda::caxpy::flops
static int flops()
total number of input and output streams
Definition: blas_quda.cu:204

quda::caxpbypczpw::c
const Float2 c
Definition: blas_quda.cu:420

quda::caxpyCuda
void caxpyCuda(const Complex &a, cudaColorSpinorField &x, cudaColorSpinorField &y)
Definition: blas_quda.cu:207

quda::axpby::axpby
axpby(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_quda.cu:76

quda::caxpbypzYmbw::operator()
__device__ void operator()(const FloatN &x, FloatN &y, FloatN &z, const FloatN &w)
Definition: blas_quda.cu:359

quda::xpy::xpy
xpy(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_quda.cu:92

quda::xpy::streams
static int streams()
Definition: blas_quda.cu:94

float_vector.h

quda::caxpby
Definition: blas_quda.cu:238

y
int y[4]
Definition: staggered_dslash_core.h:356

quda::axpyZpbx::flops
static int flops()
total number of input and output streams
Definition: blas_quda.cu:335

quda::tripleCGUpdate
Definition: blas_quda.cu:470

quda::mxpy::operator()
__device__ void operator()(const FloatN &x, FloatN &y, const FloatN &z, const FloatN &w)
Definition: blas_quda.cu:149

quda::axpyZpbx::axpyZpbx
axpyZpbx(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_quda.cu:331

quda::caxpbypczpw::caxpbypczpw
caxpbypczpw(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_quda.cu:421

quda::xpay::a
const Float2 a
Definition: blas_quda.cu:131

quda::cxpaypbz::operator()
__device__ void operator()(const FloatN &x, const FloatN &y, FloatN &z, FloatN &w)
Definition: blas_quda.cu:284

color_spinor_field.h

quda::initReduce
void initReduce()
Definition: reduce_quda.cu:52

quda::aux_str
const char * aux_str
Definition: blas_quda.cu:46

quda::aux_tmp
char aux_tmp[TuneKey::aux_n]
Definition: blas_quda.cu:47

quda::endReduce
void endReduce()
Definition: reduce_quda.cu:85

quda::caxpbypzYmbw::flops
static int flops()
total number of input and output streams
Definition: blas_quda.cu:363

quda::caxpbypczpw::operator()
__device__ void operator()(const FloatN &x, const FloatN &y, const FloatN &z, FloatN &w)
Definition: blas_quda.cu:422

quda::ax::streams
static int streams()
Definition: blas_quda.cu:167

quda::blas_bytes
unsigned long long blas_bytes
Definition: blas_quda.cu:38

quda::cabxpyAx::a
const Float2 a
Definition: blas_quda.cu:377

quda::Complex
std::complex< double > Complex
Definition: eig_variables.h:13

streams
cudaStream_t * streams
Definition: interface_quda.cpp:139

quda::cudaColorSpinorField::zero
void zero()
Definition: cuda_color_spinor_field.cu:414

quda::axpbyCuda
void axpbyCuda(const double &a, cudaColorSpinorField &x, const double &b, cudaColorSpinorField &y)
Definition: blas_quda.cu:82

quda::axpyBzpcx
Definition: blas_quda.cu:300

quda::caxpbypz::streams
static int streams()
Definition: blas_quda.cu:403

quda::caxpy_
__device__ void caxpy_(const float2 &a, const float4 &x, float4 &y)
Definition: blas_quda.cu:180

quda::axpyZpbxCuda
void axpyZpbxCuda(const double &a, cudaColorSpinorField &x, cudaColorSpinorField &y, cudaColorSpinorField &z, const double &b)
Definition: blas_quda.cu:338

quda::axpyZpbx::b
const Float2 b
Definition: blas_quda.cu:330

quda::Nstream
const int Nstream
Definition: quda_internal.h:217

quda::ax
Definition: blas_quda.cu:163

quda::mxpy::mxpy
mxpy(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_quda.cu:148

quda::axpyBzpcx::c
const Float2 c
Definition: blas_quda.cu:303

quda::xpay::xpay
xpay(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_quda.cu:132

quda::mxpy::streams
static int streams()
Definition: blas_quda.cu:150

quda::cudaColorSpinorField
Definition: color_spinor_field.h:302

quda::axpy::a
const Float2 a
Definition: blas_quda.cu:108

quda::cxpaypbz_
__device__ void cxpaypbz_(const float4 &x, const float2 &a, const float4 &y, const float2 &b, float4 &z)
Definition: blas_quda.cu:256

quda::ax::a
const Float2 a
Definition: blas_quda.cu:164

quda::ax::flops
static int flops()
total number of input and output streams
Definition: blas_quda.cu:168

quda::caxpy::streams
static int streams()
Definition: blas_quda.cu:203

quda::cxpaypbz::flops
static int flops()
total number of input and output streams
Definition: blas_quda.cu:287

quda::caxpbypczpw::flops
static int flops()
total number of input and output streams
Definition: blas_quda.cu:426

quda::caxpyxmaz
Definition: blas_quda.cu:443

texture.h

quda::axpby::streams
static int streams()
Definition: blas_quda.cu:78

quda::caxpyxmaz::a
Float2 a
Definition: blas_quda.cu:444

quda::caxpbypz::operator()
__device__ void operator()(const FloatN &x, const FloatN &y, FloatN &z, const FloatN &w)
Definition: blas_quda.cu:401

quda::caxpbypczpw::streams
static int streams()
Definition: blas_quda.cu:425

quda::xpy
Definition: blas_quda.cu:91

quda::mxpy::flops
static int flops()
total number of input and output streams
Definition: blas_quda.cu:151

quda::axpyBzpcx::axpyBzpcx
axpyBzpcx(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_quda.cu:304

quda::cabxpyAxCuda
void cabxpyAxCuda(const double &a, const Complex &b, cudaColorSpinorField &x, cudaColorSpinorField &y)
Definition: blas_quda.cu:386

quda::axpyZpbx::a
const Float2 a
Definition: blas_quda.cu:329

blas_core.h

quda::ax::operator()
__device__ void operator()(FloatN &x, const FloatN &y, const FloatN &z, const FloatN &w)
Definition: blas_quda.cu:166

quda::caxpbypz::flops
static int flops()
total number of input and output streams
Definition: blas_quda.cu:404

quda::axpyBzpcxCuda
void axpyBzpcxCuda(const double &a, cudaColorSpinorField &x, cudaColorSpinorField &y, const double &b, cudaColorSpinorField &z, const double &c)
Definition: blas_quda.cu:311

quda::caxpyXmazCuda
void caxpyXmazCuda(const Complex &a, cudaColorSpinorField &x, cudaColorSpinorField &y, cudaColorSpinorField &z)
Definition: blas_quda.cu:452

quda::caxpby::b
const Float2 b
Definition: blas_quda.cu:240

quda::cabxpyAx::b
const Float2 b
Definition: blas_quda.cu:378

quda::caxpyxmaz::caxpyxmaz
caxpyxmaz(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_quda.cu:445

quda::cxpaypbz::cxpaypbz
cxpaypbz(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_quda.cu:283

quda::axpyZpbx::streams
static int streams()
Definition: blas_quda.cu:334

REAL
#define REAL(a)
Definition: quda_internal.h:86

quda::axpyBzpcx::flops
static int flops()
total number of input and output streams
Definition: blas_quda.cu:308

blas_mixed_core.h

quda::caxpby::operator()
__device__ void operator()(const FloatN &x, FloatN &y, const FloatN &z, const FloatN &w)
Definition: blas_quda.cu:242

quda::axpby::b
const Float2 b
Definition: blas_quda.cu:75

quda::mxpyCuda
void mxpyCuda(cudaColorSpinorField &x, cudaColorSpinorField &y)
Definition: blas_quda.cu:154

quda::tripleCGUpdate::operator()
__device__ void operator()(const FloatN &x, FloatN &y, FloatN &z, FloatN &w)
Definition: blas_quda.cu:473

quda::axpyBzpcx::operator()
__device__ void operator()(FloatN &x, FloatN &y, const FloatN &z, const FloatN &w)
Definition: blas_quda.cu:305

quda::caxpbypzYmbw::a
const Float2 a
Definition: blas_quda.cu:356

quda::caxpby_
__device__ void caxpby_(const float2 &a, const float4 &x, const float2 &b, float4 &y)
Definition: blas_quda.cu:217

quda::caxpbypzYmbw
Definition: blas_quda.cu:355

quda::vol_str
const char * vol_str
Definition: blas_quda.cu:45

face_quda.h

IMAG
#define IMAG(a)
Definition: quda_internal.h:87

quda::caxpbypczpw
Definition: blas_quda.cu:417

quda::xpay
Definition: blas_quda.cu:130

quda::axpy::flops
static int flops()
total number of input and output streams
Definition: blas_quda.cu:112

quda::xpay::operator()
__device__ void operator()(const FloatN &x, FloatN &y, const FloatN &z, const FloatN &w)
Definition: blas_quda.cu:133

quda::caxpby::caxpby
caxpby(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_quda.cu:241

quda::caxpbypzYmbw::b
const Float2 b
Definition: blas_quda.cu:357

quda::caxpbypzYmbw::caxpbypzYmbw
caxpbypzYmbw(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_quda.cu:358

quda::caxpby::a
const Float2 a
Definition: blas_quda.cu:239

quda::axpyZpbx::operator()
__device__ void operator()(FloatN &x, FloatN &y, const FloatN &z, const FloatN &w)
Definition: blas_quda.cu:332

quda::caxpbypz::b
const Float2 b
Definition: blas_quda.cu:399

quda::axpyCuda
void axpyCuda(const double &a, cudaColorSpinorField &x, cudaColorSpinorField &y)
Definition: blas_quda.cu:115

quda::axpby::a
const Float2 a
Definition: blas_quda.cu:74

quda::cxpaypbz
Definition: blas_quda.cu:280

quda::caxpbypczpwCuda
void caxpbypczpwCuda(const Complex &, cudaColorSpinorField &, const Complex &, cudaColorSpinorField &, const Complex &, cudaColorSpinorField &, cudaColorSpinorField &)
Definition: blas_quda.cu:429

quda::caxpby::flops
static int flops()
total number of input and output streams
Definition: blas_quda.cu:244

quda::xpay::flops
static int flops()
total number of input and output streams
Definition: blas_quda.cu:135

quda::cabxpyAx
Definition: blas_quda.cu:376

quda::tripleCGUpdate::streams
static int streams()
Definition: blas_quda.cu:476

x
int x[4]
Definition: hisq_paths_force_core.h:99

quda::cabxpyAx::cabxpyAx
cabxpyAx(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_quda.cu:379

tune_quda.h

quda::getBlasStream
cudaStream_t * getBlasStream()
Definition: blas_quda.cu:64

quda::blas_flops
unsigned long long blas_flops
Definition: blas_quda.cu:37

blas_quda.h

quda::cabxpyAx::streams
static int streams()
Definition: blas_quda.cu:382

quda::xpyCuda
void xpyCuda(cudaColorSpinorField &x, cudaColorSpinorField &y)
Definition: blas_quda.cu:98

quda::axpy::axpy
axpy(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_quda.cu:109

quda::axpyBzpcx::streams
static int streams()
Definition: blas_quda.cu:307

quda::endBlas
void endBlas(void)
Definition: blas_quda.cu:59

quda::tripleCGUpdate::tripleCGUpdate
tripleCGUpdate(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_quda.cu:472

quda::cxpaypbz::streams
static int streams()
Definition: blas_quda.cu:286

quda::ColorSpinorField::Precision
QudaPrecision Precision() const
Definition: color_spinor_field.h:242

quda::cxpaypbzCuda
void cxpaypbzCuda(cudaColorSpinorField &, const Complex &b, cudaColorSpinorField &y, const Complex &c, cudaColorSpinorField &z)
Definition: blas_quda.cu:290

quda::ax::ax
ax(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_quda.cu:165

quda::TuneKey::aux_n
static const int aux_n
Definition: tune_key.h:12

quda::caxpbypz::caxpbypz
caxpbypz(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_quda.cu:400

quda::caxpy::a
const Float2 a
Definition: blas_quda.cu:199

quda::caxpy::caxpy
caxpy(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_quda.cu:200

quda::caxpyxmaz::flops
static int flops()
total number of input and output streams
Definition: blas_quda.cu:449

quda::caxpbypzCuda
void caxpbypzCuda(const Complex &, cudaColorSpinorField &, const Complex &, cudaColorSpinorField &, cudaColorSpinorField &)
Definition: blas_quda.cu:407

quda::caxpbypczpw::a
const Float2 a
Definition: blas_quda.cu:418

quda::axpyBzpcx::b
const Float2 b
Definition: blas_quda.cu:302

quda::caxpbypczpw::b
const Float2 b
Definition: blas_quda.cu:419

quda::caxpbypzYmbw::streams
static int streams()
Definition: blas_quda.cu:362

quda::axpby::operator()
__device__ void operator()(const FloatN &x, FloatN &y, const FloatN &z, const FloatN &w)
Definition: blas_quda.cu:77

quda::xpy::flops
static int flops()
total number of input and output streams
Definition: blas_quda.cu:95

quda::zeroCuda
void zeroCuda(cudaColorSpinorField &a)
Definition: blas_quda.cu:40

quda::xpay::streams
static int streams()
Definition: blas_quda.cu:134

quda::cabxpyAx::operator()
__device__ void operator()(FloatN &x, FloatN &y, const FloatN &z, const FloatN &w)
Definition: blas_quda.cu:380

quda::tripleCGUpdate::flops
static int flops()
total number of input and output streams
Definition: blas_quda.cu:477

quda::caxpy
Definition: blas_quda.cu:198

quda::tripleCGUpdateCuda
void tripleCGUpdateCuda(const double &alpha, const double &beta, cudaColorSpinorField &q, cudaColorSpinorField &r, cudaColorSpinorField &x, cudaColorSpinorField &p)
Definition: blas_quda.cu:480

quda::caxpbyCuda
void caxpbyCuda(const Complex &a, cudaColorSpinorField &x, const Complex &b, cudaColorSpinorField &y)
Definition: blas_quda.cu:247

quda::cxpaypbz::b
const Float2 b
Definition: blas_quda.cu:282

quda::axpy::streams
static int streams()
Definition: blas_quda.cu:111

quda::caxpby::streams
static int streams()
Definition: blas_quda.cu:243

quda::tripleCGUpdate::b
Float2 b
Definition: blas_quda.cu:471

quda::xpayCuda
void xpayCuda(cudaColorSpinorField &x, const double &a, cudaColorSpinorField &y)
Definition: blas_quda.cu:138

quda::cxpaypbz::a
const Float2 a
Definition: blas_quda.cu:281

quda::caxpbypz::a
const Float2 a
Definition: blas_quda.cu:398

quda::caxpy::operator()
__device__ void operator()(const FloatN &x, FloatN &y, const FloatN &z, const FloatN &w)
Definition: blas_quda.cu:201

quda::mxpy
Definition: blas_quda.cu:147

quda::axpby::flops
static int flops()
total number of input and output streams
Definition: blas_quda.cu:79

quda::axCuda
void axCuda(const double &a, cudaColorSpinorField &x)
Definition: blas_quda.cu:171

quda::caxpbypz
Definition: blas_quda.cu:397

quda::axpby
Definition: blas_quda.cu:73

quda::axpyBzpcx::a
const Float2 a
Definition: blas_quda.cu:301

quda::initBlas
void initBlas()
Definition: blas_quda.cu:53

quda::tripleCGUpdate::a
Float2 a
Definition: blas_quda.cu:471

quda::caxpbypzYmbwCuda
void caxpbypzYmbwCuda(const Complex &, cudaColorSpinorField &, const Complex &, cudaColorSpinorField &, cudaColorSpinorField &, cudaColorSpinorField &)
Definition: blas_quda.cu:366

quda::axpy::operator()
__device__ void operator()(const FloatN &x, FloatN &y, const FloatN &z, const FloatN &w)
Definition: blas_quda.cu:110

quda::caxpyxmaz::streams
static int streams()
Definition: blas_quda.cu:448

quda::caxpyxmaz::operator()
__device__ void operator()(FloatN &x, FloatN &y, const FloatN &z, const FloatN &w)
Definition: blas_quda.cu:446

quda_internal.h

quda::cabxpyAx::flops
static int flops()
total number of input and output streams
Definition: blas_quda.cu:383