quda-ref/v0.7.0/reduce__quda_8cu_source.html

 #include <blas_quda.h>

 #include <tune_quda.h>

 #include <float_vector.h>


 #if (__COMPUTE_CAPABILITY__ >= 130)

 #define QudaSumFloat double

 #define QudaSumFloat2 double2

 #define QudaSumFloat3 double3

 #else

 #define QudaSumFloat doublesingle

 #define QudaSumFloat2 doublesingle2

 #define QudaSumFloat3 doublesingle3

 #include <double_single.h>

 #endif


 #define REDUCE_MAX_BLOCKS 65536


 #define checkSpinor(a, b)                                               \

   {                                                                     \

     if (a.Precision() != b.Precision())                                 \

       errorQuda("precisions do not match: %d %d", a.Precision(), b.Precision()); \

     if (a.Length() != b.Length())                                       \

       errorQuda("lengths do not match: %d %d", a.Length(), b.Length()); \

     if (a.Stride() != b.Stride())                                       \

       errorQuda("strides do not match: %d %d", a.Stride(), b.Stride()); \

   }


 #define checkLength(a, b)                                               \

   {                                                                     \

     if (a.Length() != b.Length())                                       \

       errorQuda("lengths do not match: %d %d", a.Length(), b.Length()); \

     if (a.Stride() != b.Stride())                                       \

       errorQuda("strides do not match: %d %d", a.Stride(), b.Stride()); \

   }


 static struct {

   const char *vol_str;

   const char *aux_str;

   char aux_tmp[quda::TuneKey::aux_n];

 } blasStrings;


 // These are used for reduction kernels

 static QudaSumFloat *d_reduce=0;

 static QudaSumFloat *h_reduce=0;

 static QudaSumFloat *hd_reduce=0;

 static cudaEvent_t reduceEnd;


 namespace quda {


   cudaStream_t* getBlasStream();


   void initReduce()

   {


     const int MaxReduce = 12;

     // reduction buffer size

     size_t bytes = MaxReduce*3*REDUCE_MAX_BLOCKS*sizeof(QudaSumFloat); // Factor of N for composite reductions


     if (!d_reduce) d_reduce = (QudaSumFloat *) device_malloc(bytes);


     // these arrays are actually oversized currently (only needs to be QudaSumFloat3)


     // if the device supports host-mapped memory then use a host-mapped array for the reduction

     if (!h_reduce) {

       // only use zero copy reductions when using 64-bit

 #if (defined(_MSC_VER) && defined(_WIN64)) || defined(__LP64__)

       if(deviceProp.canMapHostMemory) {

         h_reduce = (QudaSumFloat *) mapped_malloc(bytes);

         cudaHostGetDevicePointer(&hd_reduce, h_reduce, 0); // set the matching device pointer

       } else

 #endif

       {

         h_reduce = (QudaSumFloat *) pinned_malloc(bytes);

         hd_reduce = d_reduce;

       }

       memset(h_reduce, 0, bytes); // added to ensure that valgrind doesn't report h_reduce is unitialised

     }


     cudaEventCreateWithFlags(&reduceEnd, cudaEventDisableTiming);


     checkCudaError();

   }


   void endReduce(void)

   {

     if (d_reduce) {

       device_free(d_reduce);

       d_reduce = 0;

     }

     if (h_reduce) {

       host_free(h_reduce);

       h_reduce = 0;

     }

     hd_reduce = 0;


     cudaEventDestroy(reduceEnd);

   }


   namespace reduce {


 #include <texture.h>

 #include <reduce_core.h>

 #include <reduce_mixed_core.h>


   } // namespace reduce


   template <typename ReduceType, typename Float2, typename FloatN>

   struct ReduceFunctor {


     virtual __device__ void pre() { ; }


     virtual __device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y,

                                        FloatN &z, FloatN &w, FloatN &v) = 0;


     virtual __device__ void post(ReduceType &sum) { ; }


   };


   __device__ double norm2_(const double2 &a) { return a.x*a.x + a.y*a.y; }

   __device__ float norm2_(const float2 &a) { return a.x*a.x + a.y*a.y; }

   __device__ float norm2_(const float4 &a) { return a.x*a.x + a.y*a.y + a.z*a.z + a.w*a.w; }


   template <typename ReduceType, typename Float2, typename FloatN>

 #if (__COMPUTE_CAPABILITY__ >= 200)

   struct Norm2 : public ReduceFunctor<ReduceType, Float2, FloatN> {

 #else

   struct Norm2 {

 #endif

     Norm2(const Float2 &a, const Float2 &b) { ; }

     __device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z,FloatN  &w, FloatN &v) { sum += norm2_(x); }

     static int streams() { return 1; }

     static int flops() { return 2; }

   };


   double normCuda(const cudaColorSpinorField &x) {

     cudaColorSpinorField &y = (cudaColorSpinorField&)x; // FIXME

     return reduce::reduceCuda<double,QudaSumFloat,QudaSumFloat,Norm2,0,0,0,0,0,false>

       (make_double2(0.0, 0.0), make_double2(0.0, 0.0), y, y, y, y, y);

   }


   __device__ double dot_(const double2 &a, const double2 &b) { return a.x*b.x + a.y*b.y; }

   __device__ float dot_(const float2 &a, const float2 &b) { return a.x*b.x + a.y*b.y; }

   __device__ float dot_(const float4 &a, const float4 &b) { return a.x*b.x + a.y*b.y + a.z*b.z + a.w*b.w; }


   template <typename ReduceType, typename Float2, typename FloatN>

 #if (__COMPUTE_CAPABILITY__ >= 200)

   struct Dot : public ReduceFunctor<ReduceType, Float2, FloatN> {

 #else

   struct Dot {

 #endif

     Dot(const Float2 &a, const Float2 &b) { ; }

     __device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v) { sum += dot_(x,y); }

     static int streams() { return 2; }

     static int flops() { return 2; }

   };


   double reDotProductCuda(cudaColorSpinorField &x, cudaColorSpinorField &y) {

     return reduce::reduceCuda<double,QudaSumFloat,QudaSumFloat,Dot,0,0,0,0,0,false>

       (make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

   }


   void reDotProductCuda(double* result, std::vector<cudaColorSpinorField*>& x, std::vector<cudaColorSpinorField*>& y){

 #ifndef SSTEP

     errorQuda("S-step code not built\n");

 #else

     switch(x.size()){

       case 1:

         reduce::multiReduceCuda<1,double,QudaSumFloat,QudaSumFloat,Dot,0,0,0,0,0,false>

         (result, make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

         break;

       case 2:

         reduce::multiReduceCuda<2,double,QudaSumFloat,QudaSumFloat,Dot,0,0,0,0,0,false>

         (result, make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

         break;

       case 3:

         reduce::multiReduceCuda<3,double,QudaSumFloat,QudaSumFloat,Dot,0,0,0,0,0,false>

         (result, make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

         break;

       case 4:

         reduce::multiReduceCuda<4,double,QudaSumFloat,QudaSumFloat,Dot,0,0,0,0,0,false>

         (result, make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

         break;

       case 5:

         reduce::multiReduceCuda<5,double,QudaSumFloat,QudaSumFloat,Dot,0,0,0,0,0,false>

         (result, make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

         break;

       case 6:

         reduce::multiReduceCuda<6,double,QudaSumFloat,QudaSumFloat,Dot,0,0,0,0,0,false>

         (result, make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

         break;

       case 7:

         reduce::multiReduceCuda<7,double,QudaSumFloat,QudaSumFloat,Dot,0,0,0,0,0,false>

         (result, make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

         break;

       case 8:

         reduce::multiReduceCuda<8,double,QudaSumFloat,QudaSumFloat,Dot,0,0,0,0,0,false>

         (result, make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

         break;

       case 9:

         reduce::multiReduceCuda<9,double,QudaSumFloat,QudaSumFloat,Dot,0,0,0,0,0,false>

         (result, make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

         break;

       case 10:

         reduce::multiReduceCuda<10,double,QudaSumFloat,QudaSumFloat,Dot,0,0,0,0,0,false>

         (result, make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

         break;

       case 11:

         reduce::multiReduceCuda<11,double,QudaSumFloat,QudaSumFloat,Dot,0,0,0,0,0,false>

         (result, make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

         break;

       case 12:

         reduce::multiReduceCuda<12,double,QudaSumFloat,QudaSumFloat,Dot,0,0,0,0,0,false>

         (result, make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

         break;

       case 13:

         reduce::multiReduceCuda<13,double,QudaSumFloat,QudaSumFloat,Dot,0,0,0,0,0,false>

         (result, make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

         break;

       case 14:

         reduce::multiReduceCuda<14,double,QudaSumFloat,QudaSumFloat,Dot,0,0,0,0,0,false>

         (result, make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

         break;

       case 15:

         reduce::multiReduceCuda<15,double,QudaSumFloat,QudaSumFloat,Dot,0,0,0,0,0,false>

         (result, make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

         break;

       case 16:

         reduce::multiReduceCuda<16,double,QudaSumFloat,QudaSumFloat,Dot,0,0,0,0,0,false>

         (result, make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

         break;

       case 17:

         reduce::multiReduceCuda<17,double,QudaSumFloat,QudaSumFloat,Dot,0,0,0,0,0,false>

         (result, make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

         break;

       case 18:

         reduce::multiReduceCuda<18,double,QudaSumFloat,QudaSumFloat,Dot,0,0,0,0,0,false>

         (result, make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

         break;

       case 19:

         reduce::multiReduceCuda<19,double,QudaSumFloat,QudaSumFloat,Dot,0,0,0,0,0,false>

         (result, make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

         break;

       case 20:

         reduce::multiReduceCuda<20,double,QudaSumFloat,QudaSumFloat,Dot,0,0,0,0,0,false>

         (result, make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

         break;

       default:

         errorQuda("Unsupported vector size");

         break;

     }

 #endif // SSTEP

   }


     /*

       returns the real component of the dot product of a and b

       and the norm of a

     */

   __device__ double2 dotNormA_(const double2 &a, const double2 &b)

   { return make_double2(a.x*b.x + a.y*b.y, a.x*a.x + a.y*a.y); }


   __device__ double2 dotNormA_(const float2 &a, const float2 &b)

   { return make_double2(a.x*b.x + a.y*b.y, a.x*a.x + a.y*a.y); }


   __device__ double2 dotNormA_(const float4 &a, const float4 & b)

   { return make_double2(a.x*b.x + a.y*b.y + a.z*b.z + a.w*b.w, a.x*a.x + a.y*a.y + a.z*a.z +     a.w*a.w); }


   template <typename ReduceType, typename Float2, typename FloatN>

 #if (__COMPUTE_CAPABILITY__ >= 200)

   struct DotNormA : public ReduceFunctor<ReduceType, Float2, FloatN> {

 #else

   struct DotNormA {

 #endif

     DotNormA(const Float2 &a, const Float2 &b){}

     __device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z,  FloatN &w, FloatN &v){sum += dotNormA_(x,y);}

     static int streams() { return 2; }

     static int flops() { return 4; }

   };


   double2 reDotProductNormACuda(cudaColorSpinorField &x,cudaColorSpinorField &y){

     return reduce::reduceCuda<double2,QudaSumFloat2,QudaSumFloat,DotNormA,0,0,0,0,0,false>

       (make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

   }


   template <typename ReduceType, typename Float2, typename FloatN>

 #if (__COMPUTE_CAPABILITY__ >= 200)

   struct axpyNorm2 : public ReduceFunctor<ReduceType, Float2, FloatN> {

 #else

   struct axpyNorm2 {

 #endif

     Float2 a;

     axpyNorm2(const Float2 &a, const Float2 &b) : a(a) { ; }

     __device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v) {

       y += a.x*x; sum += norm2_(y); }

     static int streams() { return 3; }

     static int flops() { return 4; }

   };


   double axpyNormCuda(const double &a, cudaColorSpinorField &x, cudaColorSpinorField &y) {

     return reduce::reduceCuda<double,QudaSumFloat,QudaSumFloat,axpyNorm2,0,1,0,0,0,false>

       (make_double2(a, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

   }


   template <typename ReduceType, typename Float2, typename FloatN>

 #if (__COMPUTE_CAPABILITY__ >= 200)

   struct xmyNorm2 : public ReduceFunctor<ReduceType, Float2, FloatN> {

 #else

   struct xmyNorm2 {

 #endif

     xmyNorm2(const Float2 &a, const Float2 &b) { ; }

     __device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v) {

       y = x - y; sum += norm2_(y); }

     static int streams() { return 3; }

     static int flops() { return 3; }

   };


   double xmyNormCuda(cudaColorSpinorField &x, cudaColorSpinorField &y) {

     return reduce::reduceCuda<double,QudaSumFloat,QudaSumFloat,xmyNorm2,0,1,0,0,0,false>

       (make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

   }


   __device__ void Caxpy_(const float2 &a, const float4 &x, float4 &y) {

     y.x += a.x*x.x; y.x -= a.y*x.y;

     y.y += a.y*x.x; y.y += a.x*x.y;

     y.z += a.x*x.z; y.z -= a.y*x.w;

     y.w += a.y*x.z; y.w += a.x*x.w;

   }


   __device__ void Caxpy_(const float2 &a, const float2 &x, float2 &y) {

     y.x += a.x*x.x; y.x -= a.y*x.y;

     y.y += a.y*x.x; y.y += a.x*x.y;

   }


   __device__ void Caxpy_(const double2 &a, const double2 &x, double2 &y) {

     y.x += a.x*x.x; y.x -= a.y*x.y;

     y.y += a.y*x.x; y.y += a.x*x.y;

   }


   template <typename ReduceType, typename Float2, typename FloatN>

 #if (__COMPUTE_CAPABILITY__ >= 200)

   struct caxpyNorm2 : public ReduceFunctor<ReduceType, Float2, FloatN> {

 #else

   struct caxpyNorm2 {

 #endif

     Float2 a;

     caxpyNorm2(const Float2 &a, const Float2 &b) : a(a) { ; }

     __device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v) {

       Caxpy_(a, x, y); sum += norm2_(y); }

     static int streams() { return 3; }

     static int flops() { return 6; }

   };


   double caxpyNormCuda(const Complex &a, cudaColorSpinorField &x, cudaColorSpinorField &y) {

     return reduce::reduceCuda<double,QudaSumFloat,QudaSumFloat,caxpyNorm2,0,1,0,0,0,false>

       (make_double2(REAL(a), IMAG(a)), make_double2(0.0, 0.0), x, y, x, x, x);

   }


   template <typename ReduceType, typename Float2, typename FloatN>

 #if (__COMPUTE_CAPABILITY__ >= 200)

   struct caxpyxmaznormx : public ReduceFunctor<ReduceType, Float2, FloatN> {

 #else

   struct caxpyxmaznormx {

 #endif

     Float2 a;

     caxpyxmaznormx(const Float2 &a, const Float2 &b) : a(a) { ; }

     __device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v) { Caxpy_(a, x, y); x-= a.x*z; sum += norm2_(x); }

     static int streams() { return 5; }

     static int flops() { return 10; }

   };


   double caxpyXmazNormXCuda(const Complex &a, cudaColorSpinorField &x,

                             cudaColorSpinorField &y, cudaColorSpinorField &z) {

     return reduce::reduceCuda<double,QudaSumFloat,QudaSumFloat,caxpyxmaznormx,1,1,0,0,0,false>

       (make_double2(REAL(a), IMAG(a)), make_double2(0.0, 0.0), x, y, z, x, x);

   }


     template <typename ReduceType, typename Float2, typename FloatN>

 #if (__COMPUTE_CAPABILITY__ >= 200)

     struct cabxpyaxnorm : public ReduceFunctor<ReduceType, Float2, FloatN> {

 #else

     struct cabxpyaxnorm {

 #endif

     Float2 a;

     Float2 b;

     cabxpyaxnorm(const Float2 &a, const Float2 &b) : a(a), b(b) { ; }

       __device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v) { x *= a.x; Caxpy_(b, x, y); sum += norm2_(y); }

     static int streams() { return 4; }

     static int flops() { return 10; }

   };


   double cabxpyAxNormCuda(const double &a, const Complex &b,

                           cudaColorSpinorField &x, cudaColorSpinorField &y) {

     return reduce::reduceCuda<double,QudaSumFloat,QudaSumFloat,cabxpyaxnorm,1,1,0,0,0,false>

       (make_double2(a, 0.0), make_double2(REAL(b), IMAG(b)), x, y, x, x, x);

   }


   __device__ double2 cdot_(const double2 &a, const double2 &b)

   { return make_double2(a.x*b.x + a.y*b.y, a.x*b.y - a.y*b.x); }

   __device__ double2 cdot_(const float2 &a, const float2 &b)

   { return make_double2(a.x*b.x + a.y*b.y, a.x*b.y - a.y*b.x); }

   __device__ double2 cdot_(const float4 &a, const float4 &b)

   { return make_double2(a.x*b.x + a.y*b.y + a.z*b.z + a.w*b.w, a.x*b.y - a.y*b.x + a.z*b.w - a.w*b.z); }


   template <typename ReduceType, typename Float2, typename FloatN>

 #if (__COMPUTE_CAPABILITY__ >= 200)

   struct Cdot : public ReduceFunctor<ReduceType, Float2, FloatN> {

 #else

   struct Cdot {

 #endif

     Cdot(const Float2 &a, const Float2 &b) { ; }

     __device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v) { sum += cdot_(x,y); }

     static int streams() { return 2; }

     static int flops() { return 4; }

   };


   Complex cDotProductCuda(cudaColorSpinorField &x, cudaColorSpinorField &y) {

     double2 cdot = reduce::reduceCuda<double2,QudaSumFloat2,QudaSumFloat,Cdot,0,0,0,0,0,false>

       (make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

     return Complex(cdot.x, cdot.y);

   }


   void cDotProductCuda(Complex* result, std::vector<cudaColorSpinorField*>& x, std::vector<cudaColorSpinorField*>& y){

 #ifndef SSTEP

     errorQuda("S-step code not built\n");

 #else

     double2* cdot = new double2[x.size()];


     switch(x.size()){

       case 1:

         reduce::multiReduceCuda<1,double2,QudaSumFloat2,QudaSumFloat,Cdot,0,0,0,0,0,false>

         (cdot, make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

         break;

       case 6:

         reduce::multiReduceCuda<6,double2,QudaSumFloat2,QudaSumFloat,Cdot,0,0,0,0,0,false>

         (cdot, make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

         break;

       case 10:

         reduce::multiReduceCuda<10,double2,QudaSumFloat2,QudaSumFloat,Cdot,0,0,0,0,0,false>

         (cdot, make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

         break;

       case 14:

         reduce::multiReduceCuda<14,double2,QudaSumFloat2,QudaSumFloat,Cdot,0,0,0,0,0,false>

         (cdot, make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

         break;

       case 18:

         reduce::multiReduceCuda<18,double2,QudaSumFloat2,QudaSumFloat,Cdot,0,0,0,0,0,false>

         (cdot, make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

         break;

       case 22:

         reduce::multiReduceCuda<22,double2,QudaSumFloat2,QudaSumFloat,Cdot,0,0,0,0,0,false>

         (cdot, make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

         break;

       default:

         errorQuda("Unsupported vector size\n");

         break;

     }


     for(int i=0; i<x.size(); ++i) result[i] = Complex(cdot[i].x,cdot[i].y);

     delete[] cdot;

 #endif

   }


   template <typename ReduceType, typename Float2, typename FloatN>

 #if (__COMPUTE_CAPABILITY__ >= 200)

   struct xpaycdotzy : public ReduceFunctor<ReduceType, Float2, FloatN> {

 #else

   struct xpaycdotzy {

 #endif

     Float2 a;

     xpaycdotzy(const Float2 &a, const Float2 &b) : a(a) { ; }

     __device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v) { y = x + a.x*y; sum += cdot_(z,y); }

     static int streams() { return 4; }

     static int flops() { return 6; }

   };


   Complex xpaycDotzyCuda(cudaColorSpinorField &x, const double &a, cudaColorSpinorField &y, cudaColorSpinorField &z) {

     double2 cdot = reduce::reduceCuda<double2,QudaSumFloat2,QudaSumFloat,xpaycdotzy,0,1,0,0,0,false>

       (make_double2(a, 0.0), make_double2(0.0, 0.0), x, y, z, x, x);

     return Complex(cdot.x, cdot.y);

   }


   template <typename ReduceType, typename Float2, typename FloatN>

 #if (__COMPUTE_CAPABILITY__ >= 200)

   struct caxpydotzy : public ReduceFunctor<ReduceType, Float2, FloatN> {

 #else

   struct caxpydotzy {

 #endif

     Float2 a;

     caxpydotzy(const Float2 &a, const Float2 &b) : a(a) { ; }

     __device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v) { Caxpy_(a, x, y); sum += cdot_(z,y); }

     static int streams() { return 4; }

     static int flops() { return 8; }

   };


   Complex caxpyDotzyCuda(const Complex &a, cudaColorSpinorField &x, cudaColorSpinorField &y,

                          cudaColorSpinorField &z) {

     double2 cdot = reduce::reduceCuda<double2,QudaSumFloat2,QudaSumFloat,caxpydotzy,0,1,0,0,0,false>

       (make_double2(REAL(a), IMAG(a)), make_double2(0.0, 0.0), x, y, z, x, x);

     return Complex(cdot.x, cdot.y);

   }


   __device__ double3 cdotNormA_(const double2 &a, const double2 &b)

   { return make_double3(a.x*b.x + a.y*b.y, a.x*b.y - a.y*b.x, a.x*a.x + a.y*a.y); }

   __device__ double3 cdotNormA_(const float2 &a, const float2 &b)

   { return make_double3(a.x*b.x + a.y*b.y, a.x*b.y - a.y*b.x, a.x*a.x + a.y*a.y); }

   __device__ double3 cdotNormA_(const float4 &a, const float4 &b)

   { return make_double3(a.x*b.x + a.y*b.y + a.z*b.z + a.w*b.w,

                         a.x*b.y - a.y*b.x + a.z*b.w - a.w*b.z,

                         a.x*a.x + a.y*a.y + a.z*a.z + a.w*a.w); }


   template <typename ReduceType, typename Float2, typename FloatN>

 #if (__COMPUTE_CAPABILITY__ >= 200)

   struct CdotNormA : public ReduceFunctor<ReduceType, Float2, FloatN> {

 #else

   struct CdotNormA {

 #endif

     CdotNormA(const Float2 &a, const Float2 &b) { ; }

     __device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v) { sum += cdotNormA_(x,y); }

     static int streams() { return 2; }

     static int flops() { return 6; }

   };


   double3 cDotProductNormACuda(cudaColorSpinorField &x, cudaColorSpinorField &y) {

     return reduce::reduceCuda<double3,QudaSumFloat3,QudaSumFloat,CdotNormA,0,0,0,0,0,false>

       (make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

   }


   __device__ double3 cdotNormB_(const double2 &a, const double2 &b)

   { return make_double3(a.x*b.x + a.y*b.y, a.x*b.y - a.y*b.x, b.x*b.x + b.y*b.y); }

   __device__ double3 cdotNormB_(const float2 &a, const float2 &b)

   { return make_double3(a.x*b.x + a.y*b.y, a.x*b.y - a.y*b.x, b.x*b.x + b.y*b.y); }

   __device__ double3 cdotNormB_(const float4 &a, const float4 &b)

   { return make_double3(a.x*b.x + a.y*b.y + a.z*b.z + a.w*b.w, a.x*b.y - a.y*b.x + a.z*b.w - a.w*b.z,

                         b.x*b.x + b.y*b.y + b.z*b.z + b.w*b.w); }


   template <typename ReduceType, typename Float2, typename FloatN>

 #if (__COMPUTE_CAPABILITY__ >= 200)

   struct CdotNormB : public ReduceFunctor<ReduceType, Float2, FloatN> {

 #else

   struct CdotNormB {

 #endif

     CdotNormB(const Float2 &a, const Float2 &b) { ; }

     __device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v) { sum += cdotNormB_(x,y); }

     static int streams() { return 2; }

     static int flops() { return 6; }

   };


   double3 cDotProductNormBCuda(cudaColorSpinorField &x, cudaColorSpinorField &y) {

     return reduce::reduceCuda<double3,QudaSumFloat3,QudaSumFloat,CdotNormB,0,0,0,0,0,false>

       (make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

   }


   template <typename ReduceType, typename Float2, typename FloatN>

 #if (__COMPUTE_CAPABILITY__ >= 200)

   struct caxpbypzYmbwcDotProductUYNormY : public ReduceFunctor<ReduceType, Float2, FloatN> {

 #else

   struct caxpbypzYmbwcDotProductUYNormY {

 #endif

     Float2 a;

     Float2 b;

     caxpbypzYmbwcDotProductUYNormY(const Float2 &a, const Float2 &b) : a(a), b(b) { ; }

     __device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v) { Caxpy_(a, x, z); Caxpy_(b, y, z); Caxpy_(-b, w, y); sum += cdotNormB_(v,y); }

     static int streams() { return 7; }

     static int flops() { return 18; }

   };


   double3 caxpbypzYmbwcDotProductUYNormYCuda(const Complex &a, cudaColorSpinorField &x,

                                              const Complex &b, cudaColorSpinorField &y,

                                              cudaColorSpinorField &z, cudaColorSpinorField &w,

                                              cudaColorSpinorField &u) {

     if (x.Precision() != z.Precision()) {

       return reduce::mixed::reduceCuda<double3,QudaSumFloat3,QudaSumFloat,caxpbypzYmbwcDotProductUYNormY,0,1,1,0,0,false>

       (make_double2(REAL(a), IMAG(a)), make_double2(REAL(b), IMAG(b)), x, y, z, w, u);


     } else {

       return reduce::reduceCuda<double3,QudaSumFloat3,QudaSumFloat,caxpbypzYmbwcDotProductUYNormY,0,1,1,0,0,false>

       (make_double2(REAL(a), IMAG(a)), make_double2(REAL(b), IMAG(b)), x, y, z, w, u);

     }

   }


   template <typename ReduceType, typename Float2, typename FloatN>

 #if (__COMPUTE_CAPABILITY__ >= 200)

   struct axpyCGNorm2 : public ReduceFunctor<ReduceType, Float2, FloatN> {

 #else

   struct axpyCGNorm2 {

 #endif

     Float2 a;

     axpyCGNorm2(const Float2 &a, const Float2 &b) : a(a) { ; }

     __device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v) {

       FloatN y_new = y + a.x*x;

       sum.x += norm2_(y_new);

       sum.y += dot_(y_new, y_new-y);

       y = y_new;

     }

     static int streams() { return 3; }

     static int flops() { return 6; }

   };


   Complex axpyCGNormCuda(const double &a, cudaColorSpinorField &x, cudaColorSpinorField &y) {

     double2 cg_norm = reduce::reduceCuda<double2,QudaSumFloat2,QudaSumFloat,axpyCGNorm2,0,1,0,0,0,false>

       (make_double2(a, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);

     return Complex(cg_norm.x, cg_norm.y);

   }


 #if (__COMPUTE_CAPABILITY__ >= 200)


   template <typename ReduceType, typename Float2, typename FloatN>

   struct HeavyQuarkResidualNorm : public ReduceFunctor<ReduceType, Float2, FloatN> {

     Float2 a;

     Float2 b;

     ReduceType aux;

     HeavyQuarkResidualNorm(const Float2 &a, const Float2 &b) : a(a), b(b) { ; }


     __device__ void pre() { aux.x = 0; aux.y = 0; }


     __device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v) { aux.x += norm2_(x); aux.y += norm2_(y); }


     __device__ void post(ReduceType &sum)

     {

       sum.x += aux.x; sum.y += aux.y; sum.z += (aux.x > 0.0) ? (aux.y / aux.x) : 1.0;

     }


     static int streams() { return 2; }

     static int flops() { return 4; }

   };


   double3 HeavyQuarkResidualNormCuda(cudaColorSpinorField &x, cudaColorSpinorField &r) {

     double3 rtn = reduce::reduceCuda<double3,QudaSumFloat3,QudaSumFloat,HeavyQuarkResidualNorm,0,0,0,0,0,true>

       (make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, r, r, r, r);

 #ifdef MULTI_GPU

     rtn.z /= (x.Volume()*comm_size());

 #else

     rtn.z /= x.Volume();

 #endif

     return rtn;

   }


   template <typename ReduceType, typename Float2, typename FloatN>

   struct xpyHeavyQuarkResidualNorm : public ReduceFunctor<ReduceType, Float2, FloatN> {

     Float2 a;

     Float2 b;

     ReduceType aux;

     xpyHeavyQuarkResidualNorm(const Float2 &a, const Float2 &b) : a(a), b(b) { ; }


     __device__ void pre() { aux.x = 0; aux.y = 0; }


     __device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)

     { aux.x += norm2_(x + y); aux.y += norm2_(z); }


     __device__ void post(ReduceType &sum)

     {

       sum.x += aux.x; sum.y += aux.y; sum.z += (aux.x > 0.0) ? (aux.y / aux.x) : 1.0;

     }


     static int streams() { return 3; }

     static int flops() { return 5; }

   };


   double3 xpyHeavyQuarkResidualNormCuda(cudaColorSpinorField &x, cudaColorSpinorField &y,

                                         cudaColorSpinorField &r) {

     double3 rtn = reduce::reduceCuda<double3,QudaSumFloat3,QudaSumFloat,xpyHeavyQuarkResidualNorm,0,0,0,0,0,true>

       (make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, r, r, r);

 #ifdef MULTI_GPU

     rtn.z /= (x.Volume()*comm_size());

 #else

     rtn.z /= x.Volume();

 #endif

     return rtn;

   }


 #else


   double3 HeavyQuarkResidualNormCuda(cudaColorSpinorField &x, cudaColorSpinorField &r) {

     errorQuda("Not supported on pre-Fermi architectures");

     return make_double3(0.0,0.0,0.0);

   }


   double3 xpyHeavyQuarkResidualNormCuda(cudaColorSpinorField &x, cudaColorSpinorField &y,

                                         cudaColorSpinorField &r) {

     errorQuda("Not supported on pre-Fermi architectures");

     return make_double3(0.0,0.0,0.0);

   }


 #endif


   template <typename ReduceType, typename Float2, typename FloatN>

 #if (__COMPUTE_CAPABILITY__ >= 200)

   struct tripleCGReduction : public ReduceFunctor<ReduceType, Float2, FloatN> {

 #else

   struct tripleCGReduction {

 #endif

     tripleCGReduction(const Float2 &a, const Float2 &b) { ; }

     __device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)

     { sum.x += norm2_(x); sum.y += norm2_(y); sum.z += dot_(y,z); }

     static int streams() { return 3; }

     static int flops() { return 6; }

   };


   double3 tripleCGReductionCuda(cudaColorSpinorField &x, cudaColorSpinorField &y, cudaColorSpinorField &z) {

     return reduce::reduceCuda<double3,QudaSumFloat3,QudaSumFloat,tripleCGReduction,0,0,0,0,0,false>

       (make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, z, x, x);

   }


 } // namespace quda

quda::caxpydotzy::caxpydotzy
caxpydotzy(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:553

quda::CdotNormB::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:617

quda::Cdot::operator()
__device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
Definition: reduce_quda.cu:463

quda::tripleCGReduction::streams
static int streams()
Definition: reduce_quda.cu:807

quda::tripleCGReductionCuda
double3 tripleCGReductionCuda(cudaColorSpinorField &x, cudaColorSpinorField &y, cudaColorSpinorField &z)
Definition: reduce_quda.cu:811

float_vector.h

pinned_malloc
#define pinned_malloc(size)
Definition: malloc_quda.h:26

quda::caxpbypzYmbwcDotProductUYNormY::a
Float2 a
Definition: reduce_quda.cu:635

y
int y[4]
Definition: staggered_dslash_core.h:356

deviceProp
cudaDeviceProp deviceProp
Definition: interface_quda.cpp:138

quda::CdotNormB::operator()
__device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
Definition: reduce_quda.cu:615

quda::DotNormA::operator()
__device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
Definition: reduce_quda.cu:292

quda::DotNormA::streams
static int streams()
Definition: reduce_quda.cu:293

quda::Cdot
Definition: reduce_quda.cu:460

quda::Norm2::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:142

quda::Dot::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:167

aux_tmp
char aux_tmp[quda::TuneKey::aux_n]
Definition: reduce_quda.cu:39

errorQuda
#define errorQuda(...)
Definition: util_quda.h:73

quda::initReduce
void initReduce()
Definition: reduce_quda.cu:52

quda::endReduce
void endReduce()
Definition: reduce_quda.cu:85

quda::caxpyxmaznormx::operator()
__device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
Definition: reduce_quda.cu:408

host_free
#define host_free(ptr)
Definition: malloc_quda.h:29

quda::axpyNorm2
Definition: reduce_quda.cu:311

quda::Norm2::operator()
__device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
Definition: reduce_quda.cu:140

quda::CdotNormA
Definition: reduce_quda.cu:583

quda::ReduceFunctor::post
virtual __device__ void post(ReduceType &sum)
post-computation routine called after the "M-loop"
Definition: reduce_quda.cu:122

quda::axpyNormCuda
double axpyNormCuda(const double &a, cudaColorSpinorField &x, cudaColorSpinorField &y)
Definition: reduce_quda.cu:321

quda::CdotNormA::operator()
__device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
Definition: reduce_quda.cu:586

quda::Complex
std::complex< double > Complex
Definition: eig_variables.h:13

quda::cabxpyaxnorm::a
Float2 a
Definition: reduce_quda.cu:432

quda::axpyNorm2::a
Float2 a
Definition: reduce_quda.cu:313

quda::Cdot::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:465

quda::ReduceFunctor::operator()
virtual __device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)=0
where the reduction is usually computed and any auxiliary operations

quda::axpyCGNorm2::a
Float2 a
Definition: reduce_quda.cu:670

aux_str
const char * aux_str
Definition: reduce_quda.cu:38

quda::caxpydotzy::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:556

quda::cdotNormA_
__device__ double3 cdotNormA_(const double2 &a, const double2 &b)
Definition: reduce_quda.cu:570

quda::DotNormA::flops
static int flops()
Definition: reduce_quda.cu:294

quda::xmyNorm2::streams
static int streams()
Definition: reduce_quda.cu:339

quda::caxpyNorm2
Definition: reduce_quda.cu:378

quda::cudaColorSpinorField
Definition: color_spinor_field.h:302

quda::cabxpyAxNormCuda
double cabxpyAxNormCuda(const double &a, const Complex &b, cudaColorSpinorField &x, cudaColorSpinorField &y)
Definition: reduce_quda.cu:440

quda::caxpydotzy::streams
static int streams()
Definition: reduce_quda.cu:555

double_single.h

quda::caxpyxmaznormx::streams
static int streams()
Definition: reduce_quda.cu:409

quda::xmyNorm2::operator()
__device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
Definition: reduce_quda.cu:337

texture.h

quda::cDotProductNormBCuda
double3 cDotProductNormBCuda(cudaColorSpinorField &a, cudaColorSpinorField &b)
Definition: reduce_quda.cu:620

quda::caxpyxmaznormx::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:410

reduce_core.h

quda::tripleCGReduction::tripleCGReduction
tripleCGReduction(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:804

quda::Dot::Dot
Dot(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:164

quda::xpaycdotzy::a
Float2 a
Definition: reduce_quda.cu:527

QudaSumFloat
#define QudaSumFloat
Definition: reduce_quda.cu:10

quda::reDotProductNormACuda
double2 reDotProductNormACuda(cudaColorSpinorField &a, cudaColorSpinorField &b)
Definition: reduce_quda.cu:297

quda::cabxpyaxnorm::b
Float2 b
Definition: reduce_quda.cu:433

quda::caxpyNorm2::caxpyNorm2
caxpyNorm2(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:381

quda::axpyCGNormCuda
Complex axpyCGNormCuda(const double &a, cudaColorSpinorField &x, cudaColorSpinorField &y)
Definition: reduce_quda.cu:682

quda::axpyNorm2::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:318

quda::cabxpyaxnorm::operator()
__device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
Definition: reduce_quda.cu:435

quda::tripleCGReduction::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:808

quda::CdotNormB
Definition: reduce_quda.cu:612

quda::Dot::operator()
__device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
Definition: reduce_quda.cu:165

quda::CdotNormA::CdotNormA
CdotNormA(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:585

quda::axpyNorm2::streams
static int streams()
Definition: reduce_quda.cu:317

quda::Dot
Definition: reduce_quda.cu:162

quda::xpaycdotzy::xpaycdotzy
xpaycdotzy(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:528

quda::caxpyNorm2::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:385

quda::xpaycdotzy::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:531

comm_size
int comm_size(void)
Definition: comm_mpi.cpp:86

quda::caxpbypzYmbwcDotProductUYNormY::caxpbypzYmbwcDotProductUYNormY
caxpbypzYmbwcDotProductUYNormY(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:637

quda::axpyCGNorm2
Definition: reduce_quda.cu:668

quda::Dot::streams
static int streams()
Definition: reduce_quda.cu:166

quda::xpaycdotzy::streams
static int streams()
Definition: reduce_quda.cu:530

quda::caxpbypzYmbwcDotProductUYNormYCuda
double3 caxpbypzYmbwcDotProductUYNormYCuda(const Complex &a, cudaColorSpinorField &x, const Complex &b, cudaColorSpinorField &y, cudaColorSpinorField &z, cudaColorSpinorField &w, cudaColorSpinorField &u)
Definition: reduce_quda.cu:643

quda::cdotNormB_
__device__ double3 cdotNormB_(const double2 &a, const double2 &b)
Definition: reduce_quda.cu:600

REAL
#define REAL(a)
Definition: quda_internal.h:86

quda::CdotNormB::streams
static int streams()
Definition: reduce_quda.cu:616

quda::cDotProductCuda
Complex cDotProductCuda(cudaColorSpinorField &, cudaColorSpinorField &)
Definition: reduce_quda.cu:468

quda::xmyNorm2::xmyNorm2
xmyNorm2(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:336

quda::Cdot::Cdot
Cdot(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:462

quda::axpyCGNorm2::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:679

quda::axpyCGNorm2::axpyCGNorm2
axpyCGNorm2(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:671

quda::caxpyXmazNormXCuda
double caxpyXmazNormXCuda(const Complex &a, cudaColorSpinorField &x, cudaColorSpinorField &y, cudaColorSpinorField &z)
Definition: reduce_quda.cu:413

quda::caxpydotzy::operator()
__device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
Definition: reduce_quda.cu:554

quda::caxpyNorm2::streams
static int streams()
Definition: reduce_quda.cu:384

IMAG
#define IMAG(a)
Definition: quda_internal.h:87

quda::Norm2::streams
static int streams()
Definition: reduce_quda.cu:141

quda::xmyNorm2::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:340

quda::caxpyNorm2::operator()
__device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
Definition: reduce_quda.cu:382

quda::cabxpyaxnorm::cabxpyaxnorm
cabxpyaxnorm(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:434

quda::norm2_
__device__ double norm2_(const double2 &a)
Definition: reduce_quda.cu:129

quda::normCuda
double normCuda(const cudaColorSpinorField &b)
Definition: reduce_quda.cu:145

quda::xpaycdotzy::operator()
__device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
Definition: reduce_quda.cu:529

quda::caxpbypzYmbwcDotProductUYNormY::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:640

quda::caxpyDotzyCuda
Complex caxpyDotzyCuda(const Complex &a, cudaColorSpinorField &x, cudaColorSpinorField &y, cudaColorSpinorField &z)
Definition: reduce_quda.cu:559

quda::xpaycDotzyCuda
Complex xpaycDotzyCuda(cudaColorSpinorField &x, const double &a, cudaColorSpinorField &y, cudaColorSpinorField &z)
Definition: reduce_quda.cu:534

x
int x[4]
Definition: hisq_paths_force_core.h:99

tune_quda.h

quda::axpyNorm2::axpyNorm2
axpyNorm2(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:314

quda::getBlasStream
cudaStream_t * getBlasStream()
Definition: blas_quda.cu:64

quda::cabxpyaxnorm::streams
static int streams()
Definition: reduce_quda.cu:436

quda::caxpyxmaznormx::caxpyxmaznormx
caxpyxmaznormx(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:407

blas_quda.h

quda::xpyHeavyQuarkResidualNormCuda
double3 xpyHeavyQuarkResidualNormCuda(cudaColorSpinorField &x, cudaColorSpinorField &y, cudaColorSpinorField &r)
Definition: reduce_quda.cu:782

quda::Norm2
Definition: reduce_quda.cu:137

quda::cabxpyaxnorm
Definition: reduce_quda.cu:430

quda::axpyCGNorm2::streams
static int streams()
Definition: reduce_quda.cu:678

quda::Caxpy_
__device__ void Caxpy_(const float2 &a, const float4 &x, float4 &y)
Definition: reduce_quda.cu:353

quda::DotNormA::DotNormA
DotNormA(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:291

quda::reDotProductCuda
double reDotProductCuda(cudaColorSpinorField &a, cudaColorSpinorField &b)
Definition: reduce_quda.cu:170

vol_str
const char * vol_str
Definition: reduce_quda.cu:37

memset
void * memset(void *s, int c, size_t n)

quda::xpaycdotzy
Definition: reduce_quda.cu:525

quda::axpyNorm2::operator()
__device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
Definition: reduce_quda.cu:315

quda::caxpbypzYmbwcDotProductUYNormY::operator()
__device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
Definition: reduce_quda.cu:638

quda::caxpydotzy
Definition: reduce_quda.cu:550

quda::ColorSpinorField::Precision
QudaPrecision Precision() const
Definition: color_spinor_field.h:242

quda::TuneKey::aux_n
static const int aux_n
Definition: tune_key.h:12

quda::axpyCGNorm2::operator()
__device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
Definition: reduce_quda.cu:672

quda::caxpbypzYmbwcDotProductUYNormY::streams
static int streams()
Definition: reduce_quda.cu:639

reduce_mixed_core.h

quda::HeavyQuarkResidualNorm
double3 HeavyQuarkResidualNorm(const Float *x, const Float *r, const int volume, const int Nint)
Definition: blas_cpu.cpp:310

quda::cDotProductNormACuda
double3 cDotProductNormACuda(cudaColorSpinorField &a, cudaColorSpinorField &b)
Definition: reduce_quda.cu:591

quda::caxpydotzy::a
Float2 a
Definition: reduce_quda.cu:552

device_malloc
#define device_malloc(size)
Definition: malloc_quda.h:24

quda::tripleCGReduction::operator()
__device__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
Definition: reduce_quda.cu:805

quda::Norm2::Norm2
Norm2(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:139

REDUCE_MAX_BLOCKS
#define REDUCE_MAX_BLOCKS
Definition: reduce_quda.cu:16

quda::tripleCGReduction
Definition: reduce_quda.cu:802

checkCudaError
#define checkCudaError()
Definition: util_quda.h:110

mapped_malloc
#define mapped_malloc(size)
Definition: malloc_quda.h:27

quda::caxpyNorm2::a
Float2 a
Definition: reduce_quda.cu:380

quda::dot_
__device__ double dot_(const double2 &a, const double2 &b)
Definition: reduce_quda.cu:154

quda::Cdot::streams
static int streams()
Definition: reduce_quda.cu:464

quda::caxpyNormCuda
double caxpyNormCuda(const Complex &a, cudaColorSpinorField &x, cudaColorSpinorField &y)
Definition: reduce_quda.cu:388

quda::CdotNormB::CdotNormB
CdotNormB(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:614

quda::HeavyQuarkResidualNormCuda
double3 HeavyQuarkResidualNormCuda(cudaColorSpinorField &x, cudaColorSpinorField &r)
Definition: reduce_quda.cu:777

quda::dotNormA_
__device__ double2 dotNormA_(const double2 &a, const double2 &b)
Definition: reduce_quda.cu:273

quda::cdot_
__device__ double2 cdot_(const double2 &a, const double2 &b)
Definition: reduce_quda.cu:449

quda::DotNormA
Definition: reduce_quda.cu:289

quda::cabxpyaxnorm::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:437

quda::xmyNormCuda
double xmyNormCuda(cudaColorSpinorField &a, cudaColorSpinorField &b)
Definition: reduce_quda.cu:343

quda::caxpyxmaznormx::a
Float2 a
Definition: reduce_quda.cu:406

quda::ReduceFunctor
Definition: reduce_quda.cu:112

quda::ReduceFunctor::pre
virtual __device__ void pre()
pre-computation routine called before the "M-loop"
Definition: reduce_quda.cu:115

quda::CdotNormA::streams
static int streams()
Definition: reduce_quda.cu:587

quda::caxpbypzYmbwcDotProductUYNormY
Definition: reduce_quda.cu:633

quda::xmyNorm2
Definition: reduce_quda.cu:334

quda::CdotNormA::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:588

device_free
#define device_free(ptr)
Definition: malloc_quda.h:28

quda::caxpbypzYmbwcDotProductUYNormY::b
Float2 b
Definition: reduce_quda.cu:636

quda::caxpyxmaznormx
Definition: reduce_quda.cu:404