v0.9.0/doc/reduce__quda_8cu_source.html

 #include <blas_quda.h>
 #include <tune_quda.h>
 #include <float_vector.h>
 #include <color_spinor_field_order.h>

 //#define QUAD_SUM
 #ifdef QUAD_SUM
 #include <dbldbl.h>
 #endif

 #include <cub_helper.cuh>
 #include <algorithm>

 template<typename> struct ScalarType { };
 template<> struct ScalarType<double> { typedef double type; };
 template<> struct ScalarType<double2> { typedef double type; };
 template<> struct ScalarType<double3> { typedef double type; };
 template<> struct ScalarType<double4> { typedef double type; };

 template<typename> struct Vec2Type { };
 template<> struct Vec2Type<double> { typedef double2 type; };

 #ifdef QUAD_SUM
 #define QudaSumFloat doubledouble
 #define QudaSumFloat2 doubledouble2
 #define QudaSumFloat3 doubledouble3
 template<> struct ScalarType<doubledouble> { typedef doubledouble type; };
 template<> struct ScalarType<doubledouble2> { typedef doubledouble type; };
 template<> struct ScalarType<doubledouble3> { typedef doubledouble type; };
 template<> struct ScalarType<doubledouble4> { typedef doubledouble type; };
 template<> struct Vec2Type<doubledouble> { typedef doubledouble2 type; };
 #else
 #define QudaSumFloat double
 #define QudaSumFloat2 double2
 #define QudaSumFloat3 double3
 #define QudaSumFloat4 double4
 #endif


 void checkSpinor(const ColorSpinorField &a, const ColorSpinorField &b) {
   if (a.Precision() != b.Precision())
     errorQuda("precisions do not match: %d %d", a.Precision(), b.Precision());
   if (a.Length() != b.Length())
     errorQuda("lengths do not match: %lu %lu", a.Length(), b.Length());
   if (a.Stride() != b.Stride())
     errorQuda("strides do not match: %d %d", a.Stride(), b.Stride());
 }

 void checkLength(const ColorSpinorField &a, ColorSpinorField &b) {                  \
   if (a.Length() != b.Length())
     errorQuda("lengths do not match: %lu %lu", a.Length(), b.Length());
   if (a.Stride() != b.Stride())
     errorQuda("strides do not match: %d %d", a.Stride(), b.Stride());
 }

 static struct {
   const char *vol_str;
   const char *aux_str;
   char aux_tmp[quda::TuneKey::aux_n];
 } blasStrings;

 // These are used for reduction kernels
 static QudaSumFloat *d_reduce=0;
 static QudaSumFloat *h_reduce=0;
 static QudaSumFloat *hd_reduce=0;
 static cudaEvent_t reduceEnd;

 namespace quda {
   namespace blas {

     cudaStream_t* getStream();

     void* getDeviceReduceBuffer() { return d_reduce; }
     void* getMappedHostReduceBuffer() { return hd_reduce; }
     void* getHostReduceBuffer() { return h_reduce; }
     cudaEvent_t* getReduceEvent() { return &reduceEnd; }

     void initReduce()
     {
       /* we have these different reductions to cater for:

    - regular reductions (reduce_quda.cu) where are reducing to a
            single vector type (max length 4 presently), with possibly
            parity dimension, and a grid-stride loop with max number of
            blocks = 2 x SM count

    - multi-reductions where we are reducing to a matrix of size
      of size MAX_MULTI_BLAS_N^2 of vectors (max length 4), with
      possible parity dimension, and a grid-stride loop with
      maximum number of blocks = 2 x SM count

   - inline reductions in kernels where we cannot assume a grid
            stride loop - hence max blocks is given by the architecture
            limit

       */

       const int max_reduce_blocks = 2*deviceProp.multiProcessorCount; // FIXME - should set this according to what's used in tune_quda.h

       const int max_reduce = 2 * max_reduce_blocks * 4 * sizeof(QudaSumFloat);
       const int max_multi_reduce = 2 * MAX_MULTI_BLAS_N * MAX_MULTI_BLAS_N * max_reduce_blocks * 4 * sizeof(QudaSumFloat);

       const int max_generic_blocks = 65336; // FIXME - this isn't quite right
       const int max_generic_reduce = 2 * MAX_MULTI_BLAS_N * max_generic_blocks * 4 * sizeof(QudaSumFloat);

       // reduction buffer size
       size_t bytes = std::max(std::max(max_reduce, max_multi_reduce), max_generic_reduce);

       if (!d_reduce) d_reduce = (QudaSumFloat *) device_malloc(bytes);

       // these arrays are actually oversized currently (only needs to be QudaSumFloat3)

       // if the device supports host-mapped memory then use a host-mapped array for the reduction
       if (!h_reduce) {
   // only use zero copy reductions when using 64-bit
 #if (defined(_MSC_VER) && defined(_WIN64)) || defined(__LP64__)
   if(deviceProp.canMapHostMemory) {
     h_reduce = (QudaSumFloat *) mapped_malloc(bytes);
     cudaHostGetDevicePointer(&hd_reduce, h_reduce, 0); // set the matching device pointer
   } else
 #endif
     {
       h_reduce = (QudaSumFloat *) pinned_malloc(bytes);
       hd_reduce = d_reduce;
     }
   memset(h_reduce, 0, bytes); // added to ensure that valgrind doesn't report h_reduce is unitialised
       }

       cudaEventCreateWithFlags(&reduceEnd, cudaEventDisableTiming);

       checkCudaError();
     }

     void endReduce(void)
     {
       if (d_reduce) {
   device_free(d_reduce);
   d_reduce = 0;
       }
       if (h_reduce) {
   host_free(h_reduce);
   h_reduce = 0;
       }
       hd_reduce = 0;

       cudaEventDestroy(reduceEnd);
     }

     namespace reduce {

 #include <texture.h>
 #include <reduce_core.cuh>
 #include <reduce_core.h>
 #include <reduce_mixed_core.h>

     } // namespace reduce

     template <typename ReduceType, typename Float2, typename FloatN>
     struct ReduceFunctor {

       virtual __device__ __host__ void pre() { ; }

       virtual __device__ __host__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y,
                  FloatN &z, FloatN &w, FloatN &v) = 0;

       virtual __device__ __host__ void post(ReduceType &sum) { ; }

     };

     template<typename ReduceType> __device__ __host__ ReduceType norm1_(const double2 &a) {
       return (ReduceType)fabs(a.x) + (ReduceType)fabs(a.y);
     }

     template<typename ReduceType> __device__ __host__ ReduceType norm1_(const float2 &a) {
       return (ReduceType)fabs(a.x) + (ReduceType)fabs(a.y);
     }

     template<typename ReduceType> __device__ __host__ ReduceType norm1_(const float4 &a) {
       return (ReduceType)fabs(a.x) + (ReduceType)fabs(a.y) + (ReduceType)fabs(a.z) + (ReduceType)fabs(a.w);
     }

     template <typename ReduceType, typename Float2, typename FloatN>
     struct Norm1 : public ReduceFunctor<ReduceType, Float2, FloatN> {
       Norm1(const Float2 &a, const Float2 &b) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z,FloatN  &w, FloatN &v)
       { sum += norm1_<ReduceType>(x); }
       static int streams() { return 1; }
       static int flops() { return 2; }
     };

     double norm1(const ColorSpinorField &x) {
 #ifdef HOST_DEBUG
       ColorSpinorField &y = const_cast<ColorSpinorField&>(x); // FIXME
       return reduce::reduceCuda<double,QudaSumFloat,Norm1,0,0,0,0,0,false>
   (make_double2(0.0, 0.0), make_double2(0.0, 0.0), y, y, y, y, y);
 #else
   errorQuda("L1 norm kernel only built when HOST_DEBUG is enabled");
       return 0.0;
 #endif
     }

     template<typename ReduceType> __device__ __host__ void norm2_(ReduceType &sum, const double2 &a) {
       sum += (ReduceType)a.x*(ReduceType)a.x;
       sum += (ReduceType)a.y*(ReduceType)a.y;
     }

     template<typename ReduceType> __device__ __host__ void norm2_(ReduceType &sum, const float2 &a) {
       sum += (ReduceType)a.x*(ReduceType)a.x;
       sum += (ReduceType)a.y*(ReduceType)a.y;
     }

     template<typename ReduceType> __device__ __host__ void norm2_(ReduceType &sum, const float4 &a) {
       sum += (ReduceType)a.x*(ReduceType)a.x;
       sum += (ReduceType)a.y*(ReduceType)a.y;
       sum += (ReduceType)a.z*(ReduceType)a.z;
       sum += (ReduceType)a.w*(ReduceType)a.w;
     }


     template <typename ReduceType, typename Float2, typename FloatN>
       struct Norm2 : public ReduceFunctor<ReduceType, Float2, FloatN> {
       Norm2(const Float2 &a, const Float2 &b) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z,FloatN  &w, FloatN &v)
       { norm2_<ReduceType>(sum,x); }
       static int streams() { return 1; }
       static int flops() { return 2; }
     };

     double norm2(const ColorSpinorField &x) {
       ColorSpinorField &y = const_cast<ColorSpinorField&>(x);
       return reduce::reduceCuda<double,QudaSumFloat,Norm2,0,0,0,0,0,false>
   (make_double2(0.0, 0.0), make_double2(0.0, 0.0), y, y, y, y, y);
     }


     template<typename ReduceType> __device__ __host__ void dot_(ReduceType &sum, const double2 &a, const double2 &b) {
       sum += (ReduceType)a.x*(ReduceType)b.x;
       sum += (ReduceType)a.y*(ReduceType)b.y;
     }

     template<typename ReduceType> __device__ __host__ void dot_(ReduceType &sum, const float2 &a, const float2 &b) {
       sum += (ReduceType)a.x*(ReduceType)b.x;
       sum += (ReduceType)a.y*(ReduceType)b.y;
     }

     template<typename ReduceType> __device__ __host__ void dot_(ReduceType &sum, const float4 &a, const float4 &b) {
       sum += (ReduceType)a.x*(ReduceType)b.x;
       sum += (ReduceType)a.y*(ReduceType)b.y;
       sum += (ReduceType)a.z*(ReduceType)b.z;
       sum += (ReduceType)a.w*(ReduceType)b.w;
     }

    template <typename ReduceType, typename Float2, typename FloatN>
     struct Dot : public ReduceFunctor<ReduceType, Float2, FloatN> {
       Dot(const Float2 &a, const Float2 &b) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
      { dot_<ReduceType>(sum,x,y); }
       static int streams() { return 2; }
       static int flops() { return 2; }
     };

     double reDotProduct(ColorSpinorField &x, ColorSpinorField &y) {
       return reduce::reduceCuda<double,QudaSumFloat,Dot,0,0,0,0,0,false>
   (make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);
     }


     template<typename ReduceType, typename InputType>
     __device__ __host__ ReduceType dotNormA_(const InputType &a, const InputType &b) {
       typedef typename ScalarType<ReduceType>::type scalar;
       ReduceType c;
       dot_<scalar>(c.x,a,b);
       norm2_<scalar>(c.y,a);
       return c;
     }

     template <typename ReduceType, typename Float2, typename FloatN>
     struct DotNormA : public ReduceFunctor<ReduceType, Float2, FloatN> {
       DotNormA(const Float2 &a, const Float2 &b){}
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z,  FloatN &w, FloatN &v)
       {sum += dotNormA_<ReduceType,FloatN>(x,y);}
       static int streams() { return 2; }
       static int flops() { return 4; }
     };

     double2 reDotProductNormA(ColorSpinorField &x,ColorSpinorField &y){
       return reduce::reduceCuda<double2,QudaSumFloat2,DotNormA,0,0,0,0,0,false>
   (make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);
     }


     template <typename ReduceType, typename Float2, typename FloatN>
     struct axpyNorm2 : public ReduceFunctor<ReduceType, Float2, FloatN> {
       Float2 a;
       axpyNorm2(const Float2 &a, const Float2 &b) : a(a) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v) {
   y += a.x*x; norm2_<ReduceType>(sum,y); }
       static int streams() { return 3; }
       static int flops() { return 4; }
     };

     double axpyNorm(const double &a, ColorSpinorField &x, ColorSpinorField &y) {
       return reduce::reduceCuda<double,QudaSumFloat,axpyNorm2,0,1,0,0,0,false>
   (make_double2(a, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);
     }


     template <typename ReduceType, typename Float2, typename FloatN>
     struct AxpyReDot : public ReduceFunctor<ReduceType, Float2, FloatN> {
       Float2 a;
       AxpyReDot(const Float2 &a, const Float2 &b) : a(a) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v) {
   y += a.x*x; dot_<ReduceType>(sum,x,y); }
       static int streams() { return 3; }
       static int flops() { return 4; }
     };

     double axpyReDot(const double &a, ColorSpinorField &x, ColorSpinorField &y) {
       return reduce::reduceCuda<double,QudaSumFloat,AxpyReDot,0,1,0,0,0,false>
   (make_double2(a, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);
     }


     template <typename ReduceType, typename Float2, typename FloatN>
     struct xmyNorm2 : public ReduceFunctor<ReduceType, Float2, FloatN> {
       xmyNorm2(const Float2 &a, const Float2 &b) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v) {
   y = x - y; norm2_<ReduceType>(sum,y); }
       static int streams() { return 3; }
       static int flops() { return 3; }
     };

     double xmyNorm(ColorSpinorField &x, ColorSpinorField &y) {
       return reduce::reduceCuda<double,QudaSumFloat,xmyNorm2,0,1,0,0,0,false>
   (make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);
     }


     __device__ __host__ void Caxpy_(const double2 &a, const double2 &x, double2 &y) {
       y.x += a.x*x.x; y.x -= a.y*x.y;
       y.y += a.y*x.x; y.y += a.x*x.y;
     }
     __device__ __host__ void Caxpy_(const float2 &a, const float2 &x, float2 &y) {
       y.x += a.x*x.x; y.x -= a.y*x.y;
       y.y += a.y*x.x; y.y += a.x*x.y;
     }
     __device__ __host__ void Caxpy_(const float2 &a, const float4 &x, float4 &y) {
       y.x += a.x*x.x; y.x -= a.y*x.y;
       y.y += a.y*x.x; y.y += a.x*x.y;
       y.z += a.x*x.z; y.z -= a.y*x.w;
       y.w += a.y*x.z; y.w += a.x*x.w;
     }

     template <typename ReduceType, typename Float2, typename FloatN>
     struct caxpyNorm2 : public ReduceFunctor<ReduceType, Float2, FloatN> {
       Float2 a;
       caxpyNorm2(const Float2 &a, const Float2 &b) : a(a) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v) {
   Caxpy_(a, x, y); norm2_<ReduceType>(sum,y); }
       static int streams() { return 3; }
       static int flops() { return 6; }
     };

     double caxpyNorm(const Complex &a, ColorSpinorField &x, ColorSpinorField &y) {
       return reduce::reduceCuda<double,QudaSumFloat,caxpyNorm2,0,1,0,0,0,false>
   (make_double2(REAL(a), IMAG(a)), make_double2(0.0, 0.0), x, y, x, x, x);
     }


     template <typename ReduceType, typename Float2, typename FloatN>
     struct caxpyxmaznormx : public ReduceFunctor<ReduceType, Float2, FloatN> {
       Float2 a;
       caxpyxmaznormx(const Float2 &a, const Float2 &b) : a(a) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       { Caxpy_(a, x, y); Caxpy_(-a,z,x); norm2_<ReduceType>(sum,x); }
       static int streams() { return 5; }
       static int flops() { return 10; }
     };

     double caxpyXmazNormX(const Complex &a, ColorSpinorField &x,
         ColorSpinorField &y, ColorSpinorField &z) {
       return reduce::reduceCuda<double,QudaSumFloat,caxpyxmaznormx,1,1,0,0,0,false>
   (make_double2(REAL(a), IMAG(a)), make_double2(0.0, 0.0), x, y, z, x, x);
     }


     template <typename ReduceType, typename Float2, typename FloatN>
     struct cabxpyaxnorm : public ReduceFunctor<ReduceType, Float2, FloatN> {
       Float2 a;
       Float2 b;
       cabxpyaxnorm(const Float2 &a, const Float2 &b) : a(a), b(b) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       { x *= a.x; Caxpy_(b, x, y); norm2_<ReduceType>(sum,y); }
       static int streams() { return 4; }
       static int flops() { return 10; }
     };


     double cabxpyAxNorm(const double &a, const Complex &b,
       ColorSpinorField &x, ColorSpinorField &y) {
       return reduce::reduceCuda<double,QudaSumFloat,cabxpyaxnorm,1,1,0,0,0,false>
   (make_double2(a, 0.0), make_double2(REAL(b), IMAG(b)), x, y, x, x, x);
     }


     template<typename ReduceType>
     __device__ __host__ void cdot_(ReduceType &sum, const double2 &a, const double2 &b) {
       typedef typename ScalarType<ReduceType>::type scalar;
       sum.x += (scalar)a.x*(scalar)b.x;
       sum.x += (scalar)a.y*(scalar)b.y;
       sum.y += (scalar)a.x*(scalar)b.y;
       sum.y -= (scalar)a.y*(scalar)b.x;
     }

     template<typename ReduceType>
     __device__ __host__ void cdot_(ReduceType &sum, const float2 &a, const float2 &b) {
       typedef typename ScalarType<ReduceType>::type scalar;
       sum.x += (scalar)a.x*(scalar)b.x;
       sum.x += (scalar)a.y*(scalar)b.y;
       sum.y += (scalar)a.x*(scalar)b.y;
       sum.y -= (scalar)a.y*(scalar)b.x;
     }

     template<typename ReduceType>
     __device__ __host__ void cdot_(ReduceType &sum, const float4 &a, const float4 &b) {
       typedef typename ScalarType<ReduceType>::type scalar;
       sum.x += (scalar)a.x*(scalar)b.x;
       sum.x += (scalar)a.y*(scalar)b.y;
       sum.x += (scalar)a.z*(scalar)b.z;
       sum.x += (scalar)a.w*(scalar)b.w;
       sum.y += (scalar)a.x*(scalar)b.y;
       sum.y -= (scalar)a.y*(scalar)b.x;
       sum.y += (scalar)a.z*(scalar)b.w;
       sum.y -= (scalar)a.w*(scalar)b.z;
     }

     template <typename ReduceType, typename Float2, typename FloatN>
     struct Cdot : public ReduceFunctor<ReduceType, Float2, FloatN> {
       Cdot(const Float2 &a, const Float2 &b) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       { cdot_<ReduceType>(sum,x,y); }
       static int streams() { return 2; }
       static int flops() { return 4; }
     };


     Complex cDotProduct(ColorSpinorField &x, ColorSpinorField &y) {
       double2 cdot = reduce::reduceCuda<double2,QudaSumFloat2,Cdot,0,0,0,0,0,false>
   (make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);
       return Complex(cdot.x, cdot.y);
     }

     template <typename ReduceType, typename Float2, typename FloatN>
     struct xpaycdotzy : public ReduceFunctor<ReduceType, Float2, FloatN> {
       Float2 a;
       xpaycdotzy(const Float2 &a, const Float2 &b) : a(a) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       { y = x + a.x*y; cdot_<ReduceType>(sum,z,y); }
       static int streams() { return 4; }
       static int flops() { return 6; }
     };

     Complex xpaycDotzy(ColorSpinorField &x, const double &a, ColorSpinorField &y, ColorSpinorField &z) {
       double2 cdot = reduce::reduceCuda<double2,QudaSumFloat2,xpaycdotzy,0,1,0,0,0,false>
   (make_double2(a, 0.0), make_double2(0.0, 0.0), x, y, z, x, x);
       return Complex(cdot.x, cdot.y);
     }


     template <typename ReduceType, typename Float2, typename FloatN>
     struct caxpydotzy : public ReduceFunctor<ReduceType, Float2, FloatN> {
       Float2 a;
       caxpydotzy(const Float2 &a, const Float2 &b) : a(a) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       { Caxpy_(a, x, y); cdot_<ReduceType>(sum,z,y); }
       static int streams() { return 4; }
       static int flops() { return 8; }
     };


     Complex caxpyDotzy(const Complex &a, ColorSpinorField &x, ColorSpinorField &y, ColorSpinorField &z) {
       double2 cdot = reduce::reduceCuda<double2,QudaSumFloat2,caxpydotzy,0,1,0,0,0,false>
   (make_double2(REAL(a), IMAG(a)), make_double2(0.0, 0.0), x, y, z, x, x);
       return Complex(cdot.x, cdot.y);
     }


     template<typename ReduceType, typename InputType>
     __device__ __host__ void cdotNormA_(ReduceType &sum, const InputType &a, const InputType &b) {
       typedef typename ScalarType<ReduceType>::type scalar;
       typedef typename Vec2Type<scalar>::type vec2;
       cdot_<ReduceType>(sum,a,b);
       norm2_<scalar>(sum.z,a);
     }

     template <typename ReduceType, typename Float2, typename FloatN>
     struct CdotNormA : public ReduceFunctor<ReduceType, Float2, FloatN> {
       CdotNormA(const Float2 &a, const Float2 &b) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       { cdotNormA_<ReduceType>(sum,x,y); }
       static int streams() { return 2; }
       static int flops() { return 6; }
     };

     double3 cDotProductNormA(ColorSpinorField &x, ColorSpinorField &y) {
       return reduce::reduceCuda<double3,QudaSumFloat3,CdotNormA,0,0,0,0,0,false>
   (make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);
     }


     template<typename ReduceType, typename InputType>
     __device__ __host__ void cdotNormB_(ReduceType &sum, const InputType &a, const InputType &b) {
       typedef typename ScalarType<ReduceType>::type scalar;
       typedef typename Vec2Type<scalar>::type vec2;
       cdot_<ReduceType>(sum,a,b);
       norm2_<scalar>(sum.z,b);
     }

     template <typename ReduceType, typename Float2, typename FloatN>
     struct CdotNormB : public ReduceFunctor<ReduceType, Float2, FloatN> {
       CdotNormB(const Float2 &a, const Float2 &b) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       { cdotNormB_<ReduceType>(sum,x,y); }
       static int streams() { return 2; }
       static int flops() { return 6; }
     };

     double3 cDotProductNormB(ColorSpinorField &x, ColorSpinorField &y) {
       return reduce::reduceCuda<double3,QudaSumFloat3,CdotNormB,0,0,0,0,0,false>
   (make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, x);
     }


     template <typename ReduceType, typename Float2, typename FloatN>
     struct caxpbypzYmbwcDotProductUYNormY_ : public ReduceFunctor<ReduceType, Float2, FloatN> {
       Float2 a;
       Float2 b;
       caxpbypzYmbwcDotProductUYNormY_(const Float2 &a, const Float2 &b) : a(a), b(b) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v) { Caxpy_(a, x, z); Caxpy_(b, y, z); Caxpy_(-b, w, y); cdotNormB_<ReduceType>(sum,v,y); }
       static int streams() { return 7; }
       static int flops() { return 18; }
     };

     double3 caxpbypzYmbwcDotProductUYNormY(const Complex &a, ColorSpinorField &x,
              const Complex &b, ColorSpinorField &y,
              ColorSpinorField &z, ColorSpinorField &w,
              ColorSpinorField &u) {
       if (x.Precision() != z.Precision()) {
   return reduce::mixed::reduceCuda<double3,QudaSumFloat3,caxpbypzYmbwcDotProductUYNormY_,0,1,1,0,0,false>
     (make_double2(REAL(a), IMAG(a)), make_double2(REAL(b), IMAG(b)), x, y, z, w, u);
       } else {
   return reduce::reduceCuda<double3,QudaSumFloat3,caxpbypzYmbwcDotProductUYNormY_,0,1,1,0,0,false>
     (make_double2(REAL(a), IMAG(a)), make_double2(REAL(b), IMAG(b)), x, y, z, w, u);
       }
     }


     template <typename ReduceType, typename Float2, typename FloatN>
     struct axpyCGNorm2 : public ReduceFunctor<ReduceType, Float2, FloatN> {
       Float2 a;
       axpyCGNorm2(const Float2 &a, const Float2 &b) : a(a) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v) {
   typedef typename ScalarType<ReduceType>::type scalar;
   FloatN z_new = z + a.x*x;
   norm2_<scalar>(sum.x,z_new);
   dot_<scalar>(sum.y,z_new,z_new-z);
   z = z_new;
       }
       static int streams() { return 3; }
       static int flops() { return 6; }
     };

     Complex axpyCGNorm(const double &a, ColorSpinorField &x, ColorSpinorField &y) {
       // swizzle since mixed is on z
       double2 cg_norm ;
       if (x.Precision() != y.Precision()) {
   cg_norm = reduce::mixed::reduceCuda<double2,QudaSumFloat2,axpyCGNorm2,0,0,1,0,0,false>
     (make_double2(a, 0.0), make_double2(0.0, 0.0), x, x, y, x, x);
       } else {
   cg_norm = reduce::reduceCuda<double2,QudaSumFloat2,axpyCGNorm2,0,0,1,0,0,false>
     (make_double2(a, 0.0), make_double2(0.0, 0.0), x, x, y, x, x);
       }
       return Complex(cg_norm.x, cg_norm.y);
     }


     template <typename ReduceType, typename Float2, typename FloatN>
     struct HeavyQuarkResidualNorm_ : public ReduceFunctor<ReduceType, Float2, FloatN> {
       typedef typename scalar<ReduceType>::type real;
       Float2 a;
       Float2 b;
       ReduceType aux;
       HeavyQuarkResidualNorm_(const Float2 &a, const Float2 &b) : a(a), b(b), aux{ } { ; }

       __device__ __host__ void pre() { aux.x = 0; aux.y = 0; }

       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v) {
   norm2_<real>(aux.x,x); norm2_<real>(aux.y,y);
       }

       __device__ __host__ void post(ReduceType &sum)
       {
   sum.x += aux.x; sum.y += aux.y; sum.z += (aux.x > 0.0) ? (aux.y / aux.x) : static_cast<real>(1.0);
       }

       static int streams() { return 2; }
       static int flops() { return 4; }
     };

     double3 HeavyQuarkResidualNorm(ColorSpinorField &x, ColorSpinorField &r) {
       double3 rtn = reduce::reduceCuda<double3,QudaSumFloat3,HeavyQuarkResidualNorm_,0,0,0,0,0,true>
   (make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, r, r, r, r);
       rtn.z /= (x.Volume()*comm_size());
       return rtn;
     }


     template <typename ReduceType, typename Float2, typename FloatN>
     struct xpyHeavyQuarkResidualNorm_ : public ReduceFunctor<ReduceType, Float2, FloatN> {
   typedef typename scalar<ReduceType>::type real;
       Float2 a;
       Float2 b;
       ReduceType aux;
       xpyHeavyQuarkResidualNorm_(const Float2 &a, const Float2 &b) : a(a), b(b), aux{ } { ; }

       __device__ __host__ void pre() { aux.x = 0; aux.y = 0; }

       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v) {
   norm2_<real>(aux.x,x + y); norm2_<real>(aux.y,z);
       }

       __device__ __host__ void post(ReduceType &sum)
       {
   sum.x += aux.x; sum.y += aux.y; sum.z += (aux.x > 0.0) ? (aux.y / aux.x) : static_cast<real>(1.0);
       }

       static int streams() { return 3; }
       static int flops() { return 5; }
     };

     double3 xpyHeavyQuarkResidualNorm(ColorSpinorField &x, ColorSpinorField &y,
               ColorSpinorField &r) {
       double3 rtn = reduce::reduceCuda<double3,QudaSumFloat3,xpyHeavyQuarkResidualNorm_,0,0,0,0,0,true>
   (make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, r, r, r);
       rtn.z /= (x.Volume()*comm_size());
       return rtn;
     }

     template <typename ReduceType, typename Float2, typename FloatN>
     struct tripleCGReduction_ : public ReduceFunctor<ReduceType, Float2, FloatN> {
       tripleCGReduction_(const Float2 &a, const Float2 &b) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v) {
   typedef typename ScalarType<ReduceType>::type scalar;
   norm2_<scalar>(sum.x,x); norm2_<scalar>(sum.y,y); dot_<scalar>(sum.z,y,z);
       }
       static int streams() { return 3; }
       static int flops() { return 6; }
     };

     double3 tripleCGReduction(ColorSpinorField &x, ColorSpinorField &y, ColorSpinorField &z) {
       return reduce::reduceCuda<double3,QudaSumFloat3,tripleCGReduction_,0,0,0,0,0,false>
   (make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, z, x, x);
     }


 #ifdef ALTRELIABLE

     template <typename ReduceType, typename Float2, typename FloatN>
     struct quadrupleCGReduction_ : public ReduceFunctor<ReduceType, Float2, FloatN> {
       quadrupleCGReduction_(const Float2 &a, const Float2 &b) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v) {
   typedef typename ScalarType<ReduceType>::type scalar;
   norm2_<scalar>(sum.x,x); norm2_<scalar>(sum.y,y); dot_<scalar>(sum.z,y,z); norm2_<scalar>(sum.w,w);
       }
       static int streams() { return 3; }
       static int flops() { return 8; }
     };

     double4 quadrupleCGReduction(ColorSpinorField &x, ColorSpinorField &y, ColorSpinorField &z) {
       return reduce::reduceCuda<double4,QudaSumFloat4,quadrupleCGReduction_,0,0,0,0,0,false>
   (make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, z, x, x);
     }

 #endif

    } // namespace blas

 } // namespace quda
quda::blas::AxpyReDot::AxpyReDot
AxpyReDot(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:338

quda::blas::xpyHeavyQuarkResidualNorm_::real
scalar< ReduceType >::type real
Definition: reduce_quda.cu:720

quda::blas::dotNormA_
__device__ __host__ ReduceType dotNormA_(const InputType &a, const InputType &b)
Definition: reduce_quda.cu:288

quda::blas::axpyNorm2
Definition: reduce_quda.cu:316

Vec2Type
Definition: multi_reduce_quda.cu:19

quda::blas::caxpyxmaznormx::a
Float2 a
Definition: reduce_quda.cu:416

blasStrings
static struct @8 blasStrings

quda::blas::cdotNormA_
__device__ __host__ void cdotNormA_(ReduceType &sum, const InputType &a, const InputType &b)
Definition: reduce_quda.cu:556

quda::blas::axpyNorm2::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_quda.cu:319

float_vector.h

pinned_malloc
#define pinned_malloc(size)
Definition: malloc_quda.h:55

quda::blas::getHostReduceBuffer
void * getHostReduceBuffer()
Definition: reduce_quda.cu:75

quda::blas::cDotProductNormA
double3 cDotProductNormA(ColorSpinorField &a, ColorSpinorField &b)
Definition: reduce_quda.cu:572

quda::blas::cabxpyaxnorm
Definition: reduce_quda.cu:438

quda::blas::DotNormA
Definition: reduce_quda.cu:297

quda::blas::AxpyReDot::a
Float2 a
Definition: reduce_quda.cu:337

quda::blas::caxpyNorm
double caxpyNorm(const Complex &a, ColorSpinorField &x, ColorSpinorField &y)
Definition: reduce_quda.cu:402

quda::blas::caxpbypzYmbwcDotProductUYNormY_::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_quda.cu:614

quda::ColorSpinorField
Definition: color_spinor_field.h:271

quda::blas::caxpyNorm2::caxpyNorm2
caxpyNorm2(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:395

quda::blas::caxpyNorm2::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:399

quda::blas::Norm2::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_quda.cu:235

deviceProp
cudaDeviceProp deviceProp
Definition: interface_quda.cpp:152

quda::blas::HeavyQuarkResidualNorm_::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_quda.cu:689

quda::blas::caxpydotzy::streams
static int streams()
Definition: reduce_quda.cu:539

quda::blas::ReduceFunctor::pre
virtual __device__ __host__ void pre()
pre-computation routine called before the "M-loop"
Definition: reduce_quda.cu:165

quda::blas::cdot_
__device__ __host__ void cdot_(ReduceType &sum, const double2 &a, const double2 &b)
Definition: multi_reduce_quda.cu:226

ScalarType< double >::type
double type
Definition: reduce_quda.cu:15

quda::blas::caxpbypzYmbwcDotProductUYNormY_::streams
static int streams()
Definition: reduce_quda.cu:615

quda::blas::CdotNormB::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_quda.cu:593

quda::blas::xpaycdotzy::streams
static int streams()
Definition: reduce_quda.cu:517

aux_tmp
char aux_tmp[quda::TuneKey::aux_n]
Definition: reduce_quda.cu:59

quda::blas::cdotNormB_
__device__ __host__ void cdotNormB_(ReduceType &sum, const InputType &a, const InputType &b)
Definition: reduce_quda.cu:583

quda::blas::AxpyReDot::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_quda.cu:339

errorQuda
#define errorQuda(...)
Definition: util_quda.h:90

quda::blas::AxpyReDot::streams
static int streams()
Definition: reduce_quda.cu:341

quda::blas::norm2
double norm2(const ColorSpinorField &a)
Definition: reduce_quda.cu:241

quda::blas::axpyCGNorm2
Definition: reduce_quda.cu:640

quda::blas::caxpbypzYmbwcDotProductUYNormY_::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:616

host_free
#define host_free(ptr)
Definition: malloc_quda.h:59

quda::blas::axpyNorm2::axpyNorm2
axpyNorm2(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:318

quda::blas::caxpydotzy::caxpydotzy
caxpydotzy(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:536

quda::blas::Dot::streams
static int streams()
Definition: reduce_quda.cu:273

quda::blas::caxpyNorm2
Definition: reduce_quda.cu:393

quda::blas::cDotProduct
Complex cDotProduct(ColorSpinorField &, ColorSpinorField &)
Definition: reduce_quda.cu:500

dbldbl.h

quda::Complex
std::complex< double > Complex
Definition: eig_variables.h:13

streams
cudaStream_t * streams
Definition: interface_quda.cpp:153

quda::blas::AxpyReDot::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:342

cub_helper.cuh

quda::blas::norm1_
__device__ __host__ ReduceType norm1_(const double2 &a)
Definition: reduce_quda.cu:179

quda::blas::Norm2::Norm2
Norm2(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:234

quda::blas::xpyHeavyQuarkResidualNorm
double3 xpyHeavyQuarkResidualNorm(ColorSpinorField &x, ColorSpinorField &y, ColorSpinorField &r)
Definition: reduce_quda.cu:742

checkLength
void checkLength(const ColorSpinorField &a, ColorSpinorField &b)
Definition: reduce_quda.cu:49

quda::blas::Cdot::Cdot
Cdot(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:492

quda::blas::axpyNorm
double axpyNorm(const double &a, ColorSpinorField &x, ColorSpinorField &y)
Definition: reduce_quda.cu:325

aux_str
const char * aux_str
Definition: reduce_quda.cu:58

quda::blas::reDotProduct
double reDotProduct(ColorSpinorField &x, ColorSpinorField &y)
Definition: reduce_quda.cu:277

quda::blas::cabxpyaxnorm::streams
static int streams()
Definition: reduce_quda.cu:444

z
int int z
Definition: CMakeCUDACompilerId.cpp1.ii:2637

quda::blas::xmyNorm2::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_quda.cu:358

quda::blas::Cdot::streams
static int streams()
Definition: reduce_quda.cu:495

quda::blas::getMappedHostReduceBuffer
void * getMappedHostReduceBuffer()
Definition: reduce_quda.cu:74

quda::blas::caxpbypzYmbwcDotProductUYNormY_::a
Float2 a
Definition: reduce_quda.cu:611

quda::blas::caxpydotzy::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:540

quda::blas::tripleCGReduction_::tripleCGReduction_
tripleCGReduction_(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:758

quda::blas::xmyNorm
double xmyNorm(ColorSpinorField &x, ColorSpinorField &y)
Definition: reduce_quda.cu:364

quda::blas::cabxpyaxnorm::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_quda.cu:442

quda::blas::caxpyNorm2::a
Float2 a
Definition: reduce_quda.cu:394

quda::blas::CdotNormB::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:596

quda::blas::CdotNormA::CdotNormA
CdotNormA(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:565

ScalarType
Definition: multi_reduce_quda.cu:14

texture.h

quda::blas::xpaycdotzy::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:518

quda::blas::xpyHeavyQuarkResidualNorm_::streams
static int streams()
Definition: reduce_quda.cu:738

quda::blas::HeavyQuarkResidualNorm_::real
scalar< ReduceType >::type real
Definition: reduce_quda.cu:681

reduce_core.h

quda::blas::tripleCGReduction_::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_quda.cu:759

quda
Definition: blas_cublas.h:6

quda::blas::axpyNorm2::streams
static int streams()
Definition: reduce_quda.cu:321

QudaSumFloat
#define QudaSumFloat
Definition: reduce_quda.cu:33

quda::scalar
Definition: register_traits.h:94

ScalarType< double2 >::type
double type
Definition: reduce_quda.cu:16

quda::blas::xpyHeavyQuarkResidualNorm_::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:739

b
#define b
Definition: dw_dslash4_core.h:83

quda::blas::Norm1::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_quda.cu:194

x
p x
Definition: CMakeCUDACompilerId.cpp1.ii:3011

quda::blas::caxpbypzYmbwcDotProductUYNormY_
Definition: reduce_quda.cu:610

quda::blas::HeavyQuarkResidualNorm_::b
Float2 b
Definition: reduce_quda.cu:683

quda::blas::getStream
cudaStream_t * getStream()
Definition: blas_quda.cu:75

doubledouble
Definition: dbldbl.h:283

quda::blas::xpaycdotzy
Definition: reduce_quda.cu:512

quda::blas::tripleCGReduction_
Definition: reduce_quda.cu:757

reduceEnd
static cudaEvent_t reduceEnd
Definition: reduce_quda.cu:66

quda::blas::Norm1::Norm1
Norm1(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:193

quda::blas::cabxpyaxnorm::a
Float2 a
Definition: reduce_quda.cu:439

comm_size
int comm_size(void)
Definition: comm_mpi.cpp:126

IMAG
#define IMAG(a)
Definition: blas_quda.h:14

quda::blas::caxpydotzy::a
Float2 a
Definition: reduce_quda.cu:535

quda::blas::cabxpyAxNorm
double cabxpyAxNorm(const double &a, const Complex &b, ColorSpinorField &x, ColorSpinorField &y)
Definition: reduce_quda.cu:449

quda::blas::caxpyxmaznormx::streams
static int streams()
Definition: reduce_quda.cu:420

quda::blas::Norm1
Definition: reduce_quda.cu:192

quda::blas::xpyHeavyQuarkResidualNorm_::aux
ReduceType aux
Definition: reduce_quda.cu:723

doubledouble2
Definition: dbldbl.h:338

quda::blas::tripleCGReduction_::streams
static int streams()
Definition: reduce_quda.cu:763

quda::blas::xpyHeavyQuarkResidualNorm_::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_quda.cu:728

quda::blas::HeavyQuarkResidualNorm_::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:700

quda::blas::tripleCGReduction_::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:764

quda::blas::Cdot
Definition: multi_reduce_quda.cu:257

sum
__host__ __device__ void sum(double &a, double &b)
Definition: multi_reduce_core.cuh:4

quda::blas::ReduceFunctor
Definition: reduce_quda.cu:162

quda::blas::xpyHeavyQuarkResidualNorm_::a
Float2 a
Definition: reduce_quda.cu:721

w
int int int w
Definition: CMakeCUDACompilerId.cpp1.ii:2637

quda::blas::axpyNorm2::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:322

quda::blas::initReduce
void initReduce()
Definition: reduce_quda.cu:78

quda::blas::xpyHeavyQuarkResidualNorm_::xpyHeavyQuarkResidualNorm_
xpyHeavyQuarkResidualNorm_(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:724

quda::blas::axpyCGNorm
Complex axpyCGNorm(const double &a, ColorSpinorField &x, ColorSpinorField &y)
Definition: reduce_quda.cu:654

quda::blas::caxpyNorm2::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_quda.cu:396

quda::blas::quadrupleCGReduction
double4 quadrupleCGReduction(ColorSpinorField &x, ColorSpinorField &y, ColorSpinorField &z)

double
double
Definition: CMakeCUDACompilerId.cpp1.ii:8010

quda::blas::Norm1::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:197

quda::blas::DotNormA::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_quda.cu:299

quda::blas::AxpyReDot
Definition: reduce_quda.cu:336

quda::blas::DotNormA::flops
static int flops()
Definition: reduce_quda.cu:302

quda::blas::Norm2::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:238

quda::blas::HeavyQuarkResidualNorm
double3 HeavyQuarkResidualNorm(ColorSpinorField &x, ColorSpinorField &r)
Definition: reduce_quda.cu:703

quda::blas::Dot::Dot
Dot(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:270

quda::blas::ReduceFunctor::post
virtual __device__ __host__ void post(ReduceType &sum)
post-computation routine called after the "M-loop"
Definition: reduce_quda.cu:172

quda::blas::getReduceEvent
cudaEvent_t * getReduceEvent()
Definition: reduce_quda.cu:76

quda::blas::caxpyXmazNormX
double caxpyXmazNormX(const Complex &a, ColorSpinorField &x, ColorSpinorField &y, ColorSpinorField &z)
Definition: reduce_quda.cu:424

quda::blas::Norm2::streams
static int streams()
Definition: reduce_quda.cu:237

quda::blas::cabxpyaxnorm::b
Float2 b
Definition: reduce_quda.cu:440

quda::blas::HeavyQuarkResidualNorm_::aux
ReduceType aux
Definition: reduce_quda.cu:684

quda::blas::caxpyDotzy
Complex caxpyDotzy(const Complex &a, ColorSpinorField &x, ColorSpinorField &y, ColorSpinorField &z)
Definition: reduce_quda.cu:544

quda::blas::CdotNormA::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:569

quda::blas::CdotNormB::CdotNormB
CdotNormB(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:592

tune_quda.h

quda::blas::xpyHeavyQuarkResidualNorm_::post
__device__ __host__ void post(ReduceType &sum)
sum the solution and residual norms, and compute the heavy-quark norm
Definition: reduce_quda.cu:733

quda::blas::HeavyQuarkResidualNorm_::HeavyQuarkResidualNorm_
HeavyQuarkResidualNorm_(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:685

quda::blas::Norm2
Definition: reduce_quda.cu:233

quda::blas::xmyNorm2
Definition: reduce_quda.cu:356

Vec2Type< double >::type
double2 type
Definition: reduce_quda.cu:21

checkSpinor
void checkSpinor(const ColorSpinorField &a, const ColorSpinorField &b)
Definition: reduce_quda.cu:40

REAL
#define REAL(a)
Definition: blas_quda.h:13

blas_quda.h

quda::blas::xpaycdotzy::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_quda.cu:515

memset
void * memset(void *__b, int __c, size_t __len)

quda::blas::caxpydotzy::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_quda.cu:537

quda::blas::caxpydotzy
Definition: reduce_quda.cu:534

quda::blas::CdotNormB::streams
static int streams()
Definition: reduce_quda.cu:595

ScalarType< double4 >::type
double type
Definition: reduce_quda.cu:18

quda::blas::Cdot::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:496

quda::blas::CdotNormA
Definition: reduce_quda.cu:564

quda::blas::xpyHeavyQuarkResidualNorm_
Definition: reduce_quda.cu:719

quda::blas::caxpbypzYmbwcDotProductUYNormY
double3 caxpbypzYmbwcDotProductUYNormY(const Complex &a, ColorSpinorField &x, const Complex &b, ColorSpinorField &y, ColorSpinorField &z, ColorSpinorField &w, ColorSpinorField &u)
Definition: reduce_quda.cu:619

quda::blas::cabxpyaxnorm::cabxpyaxnorm
cabxpyaxnorm(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:441

quda::blas::Caxpy_
__device__ __host__ void Caxpy_(const double2 &a, const double2 &x, double2 &y)
Definition: reduce_quda.cu:373

quda::blas::norm1
double norm1(const ColorSpinorField &b)
Definition: reduce_quda.cu:200

quda::blas::Dot
Definition: multi_reduce_quda.cu:132

quda::blas::Dot::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_quda.cu:271

vol_str
const char * vol_str
Definition: reduce_quda.cu:57

quda::blas::HeavyQuarkResidualNorm_
Definition: reduce_quda.cu:680

quda::blas::ReduceFunctor::operator()
virtual __device__ __host__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)=0
where the reduction is usually computed and any auxiliary operations

quda::blas::axpyReDot
double axpyReDot(const double &a, ColorSpinorField &x, ColorSpinorField &y)
Definition: reduce_quda.cu:345

quda::blas::xmyNorm2::xmyNorm2
xmyNorm2(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:357

quda::blas::caxpbypzYmbwcDotProductUYNormY_::caxpbypzYmbwcDotProductUYNormY_
caxpbypzYmbwcDotProductUYNormY_(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:613

quda::reduce
__device__ void reduce(ReduceArg< T > arg, const T &in, const int idx=0)
Definition: cub_helper.cuh:163

quda::blas::HeavyQuarkResidualNorm_::a
Float2 a
Definition: reduce_quda.cu:682

h_reduce
static QudaSumFloat * h_reduce
Definition: reduce_quda.cu:64

MAX_MULTI_BLAS_N
#define MAX_MULTI_BLAS_N
Definition: quda_internal.h:49

quda::blas::xpaycdotzy::xpaycdotzy
xpaycdotzy(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:514

color_spinor_field_order.h

quda::blas::caxpyxmaznormx::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_quda.cu:418

quda::blas::xpaycDotzy
Complex xpaycDotzy(ColorSpinorField &x, const double &a, ColorSpinorField &y, ColorSpinorField &z)
Definition: reduce_quda.cu:521

quda::blas::norm2_
__device__ __host__ void norm2_(ReduceType &sum, const double2 &a)
Definition: reduce_quda.cu:214

quda::TuneKey::aux_n
static const int aux_n
Definition: tune_key.h:12

quda::blas::getDeviceReduceBuffer
void * getDeviceReduceBuffer()
Definition: reduce_quda.cu:73

reduce_mixed_core.h

quda::blas::xmyNorm2::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:361

quda::blas::axpyCGNorm2::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:651

quda::blas::Norm1::streams
static int streams()
Definition: reduce_quda.cu:196

quda::blas::HeavyQuarkResidualNorm_::pre
__device__ __host__ void pre()
pre-computation routine called before the "M-loop"
Definition: reduce_quda.cu:687

quda::blas::caxpyxmaznormx
Definition: reduce_quda.cu:415

fabs
double fabs(double)

reduce_core.cuh

quda::blas::axpyCGNorm2::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_quda.cu:643

quda::blas::flops
unsigned long long flops
Definition: blas_quda.cu:42

quda::blas::DotNormA::DotNormA
DotNormA(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:298

quda::blas::Dot::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:274

device_malloc
#define device_malloc(size)
Definition: malloc_quda.h:52

quda::blas::caxpyxmaznormx::caxpyxmaznormx
caxpyxmaznormx(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:417

c
const void * c
Definition: CMakeCUDACompilerId.cpp1.ii:2234

d_reduce
static QudaSumFloat * d_reduce
Definition: reduce_quda.cu:63

quda::blas::axpyCGNorm2::axpyCGNorm2
axpyCGNorm2(const Float2 &a, const Float2 &b)
Definition: reduce_quda.cu:642

quda::blas::xpaycdotzy::a
Float2 a
Definition: reduce_quda.cu:513

quda::blas::xmyNorm2::streams
static int streams()
Definition: reduce_quda.cu:360

quda::blas::DotNormA::streams
static int streams()
Definition: reduce_quda.cu:301

quda::blas::CdotNormA::streams
static int streams()
Definition: reduce_quda.cu:568

quda::blas::HeavyQuarkResidualNorm_::streams
static int streams()
Definition: reduce_quda.cu:699

quda::blas::xpyHeavyQuarkResidualNorm_::pre
__device__ __host__ void pre()
pre-computation routine called before the "M-loop"
Definition: reduce_quda.cu:726

checkCudaError
#define checkCudaError()
Definition: util_quda.h:129

mapped_malloc
#define mapped_malloc(size)
Definition: malloc_quda.h:56

quda::blas::CdotNormA::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_quda.cu:566

quda::blas::caxpyxmaznormx::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:421

quda::blas::axpyCGNorm2::a
Float2 a
Definition: reduce_quda.cu:641

quda::blas::cDotProductNormB
double3 cDotProductNormB(ColorSpinorField &a, ColorSpinorField &b)
Definition: reduce_quda.cu:599

quda::blas::caxpyNorm2::streams
static int streams()
Definition: reduce_quda.cu:398

quda::blas::CdotNormB
Definition: reduce_quda.cu:591

quda::blas::axpyCGNorm2::streams
static int streams()
Definition: reduce_quda.cu:650

quda::blas::dot_
__device__ __host__ void dot_(ReduceType &sum, const double2 &a, const double2 &b)
Definition: multi_reduce_quda.cu:114

quda::blas::Cdot::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_quda.cu:493

a
#define a
Definition: dw_dslash4_core.h:82

ScalarType< double3 >::type
double type
Definition: reduce_quda.cu:17

quda::blas::cabxpyaxnorm::flops
static int flops()
total number of input and output streams
Definition: reduce_quda.cu:445

hd_reduce
static QudaSumFloat * hd_reduce
Definition: reduce_quda.cu:65

quda::blas::reDotProductNormA
double2 reDotProductNormA(ColorSpinorField &a, ColorSpinorField &b)
Definition: reduce_quda.cu:305

quda::blas::caxpbypzYmbwcDotProductUYNormY_::b
Float2 b
Definition: reduce_quda.cu:612

quda::blas::HeavyQuarkResidualNorm_::post
__device__ __host__ void post(ReduceType &sum)
sum the solution and residual norms, and compute the heavy-quark norm
Definition: reduce_quda.cu:694

doubledouble3
Definition: dbldbl.h:356

quda::blas::axpyNorm2::a
Float2 a
Definition: reduce_quda.cu:317

quda::blas::endReduce
void endReduce()
Definition: reduce_quda.cu:134

quda::blas::bytes
unsigned long long bytes
Definition: blas_quda.cu:43

quda::blas::tripleCGReduction
double3 tripleCGReduction(ColorSpinorField &x, ColorSpinorField &y, ColorSpinorField &z)
Definition: reduce_quda.cu:767

quda::blas::xpyHeavyQuarkResidualNorm_::b
Float2 b
Definition: reduce_quda.cu:722

y
int y
Definition: CMakeCUDACompilerId.cpp1.ii:2637

device_free
#define device_free(ptr)
Definition: malloc_quda.h:57