quda-ref/v1.0.0/reduce__core_8cuh_source.html

 #pragma once

 #include <color_spinor_field_order.h>

 #include <blas_helper.cuh>
 #include <cub_helper.cuh>

 namespace quda
 {

   namespace blas
   {

 #define BLAS_SPINOR // do not include ghost functions in Spinor class to reduce parameter space overhead
 #include <texture.h>

     template <typename ReduceType, typename SpinorX, typename SpinorY, typename SpinorZ, typename SpinorW,
         typename SpinorV, typename Reducer>
     struct ReductionArg : public ReduceArg<ReduceType> {
       SpinorX X;
       SpinorY Y;
       SpinorZ Z;
       SpinorW W;
       SpinorV V;
       Reducer r;
       const int length;
       ReductionArg(SpinorX X, SpinorY Y, SpinorZ Z, SpinorW W, SpinorV V, Reducer r, int length) :
           X(X),
           Y(Y),
           Z(Z),
           W(W),
           V(V),
           r(r),
           length(length)
       {
         ;
       }
     };

     template <int block_size, typename ReduceType, typename FloatN, int M, typename Arg>
     __global__ void reduceKernel(Arg arg)
     {
       unsigned int i = blockIdx.x * blockDim.x + threadIdx.x;
       unsigned int parity = blockIdx.y;
       unsigned int gridSize = gridDim.x * blockDim.x;

       ReduceType sum;
       ::quda::zero(sum);

       while (i < arg.length) {
         FloatN x[M], y[M], z[M], w[M], v[M];
         arg.X.load(x, i, parity);
         arg.Y.load(y, i, parity);
         arg.Z.load(z, i, parity);
         arg.W.load(w, i, parity);
         arg.V.load(v, i, parity);

         arg.r.pre();

 #pragma unroll
         for (int j = 0; j < M; j++) arg.r(sum, x[j], y[j], z[j], w[j], v[j]);

         arg.r.post(sum);

         arg.X.save(x, i, parity);
         arg.Y.save(y, i, parity);
         arg.Z.save(z, i, parity);
         arg.W.save(w, i, parity);
         arg.V.save(v, i, parity);

         i += gridSize;
       }

       ::quda::reduce<block_size, ReduceType>(arg, sum, parity);
     }

     template <typename ReduceType, typename Float2, typename FloatN> struct ReduceFunctor {

       virtual __device__ __host__ void pre() { ; }

       virtual __device__ __host__ __host__ void operator()(
           ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
           = 0;

       virtual __device__ __host__ void post(ReduceType &sum) { ; }
     };

     template <typename ReduceType> __device__ __host__ ReduceType norm1_(const double2 &a)
     {
       return (ReduceType)sqrt(a.x * a.x + a.y * a.y);
     }

     template <typename ReduceType> __device__ __host__ ReduceType norm1_(const float2 &a)
     {
       return (ReduceType)sqrt(a.x * a.x + a.y * a.y);
     }

     template <typename ReduceType> __device__ __host__ ReduceType norm1_(const float4 &a)
     {
       return (ReduceType)sqrt(a.x * a.x + a.y * a.y) + (ReduceType)sqrt(a.z * a.z + a.w * a.w);
     }

     template <typename ReduceType, typename Float2, typename FloatN>
     struct Norm1 : public ReduceFunctor<ReduceType, Float2, FloatN> {
       Norm1(const Float2 &a, const Float2 &b) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         sum += norm1_<ReduceType>(x);
       }
       static int streams() { return 1; }
       static int flops() { return 2; }
     };

     template <typename ReduceType> __device__ __host__ void norm2_(ReduceType &sum, const double2 &a)
     {
       sum += (ReduceType)a.x * (ReduceType)a.x;
       sum += (ReduceType)a.y * (ReduceType)a.y;
     }

     template <typename ReduceType> __device__ __host__ void norm2_(ReduceType &sum, const float2 &a)
     {
       sum += (ReduceType)a.x * (ReduceType)a.x;
       sum += (ReduceType)a.y * (ReduceType)a.y;
     }

     template <typename ReduceType> __device__ __host__ void norm2_(ReduceType &sum, const float4 &a)
     {
       sum += (ReduceType)a.x * (ReduceType)a.x;
       sum += (ReduceType)a.y * (ReduceType)a.y;
       sum += (ReduceType)a.z * (ReduceType)a.z;
       sum += (ReduceType)a.w * (ReduceType)a.w;
     }

     template <typename ReduceType, typename Float2, typename FloatN>
     struct Norm2 : public ReduceFunctor<ReduceType, Float2, FloatN> {
       Norm2(const Float2 &a, const Float2 &b) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         norm2_<ReduceType>(sum, x);
       }
       static int streams() { return 1; }
       static int flops() { return 2; }
     };

     template <typename ReduceType> __device__ __host__ void dot_(ReduceType &sum, const double2 &a, const double2 &b)
     {
       sum += (ReduceType)a.x * (ReduceType)b.x;
       sum += (ReduceType)a.y * (ReduceType)b.y;
     }

     template <typename ReduceType> __device__ __host__ void dot_(ReduceType &sum, const float2 &a, const float2 &b)
     {
       sum += (ReduceType)a.x * (ReduceType)b.x;
       sum += (ReduceType)a.y * (ReduceType)b.y;
     }

     template <typename ReduceType> __device__ __host__ void dot_(ReduceType &sum, const float4 &a, const float4 &b)
     {
       sum += (ReduceType)a.x * (ReduceType)b.x;
       sum += (ReduceType)a.y * (ReduceType)b.y;
       sum += (ReduceType)a.z * (ReduceType)b.z;
       sum += (ReduceType)a.w * (ReduceType)b.w;
     }

     template <typename ReduceType, typename Float2, typename FloatN>
     struct Dot : public ReduceFunctor<ReduceType, Float2, FloatN> {
       Dot(const Float2 &a, const Float2 &b) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         dot_<ReduceType>(sum, x, y);
       }
       static int streams() { return 2; }
       static int flops() { return 2; }
     };

     template <typename ReduceType, typename Float2, typename FloatN>
     struct axpbyzNorm2 : public ReduceFunctor<ReduceType, Float2, FloatN> {
       Float2 a;
       Float2 b;
       axpbyzNorm2(const Float2 &a, const Float2 &b) : a(a), b(b) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         z = a.x * x + b.x * y;
         norm2_<ReduceType>(sum, z);
       }
       static int streams() { return 3; }
       static int flops() { return 4; }
     };

     template <typename ReduceType, typename Float2, typename FloatN>
     struct AxpyReDot : public ReduceFunctor<ReduceType, Float2, FloatN> {
       Float2 a;
       AxpyReDot(const Float2 &a, const Float2 &b) : a(a) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         y += a.x * x;
         dot_<ReduceType>(sum, x, y);
       }
       static int streams() { return 3; }
       static int flops() { return 4; }
     };

     __device__ __host__ void Caxpy_(const double2 &a, const double2 &x, double2 &y)
     {
       y.x += a.x * x.x;
       y.x -= a.y * x.y;
       y.y += a.y * x.x;
       y.y += a.x * x.y;
     }
     __device__ __host__ void Caxpy_(const float2 &a, const float2 &x, float2 &y)
     {
       y.x += a.x * x.x;
       y.x -= a.y * x.y;
       y.y += a.y * x.x;
       y.y += a.x * x.y;
     }
     __device__ __host__ void Caxpy_(const float2 &a, const float4 &x, float4 &y)
     {
       y.x += a.x * x.x;
       y.x -= a.y * x.y;
       y.y += a.y * x.x;
       y.y += a.x * x.y;
       y.z += a.x * x.z;
       y.z -= a.y * x.w;
       y.w += a.y * x.z;
       y.w += a.x * x.w;
     }

     template <typename ReduceType, typename Float2, typename FloatN>
     struct caxpyNorm2 : public ReduceFunctor<ReduceType, Float2, FloatN> {
       Float2 a;
       caxpyNorm2(const Float2 &a, const Float2 &b) : a(a) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         Caxpy_(a, x, y);
         norm2_<ReduceType>(sum, y);
       }
       static int streams() { return 3; }
       static int flops() { return 6; }
     };

     template <typename ReduceType, typename Float2, typename FloatN>
     struct caxpyxmaznormx : public ReduceFunctor<ReduceType, Float2, FloatN> {
       Float2 a;
       caxpyxmaznormx(const Float2 &a, const Float2 &b) : a(a) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         Caxpy_(a, x, y);
         Caxpy_(-a, z, x);
         norm2_<ReduceType>(sum, x);
       }
       static int streams() { return 5; }
       static int flops() { return 10; }
     };

     template <typename ReduceType, typename Float2, typename FloatN>
     struct cabxpyzaxnorm : public ReduceFunctor<ReduceType, Float2, FloatN> {
       Float2 a;
       Float2 b;
       cabxpyzaxnorm(const Float2 &a, const Float2 &b) : a(a), b(b) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         x *= a.x;
         Caxpy_(b, x, y);
         z = y;
         norm2_<ReduceType>(sum, z);
       }
       static int streams() { return 4; }
       static int flops() { return 10; }
     };

     template <typename ReduceType> __device__ __host__ void cdot_(ReduceType &sum, const double2 &a, const double2 &b)
     {
       typedef typename scalar<ReduceType>::type scalar;
       sum.x += (scalar)a.x * (scalar)b.x;
       sum.x += (scalar)a.y * (scalar)b.y;
       sum.y += (scalar)a.x * (scalar)b.y;
       sum.y -= (scalar)a.y * (scalar)b.x;
     }

     template <typename ReduceType> __device__ __host__ void cdot_(ReduceType &sum, const float2 &a, const float2 &b)
     {
       typedef typename scalar<ReduceType>::type scalar;
       sum.x += (scalar)a.x * (scalar)b.x;
       sum.x += (scalar)a.y * (scalar)b.y;
       sum.y += (scalar)a.x * (scalar)b.y;
       sum.y -= (scalar)a.y * (scalar)b.x;
     }

     template <typename ReduceType> __device__ __host__ void cdot_(ReduceType &sum, const float4 &a, const float4 &b)
     {
       typedef typename scalar<ReduceType>::type scalar;
       sum.x += (scalar)a.x * (scalar)b.x;
       sum.x += (scalar)a.y * (scalar)b.y;
       sum.x += (scalar)a.z * (scalar)b.z;
       sum.x += (scalar)a.w * (scalar)b.w;
       sum.y += (scalar)a.x * (scalar)b.y;
       sum.y -= (scalar)a.y * (scalar)b.x;
       sum.y += (scalar)a.z * (scalar)b.w;
       sum.y -= (scalar)a.w * (scalar)b.z;
     }

     template <typename ReduceType, typename Float2, typename FloatN>
     struct Cdot : public ReduceFunctor<ReduceType, Float2, FloatN> {
       Cdot(const Float2 &a, const Float2 &b) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         cdot_<ReduceType>(sum, x, y);
       }
       static int streams() { return 2; }
       static int flops() { return 4; }
     };

     template <typename ReduceType, typename Float2, typename FloatN>
     struct caxpydotzy : public ReduceFunctor<ReduceType, Float2, FloatN> {
       Float2 a;
       caxpydotzy(const Float2 &a, const Float2 &b) : a(a) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         Caxpy_(a, x, y);
         cdot_<ReduceType>(sum, z, y);
       }
       static int streams() { return 4; }
       static int flops() { return 8; }
     };

     template <typename ReduceType, typename InputType>
     __device__ __host__ void cdotNormA_(ReduceType &sum, const InputType &a, const InputType &b)
     {
       typedef typename scalar<ReduceType>::type scalar;
       typedef typename vector<scalar, 2>::type vec2;
       cdot_<ReduceType>(sum, a, b);
       norm2_<scalar>(sum.z, a);
     }

     template <typename ReduceType, typename InputType>
     __device__ __host__ void cdotNormB_(ReduceType &sum, const InputType &a, const InputType &b)
     {
       typedef typename scalar<ReduceType>::type scalar;
       typedef typename vector<scalar, 2>::type vec2;
       cdot_<ReduceType>(sum, a, b);
       norm2_<scalar>(sum.z, b);
     }

     template <typename ReduceType, typename Float2, typename FloatN>
     struct CdotNormA : public ReduceFunctor<ReduceType, Float2, FloatN> {
       CdotNormA(const Float2 &a, const Float2 &b) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         cdotNormA_<ReduceType>(sum, x, y);
       }
       static int streams() { return 2; }
       static int flops() { return 6; }
     };

     template <typename ReduceType, typename Float2, typename FloatN>
     struct caxpbypzYmbwcDotProductUYNormY_ : public ReduceFunctor<ReduceType, Float2, FloatN> {
       Float2 a;
       Float2 b;
       caxpbypzYmbwcDotProductUYNormY_(const Float2 &a, const Float2 &b) : a(a), b(b) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         Caxpy_(a, x, z);
         Caxpy_(b, y, z);
         Caxpy_(-b, w, y);
         cdotNormB_<ReduceType>(sum, v, y);
       }
       static int streams() { return 7; }
       static int flops() { return 18; }
     };

     template <typename ReduceType, typename Float2, typename FloatN>
     struct axpyCGNorm2 : public ReduceFunctor<ReduceType, Float2, FloatN> {
       Float2 a;
       axpyCGNorm2(const Float2 &a, const Float2 &b) : a(a) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         typedef typename scalar<ReduceType>::type scalar;
         FloatN z_new = z + a.x * x;
         norm2_<scalar>(sum.x, z_new);
         dot_<scalar>(sum.y, z_new, z_new - z);
         z = z_new;
       }
       static int streams() { return 3; }
       static int flops() { return 6; }
     };

     template <typename ReduceType, typename Float2, typename FloatN>
     struct HeavyQuarkResidualNorm_ : public ReduceFunctor<ReduceType, Float2, FloatN> {
       typedef typename scalar<ReduceType>::type real;
       Float2 a;
       Float2 b;
       ReduceType aux;
       HeavyQuarkResidualNorm_(const Float2 &a, const Float2 &b) : a(a), b(b), aux {} { ; }

       __device__ __host__ void pre()
       {
         aux.x = 0;
         aux.y = 0;
       }

       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         norm2_<real>(aux.x, x);
         norm2_<real>(aux.y, y);
       }

       __device__ __host__ void post(ReduceType &sum)
       {
         sum.x += aux.x;
         sum.y += aux.y;
         sum.z += (aux.x > 0.0) ? (aux.y / aux.x) : static_cast<real>(1.0);
       }

       static int streams() { return 2; }
       static int flops() { return 4; }
     };

     template <typename ReduceType, typename Float2, typename FloatN>
     struct xpyHeavyQuarkResidualNorm_ : public ReduceFunctor<ReduceType, Float2, FloatN> {
       typedef typename scalar<ReduceType>::type real;
       Float2 a;
       Float2 b;
       ReduceType aux;
       xpyHeavyQuarkResidualNorm_(const Float2 &a, const Float2 &b) : a(a), b(b), aux {} { ; }

       __device__ __host__ void pre()
       {
         aux.x = 0;
         aux.y = 0;
       }

       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         norm2_<real>(aux.x, x + y);
         norm2_<real>(aux.y, z);
       }

       __device__ __host__ void post(ReduceType &sum)
       {
         sum.x += aux.x;
         sum.y += aux.y;
         sum.z += (aux.x > 0.0) ? (aux.y / aux.x) : static_cast<real>(1.0);
       }

       static int streams() { return 3; }
       static int flops() { return 5; }
     };

     template <typename ReduceType, typename Float2, typename FloatN>
     struct tripleCGReduction_ : public ReduceFunctor<ReduceType, Float2, FloatN> {
       tripleCGReduction_(const Float2 &a, const Float2 &b) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         typedef typename scalar<ReduceType>::type scalar;
         norm2_<scalar>(sum.x, x);
         norm2_<scalar>(sum.y, y);
         dot_<scalar>(sum.z, y, z);
       }
       static int streams() { return 3; }
       static int flops() { return 6; }
     };

     template <typename ReduceType, typename Float2, typename FloatN>
     struct quadrupleCGReduction_ : public ReduceFunctor<ReduceType, Float2, FloatN> {
       quadrupleCGReduction_(const Float2 &a, const Float2 &b) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         typedef typename scalar<ReduceType>::type scalar;
         norm2_<scalar>(sum.x, x);
         norm2_<scalar>(sum.y, y);
         dot_<scalar>(sum.z, y, z);
         norm2_<scalar>(sum.w, w);
       }
       static int streams() { return 3; }
       static int flops() { return 8; }
     };

     template <typename ReduceType, typename Float2, typename FloatN>
     struct quadrupleCG3InitNorm_ : public ReduceFunctor<ReduceType, Float2, FloatN> {
       Float2 a;
       quadrupleCG3InitNorm_(const Float2 &a, const Float2 &b) : a(a) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         z = x;
         w = y;
         x += a.x * y;
         y -= a.x * v;
         norm2_<ReduceType>(sum, y);
       }
       static int streams() { return 6; }
       static int flops() { return 6; }
     };

     template <typename ReduceType, typename Float2, typename FloatN>
     struct quadrupleCG3UpdateNorm_ : public ReduceFunctor<ReduceType, Float2, FloatN> {
       Float2 a, b;
       quadrupleCG3UpdateNorm_(const Float2 &a, const Float2 &b) : a(a), b(b) { ; }
       FloatN tmpx {}, tmpy {};
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         tmpx = x;
         tmpy = y;
         x = b.x * (x + a.x * y) + b.y * z;
         y = b.x * (y - a.x * v) + b.y * w;
         z = tmpx;
         w = tmpy;
         norm2_<ReduceType>(sum, y);
       }
       static int streams() { return 7; }
       static int flops() { return 16; }
     };

     template <typename ReduceType, typename Float2, typename FloatN>
     struct doubleCG3InitNorm_ : public ReduceFunctor<ReduceType, Float2, FloatN> {
       Float2 a;
       doubleCG3InitNorm_(const Float2 &a, const Float2 &b) : a(a) { ; }
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         y = x;
         x -= a.x * z;
         norm2_<ReduceType>(sum, x);
       }
       static int streams() { return 3; }
       static int flops() { return 5; }
     };

     template <typename ReduceType, typename Float2, typename FloatN>
     struct doubleCG3UpdateNorm_ : public ReduceFunctor<ReduceType, Float2, FloatN> {
       Float2 a, b;
       doubleCG3UpdateNorm_(const Float2 &a, const Float2 &b) : a(a), b(b) { ; }
       FloatN tmp {};
       __device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         tmp = x;
         x = b.x * (x - a.x * z) + b.y * y;
         y = tmp;
         norm2_<ReduceType>(sum, x);
       }
       static int streams() { return 4; }
       static int flops() { return 9; }
     };

   } // namespace blas

 } // namespace quda
quda::blas::AxpyReDot::AxpyReDot
AxpyReDot(const Float2 &a, const Float2 &b)
Definition: reduce_core.cuh:219

quda::blas::xpyHeavyQuarkResidualNorm_::real
scalar< ReduceType >::type real
Definition: reduce_core.cuh:511

quda::blas::quadrupleCG3UpdateNorm_::flops
static int flops()
total number of input and output streams
Definition: reduce_core.cuh:633

quda::blas::quadrupleCG3InitNorm_::streams
static int streams()
Definition: reduce_core.cuh:603

quda::blas::quadrupleCGReduction_::streams
static int streams()
Definition: reduce_core.cuh:579

quda::blas::caxpyxmaznormx::a
Float2 a
Definition: reduce_core.cuh:283

quda::blas::cdotNormA_
__device__ __host__ void cdotNormA_(ReduceType &sum, const InputType &a, const InputType &b)
Definition: reduce_core.cuh:385

quda::blas::AxpyReDot::a
Float2 a
Definition: reduce_core.cuh:218

quda::blas::caxpbypzYmbwcDotProductUYNormY_::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_core.cuh:426

quda::blas::caxpyNorm2::caxpyNorm2
caxpyNorm2(const Float2 &a, const Float2 &b)
Definition: reduce_core.cuh:265

quda::blas::caxpyNorm2::flops
static int flops()
total number of input and output streams
Definition: reduce_core.cuh:272

quda::blas::Norm2::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_core.cuh:152

quda::blas::HeavyQuarkResidualNorm_::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_core.cuh:484

quda::blas::caxpydotzy::streams
static int streams()
Definition: reduce_core.cuh:376

quda::blas::ReduceFunctor::pre
virtual __device__ __host__ void pre()
pre-computation routine called before the "M-loop"
Definition: reduce_core.cuh:86

quda::blas::cdot_
__device__ __host__ void cdot_(ReduceType &sum, const double2 &a, const double2 &b)
Definition: multi_reduce_core.cuh:199

quda::blas::caxpbypzYmbwcDotProductUYNormY_::streams
static int streams()
Definition: reduce_core.cuh:433

quda::blas::cdotNormB_
__device__ __host__ void cdotNormB_(ReduceType &sum, const InputType &a, const InputType &b)
Definition: reduce_core.cuh:398

quda::blas::AxpyReDot::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_core.cuh:220

quda::blas::AxpyReDot::streams
static int streams()
Definition: reduce_core.cuh:225

quda::blas::doubleCG3InitNorm_
Definition: reduce_core.cuh:643

quda::blas::axpyCGNorm2
Definition: reduce_core.cuh:444

quda::blas::quadrupleCGReduction_::flops
static int flops()
total number of input and output streams
Definition: reduce_core.cuh:580

quda::blas::caxpbypzYmbwcDotProductUYNormY_::flops
static int flops()
total number of input and output streams
Definition: reduce_core.cuh:434

quda::blas::caxpydotzy::caxpydotzy
caxpydotzy(const Float2 &a, const Float2 &b)
Definition: reduce_core.cuh:370

quda::blas::Dot::streams
static int streams()
Definition: reduce_core.cuh:190

quda::blas::caxpyNorm2
Definition: reduce_core.cuh:263

quda::sqrt
__host__ __device__ ValueType sqrt(ValueType x)
Definition: complex_quda.h:120

quda::blas::ReductionArg::Y
SpinorY Y
Definition: reduce_core.cuh:21

quda::blas::cabxpyzaxnorm::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_core.cuh:306

quda::blas::AxpyReDot::flops
static int flops()
total number of input and output streams
Definition: reduce_core.cuh:226

quda::blas::doubleCG3UpdateNorm_::b
Float2 b
Definition: reduce_core.cuh:665

cub_helper.cuh

quda::blas::norm1_
__device__ __host__ ReduceType norm1_(const double2 &a)
Definition: reduce_core.cuh:100

quda::blas::Norm2::Norm2
Norm2(const Float2 &a, const Float2 &b)
Definition: reduce_core.cuh:151

tmp
cudaColorSpinorField * tmp
Definition: covdev_test.cpp:44

quda::blas::doubleCG3InitNorm_::doubleCG3InitNorm_
doubleCG3InitNorm_(const Float2 &a, const Float2 &b)
Definition: reduce_core.cuh:645

quda::blas::Cdot::Cdot
Cdot(const Float2 &a, const Float2 &b)
Definition: reduce_core.cuh:353

quda::blas::quadrupleCG3InitNorm_::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_core.cuh:595

quda::blas::axpbyzNorm2::flops
static int flops()
total number of input and output streams
Definition: reduce_core.cuh:209

quda::blas::Cdot::streams
static int streams()
Definition: reduce_core.cuh:358

quda::blas::caxpbypzYmbwcDotProductUYNormY_::a
Float2 a
Definition: reduce_core.cuh:423

quda::blas::caxpydotzy::flops
static int flops()
total number of input and output streams
Definition: reduce_core.cuh:377

quda::blas::tripleCGReduction_::tripleCGReduction_
tripleCGReduction_(const Float2 &a, const Float2 &b)
Definition: reduce_core.cuh:549

quda::blas::caxpyNorm2::a
Float2 a
Definition: reduce_core.cuh:264

quda::blas::CdotNormA::CdotNormA
CdotNormA(const Float2 &a, const Float2 &b)
Definition: reduce_core.cuh:408

quda::blas::quadrupleCG3UpdateNorm_::streams
static int streams()
Definition: reduce_core.cuh:632

quda::sum
__host__ __device__ void sum(double &a, double &b)
Definition: blas_helper.cuh:62

texture.h

quda::blas::ReductionArg::r
Reducer r
Definition: reduce_core.cuh:25

quda::blas::xpyHeavyQuarkResidualNorm_::streams
static int streams()
Definition: reduce_core.cuh:537

quda::blas::HeavyQuarkResidualNorm_::real
scalar< ReduceType >::type real
Definition: reduce_core.cuh:472

quda::blas::tripleCGReduction_::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_core.cuh:550

quda
Definition: blas_cublas.h:5

quda::scalar
Definition: register_traits.h:113

quda::blas::xpyHeavyQuarkResidualNorm_::flops
static int flops()
total number of input and output streams
Definition: reduce_core.cuh:538

quda::blas::Norm1::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_core.cuh:118

quda::blas::cabxpyzaxnorm::flops
static int flops()
total number of input and output streams
Definition: reduce_core.cuh:314

quda::blas::caxpbypzYmbwcDotProductUYNormY_
Definition: reduce_core.cuh:422

quda::blas::HeavyQuarkResidualNorm_::b
Float2 b
Definition: reduce_core.cuh:474

quda::blas::quadrupleCGReduction_
Definition: reduce_core.cuh:569

quda::blas::tripleCGReduction_
Definition: reduce_core.cuh:548

quda::blas::Norm1::Norm1
Norm1(const Float2 &a, const Float2 &b)
Definition: reduce_core.cuh:117

quda::blas::ReductionArg::W
SpinorW W
Definition: reduce_core.cuh:23

quda::blas::doubleCG3UpdateNorm_
Definition: reduce_core.cuh:664

quda::blas::cabxpyzaxnorm::cabxpyzaxnorm
cabxpyzaxnorm(const Float2 &a, const Float2 &b)
Definition: reduce_core.cuh:305

quda::blas::caxpydotzy::a
Float2 a
Definition: reduce_core.cuh:369

quda::blas::cabxpyzaxnorm::a
Float2 a
Definition: reduce_core.cuh:303

quda::blas::caxpyxmaznormx::streams
static int streams()
Definition: reduce_core.cuh:291

quda::blas::Norm1
Definition: reduce_core.cuh:116

quda::blas::quadrupleCG3UpdateNorm_
Definition: reduce_core.cuh:618

quda::blas::ReductionArg::V
SpinorV V
Definition: reduce_core.cuh:24

quda::blas::doubleCG3UpdateNorm_::streams
static int streams()
Definition: reduce_core.cuh:675

quda::blas::xpyHeavyQuarkResidualNorm_::aux
ReduceType aux
Definition: reduce_core.cuh:514

quda::blas::tripleCGReduction_::streams
static int streams()
Definition: reduce_core.cuh:557

quda::blas::doubleCG3UpdateNorm_::flops
static int flops()
total number of input and output streams
Definition: reduce_core.cuh:676

quda::blas::xpyHeavyQuarkResidualNorm_::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_core.cuh:523

quda::blas::HeavyQuarkResidualNorm_::flops
static int flops()
total number of input and output streams
Definition: reduce_core.cuh:499

quda::blas::tripleCGReduction_::flops
static int flops()
total number of input and output streams
Definition: reduce_core.cuh:558

quda::blas::Cdot
Definition: multi_reduce_core.cuh:231

quda::blas::ReduceFunctor
Definition: reduce_core.cuh:83

quda::blas::xpyHeavyQuarkResidualNorm_::a
Float2 a
Definition: reduce_core.cuh:512

quda::ColorSpinorField::x
int x[QUDA_MAX_DIM]
Definition: color_spinor_field.h:330

quda::blas::xpyHeavyQuarkResidualNorm_::xpyHeavyQuarkResidualNorm_
xpyHeavyQuarkResidualNorm_(const Float2 &a, const Float2 &b)
Definition: reduce_core.cuh:515

quda::blas::caxpyNorm2::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_core.cuh:266

quda::blas::Norm1::flops
static int flops()
total number of input and output streams
Definition: reduce_core.cuh:123

quda::blas::reduceKernel
__global__ void reduceKernel(Arg arg)
Definition: reduce_core.cuh:44

quda::blas::AxpyReDot
Definition: reduce_core.cuh:217

quda::blas::ReductionArg::ReductionArg
ReductionArg(SpinorX X, SpinorY Y, SpinorZ Z, SpinorW W, SpinorV V, Reducer r, int length)
Definition: reduce_core.cuh:27

quda::blas::Norm2::flops
static int flops()
total number of input and output streams
Definition: reduce_core.cuh:157

quda::blas::doubleCG3InitNorm_::a
Float2 a
Definition: reduce_core.cuh:644

quda::ReduceArg
Definition: cub_helper.cuh:69

quda::blas::Dot::Dot
Dot(const Float2 &a, const Float2 &b)
Definition: reduce_core.cuh:185

quda::blas::ReduceFunctor::post
virtual __device__ __host__ void post(ReduceType &sum)
post-computation routine called after the "M-loop"
Definition: reduce_core.cuh:94

quda::blas::Norm2::streams
static int streams()
Definition: reduce_core.cuh:156

quda::blas::cabxpyzaxnorm
Definition: reduce_core.cuh:302

quda::blas::doubleCG3UpdateNorm_::doubleCG3UpdateNorm_
doubleCG3UpdateNorm_(const Float2 &a, const Float2 &b)
Definition: reduce_core.cuh:666

quda::blas::ReductionArg
Definition: reduce_core.cuh:19

quda::blas::ReductionArg::Z
SpinorZ Z
Definition: reduce_core.cuh:22

quda::blas::HeavyQuarkResidualNorm_::aux
ReduceType aux
Definition: reduce_core.cuh:475

quda::blas::doubleCG3InitNorm_::streams
static int streams()
Definition: reduce_core.cuh:652

blas_helper.cuh

quda::blas::CdotNormA::flops
static int flops()
total number of input and output streams
Definition: reduce_core.cuh:414

quda::blas::zero
void zero(ColorSpinorField &a)
Definition: blas_quda.cu:472

quda::blas::doubleCG3InitNorm_::flops
static int flops()
total number of input and output streams
Definition: reduce_core.cuh:653

quda::blas::xpyHeavyQuarkResidualNorm_::post
__device__ __host__ void post(ReduceType &sum)
sum the solution and residual norms, and compute the heavy-quark norm
Definition: reduce_core.cuh:530

quda::Arg
Definition: spinor_noise.cu:22

quda::blas::HeavyQuarkResidualNorm_::HeavyQuarkResidualNorm_
HeavyQuarkResidualNorm_(const Float2 &a, const Float2 &b)
Definition: reduce_core.cuh:476

quda::blas::Norm2
Definition: reduce_core.cuh:150

quda::blas::axpbyzNorm2::axpbyzNorm2
axpbyzNorm2(const Float2 &a, const Float2 &b)
Definition: reduce_core.cuh:202

quda::blas::quadrupleCG3UpdateNorm_::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_core.cuh:622

quda::blas::caxpydotzy::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_core.cuh:371

quda::blas::axpbyzNorm2::streams
static int streams()
Definition: reduce_core.cuh:208

quda::blas::caxpydotzy
Definition: reduce_core.cuh:368

quda::blas::axpbyzNorm2::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_core.cuh:203

quda::blas::Cdot::flops
static int flops()
total number of input and output streams
Definition: reduce_core.cuh:359

quda::blas::CdotNormA
Definition: reduce_core.cuh:407

quda::blas::xpyHeavyQuarkResidualNorm_
Definition: reduce_core.cuh:510

quda::blas::axpbyzNorm2::b
Float2 b
Definition: reduce_core.cuh:201

quda::blas::Caxpy_
__device__ __host__ void Caxpy_(const double2 &a, const double2 &x, double2 &y)
Definition: reduce_core.cuh:232

quda::blas::axpbyzNorm2::a
Float2 a
Definition: reduce_core.cuh:200

quda::blas::Dot
Definition: multi_reduce_core.cuh:179

quda::blas::Dot::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_core.cuh:186

quda::blas::HeavyQuarkResidualNorm_
Definition: reduce_core.cuh:471

quda::blas::caxpbypzYmbwcDotProductUYNormY_::caxpbypzYmbwcDotProductUYNormY_
caxpbypzYmbwcDotProductUYNormY_(const Float2 &a, const Float2 &b)
Definition: reduce_core.cuh:425

quda::blas::HeavyQuarkResidualNorm_::a
Float2 a
Definition: reduce_core.cuh:473

quda::blas::quadrupleCG3InitNorm_::quadrupleCG3InitNorm_
quadrupleCG3InitNorm_(const Float2 &a, const Float2 &b)
Definition: reduce_core.cuh:594

color_spinor_field_order.h

quda::blas::caxpyxmaznormx::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_core.cuh:285

quda::blas::cabxpyzaxnorm::streams
static int streams()
Definition: reduce_core.cuh:313

quda::blas::norm2_
__device__ __host__ void norm2_(ReduceType &sum, const double2 &a)
Definition: reduce_core.cuh:129

quda::blas::ReductionArg::length
const int length
Definition: reduce_core.cuh:26

quda::blas::doubleCG3UpdateNorm_::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_core.cuh:668

quda::blas::ReductionArg::X
SpinorX X
Definition: reduce_core.cuh:20

quda::blas::axpyCGNorm2::flops
static int flops()
total number of input and output streams
Definition: reduce_core.cuh:456

quda::blas::Norm1::streams
static int streams()
Definition: reduce_core.cuh:122

quda::blas::HeavyQuarkResidualNorm_::pre
__device__ __host__ void pre()
pre-computation routine called before the "M-loop"
Definition: reduce_core.cuh:478

quda::blas::caxpyxmaznormx
Definition: reduce_core.cuh:282

quda::blas::axpyCGNorm2::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_core.cuh:447

quda::blas::Dot::flops
static int flops()
total number of input and output streams
Definition: reduce_core.cuh:191

quda::blas::quadrupleCG3UpdateNorm_::b
Float2 b
Definition: reduce_core.cuh:619

quda::arg
__host__ __device__ ValueType arg(const complex< ValueType > &z)
Returns the phase angle of z.
Definition: complex_quda.h:1076

quda::Arg::V
colorspinor::FieldOrderCB< real, Ns, Nc, 1, order > V
Definition: spinor_noise.cu:23

quda::blas::quadrupleCGReduction_::quadrupleCGReduction_
quadrupleCGReduction_(const Float2 &a, const Float2 &b)
Definition: reduce_core.cuh:570

quda::blas::caxpyxmaznormx::caxpyxmaznormx
caxpyxmaznormx(const Float2 &a, const Float2 &b)
Definition: reduce_core.cuh:284

quda::blas::axpyCGNorm2::axpyCGNorm2
axpyCGNorm2(const Float2 &a, const Float2 &b)
Definition: reduce_core.cuh:446

quda::blas::quadrupleCG3UpdateNorm_::quadrupleCG3UpdateNorm_
quadrupleCG3UpdateNorm_(const Float2 &a, const Float2 &b)
Definition: reduce_core.cuh:620

quda::blas::quadrupleCG3InitNorm_::a
Float2 a
Definition: reduce_core.cuh:593

quda::blas::quadrupleCG3InitNorm_
Definition: reduce_core.cuh:592

quda::blas::CdotNormA::streams
static int streams()
Definition: reduce_core.cuh:413

quda::blas::HeavyQuarkResidualNorm_::streams
static int streams()
Definition: reduce_core.cuh:498

quda::blas::xpyHeavyQuarkResidualNorm_::pre
__device__ __host__ void pre()
pre-computation routine called before the "M-loop"
Definition: reduce_core.cuh:517

quda::blas::cabxpyzaxnorm::b
Float2 b
Definition: reduce_core.cuh:304

quda::blas::CdotNormA::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_core.cuh:409

quda::blas::caxpyxmaznormx::flops
static int flops()
total number of input and output streams
Definition: reduce_core.cuh:292

quda::blas::axpyCGNorm2::a
Float2 a
Definition: reduce_core.cuh:445

quda::blas::axpbyzNorm2
Definition: reduce_core.cuh:199

quda::blas::caxpyNorm2::streams
static int streams()
Definition: reduce_core.cuh:271

quda::blas::axpyCGNorm2::streams
static int streams()
Definition: reduce_core.cuh:455

parity
QudaParity parity
Definition: covdev_test.cpp:54

quda::blas::dot_
__device__ __host__ void dot_(ReduceType &sum, const double2 &a, const double2 &b)
Definition: multi_reduce_core.cuh:158

quda::blas::Cdot::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_core.cuh:354

quda::blas::caxpbypzYmbwcDotProductUYNormY_::b
Float2 b
Definition: reduce_core.cuh:424

quda::blas::HeavyQuarkResidualNorm_::post
__device__ __host__ void post(ReduceType &sum)
sum the solution and residual norms, and compute the heavy-quark norm
Definition: reduce_core.cuh:491

quda::blas::doubleCG3InitNorm_::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_core.cuh:646

quda::blas::quadrupleCGReduction_::operator()
__device__ __host__ void operator()(ReduceType &sum, FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: reduce_core.cuh:571

quda::blas::xpyHeavyQuarkResidualNorm_::b
Float2 b
Definition: reduce_core.cuh:513

quda::blas::quadrupleCG3InitNorm_::flops
static int flops()
total number of input and output streams
Definition: reduce_core.cuh:604