quda-ref/v1.0.0/blas__core_8cuh_source.html

 #pragma once

 #include <color_spinor_field_order.h>
 #include <blas_helper.cuh>

 namespace quda
 {

   namespace blas
   {

 #define BLAS_SPINOR // do not include ghost functions in Spinor class to reduce parameter space overhead
 #include <texture.h>

     template <typename SpinorX, typename SpinorY, typename SpinorZ, typename SpinorW, typename SpinorV, typename Functor>
     struct BlasArg {
       SpinorX X;
       SpinorY Y;
       SpinorZ Z;
       SpinorW W;
       SpinorV V;
       Functor f;
       const int length;
       BlasArg(SpinorX X, SpinorY Y, SpinorZ Z, SpinorW W, SpinorV V, Functor f, int length) :
           X(X),
           Y(Y),
           Z(Z),
           W(W),
           V(V),
           f(f),
           length(length)
       {
         ;
       }
     };

     template <typename FloatN, int M, typename Arg> __global__ void blasKernel(Arg arg)
     {
       unsigned int i = blockIdx.x * (blockDim.x) + threadIdx.x;
       unsigned int parity = blockIdx.y;
       unsigned int gridSize = gridDim.x * blockDim.x;

       arg.f.init();

       while (i < arg.length) {
         FloatN x[M], y[M], z[M], w[M], v[M];
         arg.X.load(x, i, parity);
         arg.Y.load(y, i, parity);
         arg.Z.load(z, i, parity);
         arg.W.load(w, i, parity);
         arg.V.load(v, i, parity);

 #pragma unroll
         for (int j = 0; j < M; j++) arg.f(x[j], y[j], z[j], w[j], v[j]);

         arg.X.save(x, i, parity);
         arg.Y.save(y, i, parity);
         arg.Z.save(z, i, parity);
         arg.W.save(w, i, parity);
         arg.V.save(v, i, parity);
         i += gridSize;
       }
     }

     template <typename Float2, typename FloatN> struct BlasFunctor {

       virtual __device__ __host__ void init() { ; }

       virtual __device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v) = 0;
     };

     template <typename Float2, typename FloatN> struct axpbyz_ : public BlasFunctor<Float2, FloatN> {
       const Float2 a;
       const Float2 b;
       axpbyz_(const Float2 &a, const Float2 &b, const Float2 &c) : a(a), b(b) { ; }
       __device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         v = a.x * x + b.x * y;
       }                                  // use v not z to ensure same precision as y
       static int streams() { return 3; }
       static int flops() { return 3; }
     };

     template <typename Float2, typename FloatN> struct ax_ : public BlasFunctor<Float2, FloatN> {
       const Float2 a;
       ax_(const Float2 &a, const Float2 &b, const Float2 &c) : a(a) { ; }
       __device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v) { x *= a.x; }
       static int streams() { return 2; }
       static int flops() { return 1; }
     };

     __device__ __host__ void _caxpy(const float2 &a, const float4 &x, float4 &y)
     {
       y.x += a.x * x.x;
       y.x -= a.y * x.y;
       y.y += a.y * x.x;
       y.y += a.x * x.y;
       y.z += a.x * x.z;
       y.z -= a.y * x.w;
       y.w += a.y * x.z;
       y.w += a.x * x.w;
     }

     __device__ __host__ void _caxpy(const float2 &a, const float2 &x, float2 &y)
     {
       y.x += a.x * x.x;
       y.x -= a.y * x.y;
       y.y += a.y * x.x;
       y.y += a.x * x.y;
     }

     __device__ __host__ void _caxpy(const double2 &a, const double2 &x, double2 &y)
     {
       y.x += a.x * x.x;
       y.x -= a.y * x.y;
       y.y += a.y * x.x;
       y.y += a.x * x.y;
     }

     template <typename Float2, typename FloatN> struct caxpy_ : public BlasFunctor<Float2, FloatN> {
       const Float2 a;
       caxpy_(const Float2 &a, const Float2 &b, const Float2 &c) : a(a) { ; }
       __device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v) { _caxpy(a, x, y); }
       static int streams() { return 3; }
       static int flops() { return 4; }
     };

     __device__ __host__ void _caxpby(const float2 &a, const float4 &x, const float2 &b, float4 &y)
     {
       float4 yy;
       yy.x = a.x * x.x;
       yy.x -= a.y * x.y;
       yy.x += b.x * y.x;
       yy.x -= b.y * y.y;
       yy.y = a.y * x.x;
       yy.y += a.x * x.y;
       yy.y += b.y * y.x;
       yy.y += b.x * y.y;
       yy.z = a.x * x.z;
       yy.z -= a.y * x.w;
       yy.z += b.x * y.z;
       yy.z -= b.y * y.w;
       yy.w = a.y * x.z;
       yy.w += a.x * x.w;
       yy.w += b.y * y.z;
       yy.w += b.x * y.w;
       y = yy;
     }

     __device__ __host__ void _caxpby(const float2 &a, const float2 &x, const float2 &b, float2 &y)
     {
       float2 yy;
       yy.x = a.x * x.x;
       yy.x -= a.y * x.y;
       yy.x += b.x * y.x;
       yy.x -= b.y * y.y;
       yy.y = a.y * x.x;
       yy.y += a.x * x.y;
       yy.y += b.y * y.x;
       yy.y += b.x * y.y;
       y = yy;
     }

     __device__ __host__ void _caxpby(const double2 &a, const double2 &x, const double2 &b, double2 &y)
     {
       double2 yy;
       yy.x = a.x * x.x;
       yy.x -= a.y * x.y;
       yy.x += b.x * y.x;
       yy.x -= b.y * y.y;
       yy.y = a.y * x.x;
       yy.y += a.x * x.y;
       yy.y += b.y * y.x;
       yy.y += b.x * y.y;
       y = yy;
     }

     template <typename Float2, typename FloatN> struct caxpby_ : public BlasFunctor<Float2, FloatN> {
       const Float2 a;
       const Float2 b;
       caxpby_(const Float2 &a, const Float2 &b, const Float2 &c) : a(a), b(b) { ; }
       __device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         _caxpby(a, x, b, y);
       }
       static int streams() { return 3; }
       static int flops() { return 7; }
     };

     template <typename Float2, typename FloatN> struct caxpbypczw_ : public BlasFunctor<Float2, FloatN> {
       const Float2 a;
       const Float2 b;
       const Float2 c;
       caxpbypczw_(const Float2 &a, const Float2 &b, const Float2 &c) : a(a), b(b), c(c) { ; }
       __device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         w = y;
         _caxpby(a, x, b, w);
         _caxpy(c, z, w);
       }
       static int streams() { return 4; }
       static int flops() { return 8; }
     };

     template <typename Float2, typename FloatN> struct axpyBzpcx_ : public BlasFunctor<Float2, FloatN> {
       const Float2 a;
       const Float2 b;
       const Float2 c;
       axpyBzpcx_(const Float2 &a, const Float2 &b, const Float2 &c) : a(a), b(b), c(c) { ; }
       __device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         y += a.x * x;
         x = b.x * z + c.x * x;
       }
       static int streams() { return 5; }
       static int flops() { return 5; }
     };

     template <typename Float2, typename FloatN> struct axpyZpbx_ : public BlasFunctor<Float2, FloatN> {
       const Float2 a;
       const Float2 b;
       axpyZpbx_(const Float2 &a, const Float2 &b, const Float2 &c) : a(a), b(b) { ; }
       __device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         y += a.x * x;
         x = z + b.x * x;
       }
       static int streams() { return 5; }
       static int flops() { return 4; }
     };

     template <typename Float2, typename FloatN> struct caxpyBzpx_ : public BlasFunctor<Float2, FloatN> {
       const Float2 a;
       const Float2 b;
       caxpyBzpx_(const Float2 &a, const Float2 &b, const Float2 &c) : a(a), b(b) { ; }
       __device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         _caxpy(a, x, y);
         _caxpy(b, z, x);
       }

       static int streams() { return 5; }
       static int flops() { return 8; }
     };

     template <typename Float2, typename FloatN> struct caxpyBxpz_ : public BlasFunctor<Float2, FloatN> {
       const Float2 a;
       const Float2 b;
       caxpyBxpz_(const Float2 &a, const Float2 &b, const Float2 &c) : a(a), b(b) { ; }
       __device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         _caxpy(a, x, y);
         _caxpy(b, x, z);
       }

       static int streams() { return 5; }
       static int flops() { return 8; }
     };

     template <typename Float2, typename FloatN> struct caxpbypzYmbw_ : public BlasFunctor<Float2, FloatN> {
       const Float2 a;
       const Float2 b;
       caxpbypzYmbw_(const Float2 &a, const Float2 &b, const Float2 &c) : a(a), b(b) { ; }
       __device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         _caxpy(a, x, z);
         _caxpy(b, y, z);
         _caxpy(-b, w, y);
       }

       static int streams() { return 6; }
       static int flops() { return 12; }
     };

     template <typename Float2, typename FloatN> struct cabxpyAx_ : public BlasFunctor<Float2, FloatN> {
       const Float2 a;
       const Float2 b;
       cabxpyAx_(const Float2 &a, const Float2 &b, const Float2 &c) : a(a), b(b) { ; }
       __device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         x *= a.x;
         _caxpy(b, x, y);
       }
       static int streams() { return 4; }
       static int flops() { return 5; }
     };

     template <typename Float2, typename FloatN> struct caxpyxmaz_ : public BlasFunctor<Float2, FloatN> {
       Float2 a;
       caxpyxmaz_(const Float2 &a, const Float2 &b, const Float2 &c) : a(a) { ; }
       __device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         _caxpy(a, x, y);
         _caxpy(-a, z, x);
       }
       static int streams() { return 5; }
       static int flops() { return 8; }
     };

     template <typename Float2, typename FloatN> struct caxpyxmazMR_ : public BlasFunctor<Float2, FloatN> {
       Float2 a;
       double3 *Ar3;
       caxpyxmazMR_(const Float2 &a, const Float2 &b, const Float2 &c) :
           a(a),
           Ar3(static_cast<double3 *>(blas::getDeviceReduceBuffer()))
       {
         ;
       }

       inline __device__ __host__ void init()
       {
 #ifdef __CUDA_ARCH__
         typedef decltype(a.x) real;
         double3 result = __ldg(Ar3);
         a.y = a.x * (real)(result.y) * ((real)1.0 / (real)result.z);
         a.x = a.x * (real)(result.x) * ((real)1.0 / (real)result.z);
 #endif
       }

       __device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         _caxpy(a, x, y);
         _caxpy(-a, z, x);
       }

       static int streams() { return 5; }
       static int flops() { return 8; }
     };

     template <typename Float2, typename FloatN> struct tripleCGUpdate_ : public BlasFunctor<Float2, FloatN> {
       Float2 a, b;
       tripleCGUpdate_(const Float2 &a, const Float2 &b, const Float2 &c) : a(a), b(b) { ; }
       __device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         y += a.x * w;
         z -= a.x * x;
         w = z + b.x * w;
       }
       static int streams() { return 7; }
       static int flops() { return 6; }
     };

     template <typename Float2, typename FloatN> struct doubleCG3Init_ : public BlasFunctor<Float2, FloatN> {
       Float2 a;
       doubleCG3Init_(const Float2 &a, const Float2 &b, const Float2 &c) : a(a) { ; }
       __device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         y = x;
         x += a.x * z;
       }
       static int streams() { return 3; }
       static int flops() { return 3; }
     };

     template <typename Float2, typename FloatN> struct doubleCG3Update_ : public BlasFunctor<Float2, FloatN> {
       Float2 a, b;
       doubleCG3Update_(const Float2 &a, const Float2 &b, const Float2 &c) : a(a), b(b) { ; }
       FloatN tmp {};
       __device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
       {
         tmp = x;
         x = b.x * (x + a.x * z) + b.y * y;
         y = tmp;
       }
       static int streams() { return 4; }
       static int flops() { return 7; }
     };

   } // namespace blas
 } // namespace quda
quda::blas::caxpbypzYmbw_::caxpbypzYmbw_
caxpbypzYmbw_(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_core.cuh:300

quda::blas::tripleCGUpdate_::tripleCGUpdate_
tripleCGUpdate_(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_core.cuh:388

quda::blas::axpyZpbx_::streams
static int streams()
Definition: blas_core.cuh:256

quda::blas::BlasArg::length
const int length
Definition: blas_core.cuh:26

quda::blas::axpyBzpcx_::axpyBzpcx_
axpyBzpcx_(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_core.cuh:234

quda::blas::caxpbypzYmbw_::b
const Float2 b
Definition: blas_core.cuh:299

quda::blas::_caxpby
__device__ __host__ void _caxpby(const float2 &a, const float4 &x, const float2 &b, float4 &y)
Definition: blas_core.cuh:150

quda::blas::axpyZpbx_::a
const Float2 a
Definition: blas_core.cuh:248

quda::blas::ax_
Definition: blas_core.cuh:98

quda::blas::axpyBzpcx_::c
const Float2 c
Definition: blas_core.cuh:233

quda::blas::axpbyz_::axpbyz_
axpbyz_(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_core.cuh:86

quda::blas::caxpbypczw_::flops
static int flops()
total number of input and output streams
Definition: blas_core.cuh:224

quda::blas::caxpyBxpz_::a
const Float2 a
Definition: blas_core.cuh:281

quda::blas::doubleCG3Update_::b
Float2 b
Definition: blas_core.cuh:423

quda::blas::doubleCG3Update_::doubleCG3Update_
doubleCG3Update_(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_core.cuh:424

quda::blas::caxpyBzpx_::a
const Float2 a
Definition: blas_core.cuh:264

quda::blas::caxpby_::b
const Float2 b
Definition: blas_core.cuh:202

quda::blas::caxpy_
Definition: blas_core.cuh:138

quda::blas::doubleCG3Init_::doubleCG3Init_
doubleCG3Init_(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_core.cuh:406

quda::blas::caxpyxmaz_::caxpyxmaz_
caxpyxmaz_(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_core.cuh:335

quda::blas::BlasArg::Z
SpinorZ Z
Definition: blas_core.cuh:22

quda::blas::caxpyBzpx_::b
const Float2 b
Definition: blas_core.cuh:265

quda::blas::caxpyBzpx_::flops
static int flops()
total number of input and output streams
Definition: blas_core.cuh:274

quda::blas::ax_::operator()
__device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: blas_core.cuh:101

tmp
cudaColorSpinorField * tmp
Definition: covdev_test.cpp:44

quda::blas::axpyBzpcx_::b
const Float2 b
Definition: blas_core.cuh:232

quda::blas::caxpyBzpx_::caxpyBzpx_
caxpyBzpx_(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_core.cuh:266

quda::blas::caxpyBxpz_::operator()
__device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: blas_core.cuh:284

quda::blas::axpyBzpcx_::a
const Float2 a
Definition: blas_core.cuh:231

quda::blas::caxpby_::flops
static int flops()
total number of input and output streams
Definition: blas_core.cuh:209

quda::blas::caxpyBxpz_::caxpyBxpz_
caxpyBxpz_(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_core.cuh:283

quda::blas::BlasArg::W
SpinorW W
Definition: blas_core.cuh:23

quda::blas::caxpbypczw_::caxpbypczw_
caxpbypczw_(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_core.cuh:216

quda::blas::axpyZpbx_::operator()
__device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: blas_core.cuh:251

quda::blas::caxpyxmazMR_::Ar3
double3 * Ar3
Definition: blas_core.cuh:352

quda::blas::BlasArg::Y
SpinorY Y
Definition: blas_core.cuh:21

texture.h

quda
Definition: blas_cublas.h:5

quda::blas::caxpbypzYmbw_::streams
static int streams()
Definition: blas_core.cuh:308

quda::blas::axpyBzpcx_::operator()
__device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: blas_core.cuh:235

quda::blas::doubleCG3Update_::streams
static int streams()
Definition: blas_core.cuh:432

quda::blas::axpyBzpcx_::streams
static int streams()
Definition: blas_core.cuh:240

quda::blas::_caxpy
__device__ __host__ void _caxpy(const float2 &a, const float4 &x, float4 &y)
Definition: blas_core.cuh:110

quda::blas::caxpbypczw_::b
const Float2 b
Definition: blas_core.cuh:214

quda::blas::caxpby_::streams
static int streams()
Definition: blas_core.cuh:208

quda::blas::caxpyxmaz_
Definition: blas_core.cuh:333

quda::blas::axpyZpbx_
Definition: blas_core.cuh:247

quda::blas::cabxpyAx_::b
const Float2 b
Definition: blas_core.cuh:317

quda::blas::axpbyz_::operator()
__device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: blas_core.cuh:87

quda::blas::BlasArg::BlasArg
BlasArg(SpinorX X, SpinorY Y, SpinorZ Z, SpinorW W, SpinorV V, Functor f, int length)
Definition: blas_core.cuh:27

quda::blas::caxpyxmaz_::a
Float2 a
Definition: blas_core.cuh:334

quda::blas::caxpy_::caxpy_
caxpy_(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_core.cuh:140

quda::blas::cabxpyAx_
Definition: blas_core.cuh:315

quda::blas::caxpbypczw_::a
const Float2 a
Definition: blas_core.cuh:213

quda::blas::axpyZpbx_::b
const Float2 b
Definition: blas_core.cuh:249

quda::blas::caxpby_::operator()
__device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: blas_core.cuh:204

quda::blas::BlasFunctor::init
virtual __device__ __host__ void init()
pre-computation routine before the main loop
Definition: blas_core.cuh:74

quda::blas::caxpyBxpz_::streams
static int streams()
Definition: blas_core.cuh:290

quda::blas::caxpyxmaz_::operator()
__device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: blas_core.cuh:336

quda::blas::cabxpyAx_::flops
static int flops()
total number of input and output streams
Definition: blas_core.cuh:325

quda::blas::blasKernel
__global__ void blasKernel(Arg arg)
Definition: blas_core.cuh:43

quda::blas::caxpyBzpx_::streams
static int streams()
Definition: blas_core.cuh:273

quda::blas::tripleCGUpdate_::operator()
__device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: blas_core.cuh:389

quda::blas::doubleCG3Update_::operator()
__device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: blas_core.cuh:426

quda::blas::caxpyxmazMR_
Definition: blas_core.cuh:350

quda::blas::axpyBzpcx_::flops
static int flops()
total number of input and output streams
Definition: blas_core.cuh:241

quda::blas::caxpy_::a
const Float2 a
Definition: blas_core.cuh:139

quda::blas::caxpyBxpz_::flops
static int flops()
total number of input and output streams
Definition: blas_core.cuh:291

quda::blas::axpbyz_::b
const Float2 b
Definition: blas_core.cuh:85

quda::blas::doubleCG3Init_::flops
static int flops()
total number of input and output streams
Definition: blas_core.cuh:413

quda::blas::axpyZpbx_::axpyZpbx_
axpyZpbx_(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_core.cuh:250

quda::blas::cabxpyAx_::streams
static int streams()
Definition: blas_core.cuh:324

quda::blas::caxpyxmazMR_::operator()
__device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: blas_core.cuh:370

quda::blas::axpyZpbx_::flops
static int flops()
total number of input and output streams
Definition: blas_core.cuh:257

quda::blas::caxpby_::a
const Float2 a
Definition: blas_core.cuh:201

quda::blas::caxpbypzYmbw_::a
const Float2 a
Definition: blas_core.cuh:298

quda::blas::axpbyz_
Definition: blas_core.cuh:83

blas_helper.cuh

quda::blas::BlasArg
Definition: blas_core.cuh:19

quda::blas::caxpbypzYmbw_::flops
static int flops()
total number of input and output streams
Definition: blas_core.cuh:309

quda::blas::caxpyBxpz_
Definition: blas_core.cuh:280

quda::blas::ax_::ax_
ax_(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_core.cuh:100

quda::blas::caxpbypczw_
Definition: blas_core.cuh:212

quda::Arg
Definition: spinor_noise.cu:22

quda::blas::BlasArg::X
SpinorX X
Definition: blas_core.cuh:20

quda::blas::doubleCG3Init_::a
Float2 a
Definition: blas_core.cuh:405

quda::blas::caxpy_::flops
static int flops()
total number of input and output streams
Definition: blas_core.cuh:143

quda::blas::cabxpyAx_::cabxpyAx_
cabxpyAx_(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_core.cuh:318

quda::blas::caxpyxmazMR_::init
__device__ __host__ void init()
pre-computation routine before the main loop
Definition: blas_core.cuh:360

quda::blas::BlasArg::f
Functor f
Definition: blas_core.cuh:25

quda::blas::tripleCGUpdate_::streams
static int streams()
Definition: blas_core.cuh:395

quda::blas::caxpy_::operator()
__device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: blas_core.cuh:141

quda::blas::caxpbypczw_::operator()
__device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: blas_core.cuh:217

quda::blas::caxpyxmazMR_::a
Float2 a
Definition: blas_core.cuh:351

quda::blas::caxpyxmazMR_::flops
static int flops()
total number of input and output streams
Definition: blas_core.cuh:377

quda::blas::caxpyBzpx_::operator()
__device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: blas_core.cuh:267

quda::blas::caxpyBxpz_::b
const Float2 b
Definition: blas_core.cuh:282

quda::blas::caxpyxmaz_::streams
static int streams()
Definition: blas_core.cuh:341

quda::blas::caxpy_::streams
static int streams()
Definition: blas_core.cuh:142

color_spinor_field_order.h

quda::blas::doubleCG3Init_::operator()
__device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: blas_core.cuh:407

quda::blas::getDeviceReduceBuffer
void * getDeviceReduceBuffer()
Definition: reduce_quda.cu:26

quda::blas::caxpbypczw_::c
const Float2 c
Definition: blas_core.cuh:215

quda::blas::doubleCG3Init_::streams
static int streams()
Definition: blas_core.cuh:412

quda::blas::axpbyz_::a
const Float2 a
Definition: blas_core.cuh:84

quda::arg
__host__ __device__ ValueType arg(const complex< ValueType > &z)
Returns the phase angle of z.
Definition: complex_quda.h:1076

quda::Arg::V
colorspinor::FieldOrderCB< real, Ns, Nc, 1, order > V
Definition: spinor_noise.cu:23

quda::blas::axpbyz_::flops
static int flops()
total number of input and output streams
Definition: blas_core.cuh:92

quda::blas::tripleCGUpdate_
Definition: blas_core.cuh:386

quda::blas::axpbyz_::streams
static int streams()
Definition: blas_core.cuh:91

quda::blas::tripleCGUpdate_::b
Float2 b
Definition: blas_core.cuh:387

quda::blas::caxpyxmaz_::flops
static int flops()
total number of input and output streams
Definition: blas_core.cuh:342

quda::blas::BlasArg::V
SpinorV V
Definition: blas_core.cuh:24

quda::blas::caxpyxmazMR_::caxpyxmazMR_
caxpyxmazMR_(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_core.cuh:353

quda::blas::BlasFunctor
Definition: blas_core.cuh:71

quda::blas::axpyBzpcx_
Definition: blas_core.cuh:230

quda::blas::caxpbypczw_::streams
static int streams()
Definition: blas_core.cuh:223

quda::blas::doubleCG3Init_
Definition: blas_core.cuh:404

quda::blas::ax_::streams
static int streams()
Definition: blas_core.cuh:102

quda::blas::caxpbypzYmbw_::operator()
__device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: blas_core.cuh:301

quda::blas::doubleCG3Update_::flops
static int flops()
total number of input and output streams
Definition: blas_core.cuh:433

quda::blas::caxpbypzYmbw_
Definition: blas_core.cuh:297

quda::blas::caxpyxmazMR_::streams
static int streams()
Definition: blas_core.cuh:376

quda::blas::cabxpyAx_::a
const Float2 a
Definition: blas_core.cuh:316

parity
QudaParity parity
Definition: covdev_test.cpp:54

quda::blas::cabxpyAx_::operator()
__device__ __host__ void operator()(FloatN &x, FloatN &y, FloatN &z, FloatN &w, FloatN &v)
where the reduction is usually computed and any auxiliary operations
Definition: blas_core.cuh:319

quda::blas::ax_::a
const Float2 a
Definition: blas_core.cuh:99

quda::blas::ax_::flops
static int flops()
total number of input and output streams
Definition: blas_core.cuh:103

quda::blas::doubleCG3Update_
Definition: blas_core.cuh:422

quda::blas::caxpby_::caxpby_
caxpby_(const Float2 &a, const Float2 &b, const Float2 &c)
Definition: blas_core.cuh:203

quda::blas::caxpyBzpx_
Definition: blas_core.cuh:263

quda::blas::tripleCGUpdate_::flops
static int flops()
total number of input and output streams
Definition: blas_core.cuh:396

quda::blas::caxpby_
Definition: blas_core.cuh:200