quda-ref/v1.0.0/blas__quda_8cu_source.html

 #include <stdlib.h>
 #include <stdio.h>
 #include <cstring> // needed for memset
 #include <typeinfo>

 #include <tune_quda.h>

 #include <quda_internal.h>
 #include <float_vector.h>
 #include <blas_quda.h>
 #include <color_spinor_field.h>

 #include <jitify_helper.cuh>
 #include <kernels/blas_core.cuh>

 namespace quda {

   namespace blas {

 #include <generic_blas.cuh>

     unsigned long long flops;
     unsigned long long bytes;

     static cudaStream_t *blasStream;

     template <typename FloatN, int M, typename SpinorX, typename SpinorY, typename SpinorZ, typename SpinorW,
         typename SpinorV, typename Functor>
     class BlasCuda : public Tunable
     {

   private:
       const int nParity; // for composite fields this includes the number of composites
       mutable BlasArg<SpinorX, SpinorY, SpinorZ, SpinorW, SpinorV, Functor> arg;

       const ColorSpinorField &x, &y, &z, &w, &v;

       // host pointers used for backing up fields when tuning
       // dont't these curry these in to minimize Arg size
       char *X_h, *Y_h, *Z_h, *W_h, *V_h;
       char *Xnorm_h, *Ynorm_h, *Znorm_h, *Wnorm_h, *Vnorm_h;

       unsigned int sharedBytesPerThread() const { return 0; }
       unsigned int sharedBytesPerBlock(const TuneParam &param) const { return 0; }

       virtual bool advanceSharedBytes(TuneParam &param) const
       {
         TuneParam next(param);
         advanceBlockDim(next); // to get next blockDim
         int nthreads = next.block.x * next.block.y * next.block.z;
         param.shared_bytes = sharedBytesPerThread() * nthreads > sharedBytesPerBlock(param) ?
             sharedBytesPerThread() * nthreads :
             sharedBytesPerBlock(param);
         return false;
       }

   public:
       BlasCuda(SpinorX &X, SpinorY &Y, SpinorZ &Z, SpinorW &W, SpinorV &V, Functor &f, ColorSpinorField &x,
           ColorSpinorField &y, ColorSpinorField &z, ColorSpinorField &w, ColorSpinorField &v, int length) :
           nParity((x.IsComposite() ? x.CompositeDim() : 1) * x.SiteSubset()), // must be first
           arg(X, Y, Z, W, V, f, length / nParity),
           x(x),
           y(y),
           z(z),
           w(w),
           v(v),
           X_h(0),
           Y_h(0),
           Z_h(0),
           W_h(0),
           V_h(0),
           Xnorm_h(0),
           Ynorm_h(0),
           Znorm_h(0),
           Wnorm_h(0),
           Vnorm_h(0)
       {
         strcpy(aux, x.AuxString());
         if (x.Precision() != y.Precision()) {
           strcat(aux, ",");
           strcat(aux, y.AuxString());
         }

 #ifdef JITIFY
         ::quda::create_jitify_program("kernels/blas_core.cuh");
 #endif
       }

       virtual ~BlasCuda() {}

       inline TuneKey tuneKey() const { return TuneKey(x.VolString(), typeid(arg.f).name(), aux); }

       inline void apply(const cudaStream_t &stream)
       {
         TuneParam tp = tuneLaunch(*this, getTuning(), getVerbosity());
 #ifdef JITIFY
         using namespace jitify::reflection;
         jitify_error = program->kernel("quda::blas::blasKernel")
                            .instantiate(Type<FloatN>(), M, Type<decltype(arg)>())
                            .configure(tp.grid, tp.block, tp.shared_bytes, stream)
                            .launch(arg);
 #else
         blasKernel<FloatN, M><<<tp.grid, tp.block, tp.shared_bytes, stream>>>(arg);
 #endif
       }

       void preTune()
       {
         arg.X.backup(&X_h, &Xnorm_h, x.Bytes(), x.NormBytes());
         arg.Y.backup(&Y_h, &Ynorm_h, y.Bytes(), y.NormBytes());
         arg.Z.backup(&Z_h, &Znorm_h, z.Bytes(), z.NormBytes());
         arg.W.backup(&W_h, &Wnorm_h, w.Bytes(), w.NormBytes());
         arg.V.backup(&V_h, &Vnorm_h, v.Bytes(), v.NormBytes());
       }

       void postTune()
       {
         arg.X.restore(&X_h, &Xnorm_h, x.Bytes(), x.NormBytes());
         arg.Y.restore(&Y_h, &Ynorm_h, y.Bytes(), y.NormBytes());
         arg.Z.restore(&Z_h, &Znorm_h, z.Bytes(), z.NormBytes());
         arg.W.restore(&W_h, &Wnorm_h, w.Bytes(), w.NormBytes());
         arg.V.restore(&V_h, &Vnorm_h, v.Bytes(), v.NormBytes());
       }

       void initTuneParam(TuneParam &param) const
       {
         Tunable::initTuneParam(param);
         param.grid.y = nParity;
       }

       void defaultTuneParam(TuneParam &param) const
       {
         Tunable::initTuneParam(param);
         param.grid.y = nParity;
       }

       long long flops() const { return arg.f.flops() * vec_length<FloatN>::value * arg.length * nParity * M; }
       long long bytes() const
       {
         // the factor two here assumes we are reading and writing to the high precision vector
         // this will evaluate correctly for non-mixed kernels since the +2/-2 will cancel out
         return (arg.f.streams() - 2) * x.Bytes() + 2 * y.Bytes();
       }
       int tuningIter() const { return 3; }
     };

     template <typename RegType, typename StoreType, typename yType, int M, template <typename, typename> class Functor,
         int writeX, int writeY, int writeZ, int writeW, int writeV>
     void nativeBlas(const double2 &a, const double2 &b, const double2 &c, ColorSpinorField &x, ColorSpinorField &y,
         ColorSpinorField &z, ColorSpinorField &w, ColorSpinorField &v, int length)
     {

       checkLength(x, y);
       checkLength(x, z);
       checkLength(x, w);
       checkLength(x, v);

       Spinor<RegType, StoreType, M, writeX> X(x);
       Spinor<RegType, yType, M, writeY> Y(y);
       Spinor<RegType, StoreType, M, writeZ> Z(z);
       Spinor<RegType, StoreType, M, writeW> W(w);
       Spinor<RegType, yType, M, writeV> V(v);

       typedef typename scalar<RegType>::type Float;
       typedef typename vector<Float, 2>::type Float2;
       typedef vector<Float, 2> vec2;
       Functor<Float2, RegType> f((Float2)vec2(a), (Float2)vec2(b), (Float2)vec2(c));

       BlasCuda<RegType, M, decltype(X), decltype(Y), decltype(Z), decltype(W), decltype(V), Functor<Float2, RegType>> blas(
           X, Y, Z, W, V, f, x, y, z, w, v, length);
       blas.apply(*blasStream);

       blas::bytes += blas.bytes();
       blas::flops += blas.flops();

       checkCudaError();
     }

     template <template <typename Float, typename FloatN> class Functor, int writeX = 0, int writeY = 0, int writeZ = 0,
         int writeW = 0, int writeV = 0>
     void uni_blas(const double2 &a, const double2 &b, const double2 &c, ColorSpinorField &x, ColorSpinorField &y,
         ColorSpinorField &z, ColorSpinorField &w, ColorSpinorField &v)
     {

       checkPrecision(x, y, z, w, v);

       if (checkLocation(x, y, z, w, v) == QUDA_CUDA_FIELD_LOCATION) {

         if (!x.isNative()
             && !(x.Nspin() == 4 && x.FieldOrder() == QUDA_FLOAT2_FIELD_ORDER && x.Precision() == QUDA_SINGLE_PRECISION
                 || x.Nspin() == 4 && x.FieldOrder() == QUDA_FLOAT2_FIELD_ORDER && x.Precision() == QUDA_HALF_PRECISION)) {
           warningQuda("Device blas on non-native fields is not supported\n");
           return;
         }

         if (x.Precision() == QUDA_DOUBLE_PRECISION) {

 #if QUDA_PRECISION & 8
 #if defined(GPU_WILSON_DIRAC) || defined(GPU_DOMAIN_WALL_DIRAC) || defined(GPU_STAGGERED_DIRAC)
           const int M = 1;
           nativeBlas<double2, double2, double2, M, Functor, writeX, writeY, writeZ, writeW, writeV>(
               a, b, c, x, y, z, w, v, x.Length() / (2 * M));
 #else
           errorQuda("blas has not been built for Nspin=%d fields", x.Nspin());
 #endif
 #else
           errorQuda("QUDA_PRECISION=%d does not enable precision %d", QUDA_PRECISION, x.Precision());
 #endif

         } else if (x.Precision() == QUDA_SINGLE_PRECISION) {

 #if QUDA_PRECISION & 4
           if (x.Nspin() == 4 && x.FieldOrder() == QUDA_FLOAT4_FIELD_ORDER) {
 #if defined(GPU_WILSON_DIRAC) || defined(GPU_DOMAIN_WALL_DIRAC)
             const int M = 1;
             nativeBlas<float4, float4, float4, M, Functor, writeX, writeY, writeZ, writeW, writeV>(
                 a, b, c, x, y, z, w, v, x.Length() / (4 * M));
 #else
             errorQuda("blas has not been built for Nspin=%d fields", x.Nspin());
 #endif
           } else if (x.Nspin() == 2 || x.Nspin() == 1 || (x.Nspin() == 4 && x.FieldOrder() == QUDA_FLOAT2_FIELD_ORDER)) {
 #if defined(GPU_WILSON_DIRAC) || defined(GPU_DOMAIN_WALL_DIRAC) || defined(GPU_STAGGERED_DIRAC)
             const int M = 1;
             nativeBlas<float2, float2, float2, M, Functor, writeX, writeY, writeZ, writeW, writeV>(
                 a, b, c, x, y, z, w, v, x.Length() / (2 * M));
 #else
             errorQuda("blas has not been built for Nspin=%d fields", x.Nspin());
 #endif
           } else {
             errorQuda("nSpin=%d is not supported\n", x.Nspin());
           }
 #else
           errorQuda("QUDA_PRECISION=%d does not enable precision %d", QUDA_PRECISION, x.Precision());
 #endif

         } else if (x.Precision() == QUDA_HALF_PRECISION) {

 #if QUDA_PRECISION & 2
           if (x.Ncolor() != 3) { errorQuda("nColor = %d is not supported", x.Ncolor()); }
           if (x.Nspin() == 4 && x.FieldOrder() == QUDA_FLOAT4_FIELD_ORDER) { // wilson
 #if defined(GPU_WILSON_DIRAC) || defined(GPU_DOMAIN_WALL_DIRAC)
             const int M = 6;
             nativeBlas<float4, short4, short4, M, Functor, writeX, writeY, writeZ, writeW, writeV>(
                 a, b, c, x, y, z, w, v, x.Volume());
 #else
             errorQuda("blas has not been built for Nspin=%d fields", x.Nspin());
 #endif
           } else if (x.Nspin() == 4 && x.FieldOrder() == QUDA_FLOAT2_FIELD_ORDER) { // wilson
 #if defined(GPU_WILSON_DIRAC) || defined(GPU_DOMAIN_WALL_DIRAC)
             const int M = 12;
             nativeBlas<float2, short2, short2, M, Functor, writeX, writeY, writeZ, writeW, writeV>(
                 a, b, c, x, y, z, w, v, x.Volume());
 #else
             errorQuda("blas has not been built for Nspin=%d fields", x.Nspin());
 #endif
           } else if (x.Nspin() == 1) { // staggered
 #ifdef GPU_STAGGERED_DIRAC
             const int M = 3;
             nativeBlas<float2, short2, short2, M, Functor, writeX, writeY, writeZ, writeW, writeV>(
                 a, b, c, x, y, z, w, v, x.Volume());
 #else
             errorQuda("blas has not been built for Nspin=%d fields", x.Nspin());
 #endif
           } else {
             errorQuda("nSpin=%d is not supported\n", x.Nspin());
           }
 #else
           errorQuda("QUDA_PRECISION=%d does not enable precision %d", QUDA_PRECISION, x.Precision());
 #endif

         } else if (x.Precision() == QUDA_QUARTER_PRECISION) {

 #if QUDA_PRECISION & 1
           if (x.Ncolor() != 3) { errorQuda("nColor = %d is not supported", x.Ncolor()); }
           if (x.Nspin() == 4) { // wilson
 #if defined(GPU_WILSON_DIRAC) || defined(GPU_DOMAIN_WALL_DIRAC)
             const int M = 6;
             nativeBlas<float4, char4, char4, M, Functor, writeX, writeY, writeZ, writeW, writeV>(
                 a, b, c, x, y, z, w, v, x.Volume());
 #else
             errorQuda("blas has not been built for Nspin=%d fields", x.Nspin());
 #endif
           } else if (x.Nspin() == 1) { // staggered
 #ifdef GPU_STAGGERED_DIRAC
             const int M = 3;
             nativeBlas<float2, char2, char2, M, Functor, writeX, writeY, writeZ, writeW, writeV>(
                 a, b, c, x, y, z, w, v, x.Volume());
 #else
             errorQuda("blas has not been built for Nspin=%d fields", x.Nspin());
 #endif
           } else {
             errorQuda("nSpin=%d is not supported\n", x.Nspin());
           }
 #else
           errorQuda("QUDA_PRECISION=%d does not enable precision %d", QUDA_PRECISION, x.Precision());
 #endif

         } else {
           errorQuda("precision=%d is not supported\n", x.Precision());
         }
       } else { // fields on the cpu
         if (x.Precision() == QUDA_DOUBLE_PRECISION) {
           Functor<double2, double2> f(a, b, c);
           genericBlas<double, double, writeX, writeY, writeZ, writeW, writeV>(x, y, z, w, v, f);
         } else if (x.Precision() == QUDA_SINGLE_PRECISION) {
           Functor<float2, float2> f(make_float2(a.x, a.y), make_float2(b.x, b.y), make_float2(c.x, c.y));
           genericBlas<float, float, writeX, writeY, writeZ, writeW, writeV>(x, y, z, w, v, f);
         } else {
           errorQuda("Not implemented");
         }
       }
     }

     template <template <typename Float, typename FloatN> class Functor, int writeX = 0, int writeY = 0, int writeZ = 0,
         int writeW = 0, int writeV = 0>
     void mixed_blas(const double2 &a, const double2 &b, const double2 &c, ColorSpinorField &x, ColorSpinorField &y,
         ColorSpinorField &z, ColorSpinorField &w, ColorSpinorField &v)
     {

       checkPrecision(x, z, w);
       checkPrecision(y, v);

       if (checkLocation(x, y, z, w, v) == QUDA_CUDA_FIELD_LOCATION) {

         if (!x.isNative()) {
           warningQuda("Device blas on non-native fields is not supported\n");
           return;
         }

         if (x.Precision() == QUDA_SINGLE_PRECISION && y.Precision() == QUDA_DOUBLE_PRECISION) {

 #if QUDA_PRECISION & 4
           if (x.Nspin() == 4) {
             const int M = 12;
             nativeBlas<double2, float4, double2, M, Functor, writeX, writeY, writeZ, writeW, writeV>(
                 a, b, c, x, y, z, w, v, x.Volume());
           } else if (x.Nspin() == 1) {
             const int M = 3;
             nativeBlas<double2, float2, double2, M, Functor, writeX, writeY, writeZ, writeW, writeV>(
                 a, b, c, x, y, z, w, v, x.Volume());
           }
 #else
           errorQuda("QUDA_PRECISION=%d does not enable precision %d", QUDA_PRECISION, x.Precision());
 #endif

         } else if (x.Precision() == QUDA_HALF_PRECISION) {

 #if QUDA_PRECISION & 2
           if (y.Precision() == QUDA_DOUBLE_PRECISION) {

 #if QUDA_PRECISION & 8
             if (x.Nspin() == 4) {
               const int M = 12;
               nativeBlas<double2, short4, double2, M, Functor, writeX, writeY, writeZ, writeW, writeV>(
                   a, b, c, x, y, z, w, v, x.Volume());
             } else if (x.Nspin() == 1) {
               const int M = 3;
               nativeBlas<double2, short2, double2, M, Functor, writeX, writeY, writeZ, writeW, writeV>(
                   a, b, c, x, y, z, w, v, x.Volume());
             }
 #else
             errorQuda("QUDA_PRECISION=%d does not enable precision %d", QUDA_PRECISION, y.Precision());
 #endif

           } else if (y.Precision() == QUDA_SINGLE_PRECISION) {

 #if QUDA_PRECISION & 4
             if (x.Nspin() == 4) {
               const int M = 6;
               nativeBlas<float4, short4, float4, M, Functor, writeX, writeY, writeZ, writeW, writeV>(
                   a, b, c, x, y, z, w, v, x.Volume());
             } else if (x.Nspin() == 1) {
               const int M = 3;
               nativeBlas<float2, short2, float2, M, Functor, writeX, writeY, writeZ, writeW, writeV>(
                   a, b, c, x, y, z, w, v, x.Volume());
             }
 #else
             errorQuda("QUDA_PRECISION=%d does not enable precision %d", QUDA_PRECISION, y.Precision());
 #endif

           } else {
             errorQuda("Not implemented for this precision combination %d %d", x.Precision(), y.Precision());
           }
 #else
           errorQuda("QUDA_PRECISION=%d does not enable precision %d", QUDA_PRECISION, x.Precision());
 #endif

         } else if (x.Precision() == QUDA_QUARTER_PRECISION) {

 #if QUDA_PRECISION & 1

           if (y.Precision() == QUDA_DOUBLE_PRECISION) {

 #if QUDA_PRECISION & 8
             if (x.Nspin() == 4) {
               const int M = 12;
               nativeBlas<double2, char4, double2, M, Functor, writeX, writeY, writeZ, writeW, writeV>(
                   a, b, c, x, y, z, w, v, x.Volume());
             } else if (x.Nspin() == 1) {
               const int M = 3;
               nativeBlas<double2, char2, double2, M, Functor, writeX, writeY, writeZ, writeW, writeV>(
                   a, b, c, x, y, z, w, v, x.Volume());
             }
 #else
             errorQuda("QUDA_PRECISION=%d does not enable precision %d", QUDA_PRECISION, y.Precision());
 #endif

           } else if (y.Precision() == QUDA_SINGLE_PRECISION) {

 #if QUDA_PRECISION & 4
             if (x.Nspin() == 4) {
               const int M = 6;
               nativeBlas<float4, char4, float4, M, Functor, writeX, writeY, writeZ, writeW, writeV>(
                   a, b, c, x, y, z, w, v, x.Volume());
             } else if (x.Nspin() == 1) {
               const int M = 3;
               nativeBlas<float2, char2, float2, M, Functor, writeX, writeY, writeZ, writeW, writeV>(
                   a, b, c, x, y, z, w, v, x.Volume());
             }
 #else
             errorQuda("QUDA_PRECISION=%d does not enable precision %d", QUDA_PRECISION, y.Precision());
 #endif

           } else if (y.Precision() == QUDA_HALF_PRECISION) {

 #if QUDA_PRECISION & 2
             if (x.Nspin() == 4) {
               const int M = 6;
               nativeBlas<float4, char4, short4, M, Functor, writeX, writeY, writeZ, writeW, writeV>(
                   a, b, c, x, y, z, w, v, x.Volume());
             } else if (x.Nspin() == 1) {
               const int M = 3;
               nativeBlas<float2, char2, short2, M, Functor, writeX, writeY, writeZ, writeW, writeV>(
                   a, b, c, x, y, z, w, v, x.Volume());
             }
 #else
             errorQuda("QUDA_PRECISION=%d does not enable precision %d", QUDA_PRECISION, y.Precision());
 #endif

           } else {
             errorQuda("Not implemented for this precision combination %d %d", x.Precision(), y.Precision());
           }
 #else
           errorQuda("QUDA_PRECISION=%d does not enable precision %d", QUDA_PRECISION, x.Precision());
 #endif

         } else {
           errorQuda("Not implemented for this precision combination %d %d", x.Precision(), y.Precision());
         }

       } else { // fields on the cpu
         using namespace quda::colorspinor;
         if (x.Precision() == QUDA_SINGLE_PRECISION && y.Precision() == QUDA_DOUBLE_PRECISION) {
           Functor<double2, double2> f(a, b, c);
           genericBlas<float, double, writeX, writeY, writeZ, writeW, writeV>(x, y, z, w, v, f);
         } else {
           errorQuda("Not implemented");
         }
       }
     }

     void zero(ColorSpinorField &a) {
       if (typeid(a) == typeid(cudaColorSpinorField)) {
   static_cast<cudaColorSpinorField&>(a).zero();
       } else {
   static_cast<cpuColorSpinorField&>(a).zero();
       }
     }

     void initReduce();
     void endReduce();

     void init()
     {
       blasStream = &streams[Nstream-1];
       initReduce();
     }

     void end(void)
     {
       endReduce();
     }

     cudaStream_t* getStream() { return blasStream; }

     void axpbyz(double a, ColorSpinorField &x, double b,
                 ColorSpinorField &y, ColorSpinorField &z) {
       if (x.Precision() != y.Precision()) {
   // call hacked mixed precision kernel
         mixed_blas<axpbyz_, 0, 0, 0, 0, 1>(
             make_double2(a, 0.0), make_double2(b, 0.0), make_double2(0.0, 0.0), x, y, x, x, z);
       } else {
         uni_blas<axpbyz_, 0, 0, 0, 0, 1>(
             make_double2(a, 0.0), make_double2(b, 0.0), make_double2(0.0, 0.0), x, y, x, x, z);
       }
     }

     void ax(double a, ColorSpinorField &x) {
       uni_blas<ax_, 1>(make_double2(a, 0.0), make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, x, x, x, x);
     }

     void caxpy(const Complex &a, ColorSpinorField &x, ColorSpinorField &y) {
       if (x.Precision() != y.Precision()) {
         mixed_blas<caxpy_, 0, 1>(
             make_double2(real(a), imag(a)), make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, y);
       } else {
         uni_blas<caxpy_, 0, 1>(
             make_double2(real(a), imag(a)), make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, x, x, y);
       }
     }


     void caxpby(const Complex &a, ColorSpinorField &x, const Complex &b, ColorSpinorField &y) {
       uni_blas<caxpby_, 0, 1>(
           make_double2(REAL(a), IMAG(a)), make_double2(REAL(b), IMAG(b)), make_double2(0.0, 0.0), x, y, x, x, y);
     }

     void caxpbypczw(const Complex &a, ColorSpinorField &x, const Complex &b, ColorSpinorField &y, const Complex &c,
                     ColorSpinorField &z, ColorSpinorField &w)
     {
       uni_blas<caxpbypczw_, 0, 0, 0, 1>(make_double2(REAL(a), IMAG(a)), make_double2(REAL(b), IMAG(b)),
                                         make_double2(REAL(c), IMAG(c)), x, y, z, w, y);
     }

     void cxpaypbz(ColorSpinorField &x, const Complex &a, ColorSpinorField &y,
       const Complex &b, ColorSpinorField &z) {
       uni_blas<caxpbypczw_, 0, 0, 0, 1>(make_double2(1.0, 0.0), make_double2(REAL(a), IMAG(a)),
                                         make_double2(REAL(b), IMAG(b)), x, y, z, z, y);
     }

     void axpyBzpcx(double a, ColorSpinorField& x, ColorSpinorField& y, double b,
        ColorSpinorField& z, double c) {
       if (x.Precision() != y.Precision()) {
   // call hacked mixed precision kernel
         mixed_blas<axpyBzpcx_, 1, 1>(make_double2(a, 0.0), make_double2(b, 0.0), make_double2(c, 0.0), x, y, z, x, y);
       } else {
   // swap arguments around
         uni_blas<axpyBzpcx_, 1, 1>(make_double2(a, 0.0), make_double2(b, 0.0), make_double2(c, 0.0), x, y, z, x, y);
       }
     }

     void axpyZpbx(double a, ColorSpinorField& x, ColorSpinorField& y,
       ColorSpinorField& z, double b) {
       if (x.Precision() != y.Precision()) {
   // call hacked mixed precision kernel
         mixed_blas<axpyZpbx_, 1, 1>(make_double2(a, 0.0), make_double2(b, 0.0), make_double2(0.0, 0.0), x, y, z, x, y);
       } else {
   // swap arguments around
         uni_blas<axpyZpbx_, 1, 1>(make_double2(a, 0.0), make_double2(b, 0.0), make_double2(0.0, 0.0), x, y, z, x, y);
       }
     }

     void caxpyBzpx(const Complex &a, ColorSpinorField &x,
           ColorSpinorField &y, const Complex &b, ColorSpinorField &z) {
       if (x.Precision() != y.Precision()) {
         mixed_blas<caxpyBzpx_, 1, 1>(
             make_double2(REAL(a), IMAG(a)), make_double2(REAL(b), IMAG(b)), make_double2(0.0, 0.0), x, y, z, x, y);
       } else {
         uni_blas<caxpyBzpx_, 1, 1>(
             make_double2(REAL(a), IMAG(a)), make_double2(REAL(b), IMAG(b)), make_double2(0.0, 0.0), x, y, z, x, y);
       }
     }

     void caxpyBxpz(const Complex &a, ColorSpinorField &x,
           ColorSpinorField &y, const Complex &b, ColorSpinorField &z) {
       if (x.Precision() != y.Precision()) {
         mixed_blas<caxpyBxpz_, 0, 1, 1>(
             make_double2(REAL(a), IMAG(a)), make_double2(REAL(b), IMAG(b)), make_double2(0.0, 0.0), x, y, z, x, y);
       } else {
         uni_blas<caxpyBxpz_, 0, 1, 1>(
             make_double2(REAL(a), IMAG(a)), make_double2(REAL(b), IMAG(b)), make_double2(0.0, 0.0), x, y, z, x, y);
       }
     }

     void caxpbypzYmbw(const Complex &a, ColorSpinorField &x, const Complex &b,
           ColorSpinorField &y, ColorSpinorField &z, ColorSpinorField &w) {
       uni_blas<caxpbypzYmbw_, 0, 1, 1>(
           make_double2(REAL(a), IMAG(a)), make_double2(REAL(b), IMAG(b)), make_double2(0.0, 0.0), x, y, z, w, y);
     }

     void cabxpyAx(double a, const Complex &b, ColorSpinorField &x, ColorSpinorField &y) {
       // swap arguments around
       uni_blas<cabxpyAx_, 1, 1>(
           make_double2(a, 0.0), make_double2(REAL(b), IMAG(b)), make_double2(0.0, 0.0), x, y, x, x, y);
     }

     void caxpyXmaz(const Complex &a, ColorSpinorField &x,
        ColorSpinorField &y, ColorSpinorField &z) {
       uni_blas<caxpyxmaz_, 1, 1>(
           make_double2(REAL(a), IMAG(a)), make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, z, x, y);
     }

     void caxpyXmazMR(const Complex &a, ColorSpinorField &x,
          ColorSpinorField &y, ColorSpinorField &z) {
       if (!commAsyncReduction())
   errorQuda("This kernel requires asynchronous reductions to be set");
       if (x.Location() == QUDA_CPU_FIELD_LOCATION)
   errorQuda("This kernel cannot be run on CPU fields");

       uni_blas<caxpyxmazMR_, 1, 1>(
           make_double2(REAL(a), IMAG(a)), make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, z, x, y);
     }

     void tripleCGUpdate(double a, double b, ColorSpinorField &x,
       ColorSpinorField &y, ColorSpinorField &z, ColorSpinorField &w) {
       if (x.Precision() != y.Precision()) {
       // call hacked mixed precision kernel
       mixed_blas<tripleCGUpdate_, 0, 1, 1, 1>(
           make_double2(a, 0.0), make_double2(b, 0.0), make_double2(0.0, 0.0), x, y, z, w, y);
       } else {
         uni_blas<tripleCGUpdate_, 0, 1, 1, 1>(
             make_double2(a, 0.0), make_double2(b, 0.0), make_double2(0.0, 0.0), x, y, z, w, y);
       }
     }

     void doubleCG3Init(double a, ColorSpinorField &x, ColorSpinorField &y, ColorSpinorField &z) {
       uni_blas<doubleCG3Init_, 1, 1, 0, 0>(
           make_double2(a, 0.0), make_double2(0.0, 0.0), make_double2(0.0, 0.0), x, y, z, z, y);
     }

     void doubleCG3Update(double a, double b, ColorSpinorField &x, ColorSpinorField &y, ColorSpinorField &z) {
       uni_blas<doubleCG3Update_, 1, 1, 0, 0>(
           make_double2(a, 0.0), make_double2(b, 1.0 - b), make_double2(0.0, 0.0), x, y, z, z, y);
     }

   } // namespace blas

 } // namespace quda
quda::blas::ax
void ax(double a, ColorSpinorField &x)
Definition: blas_quda.cu:508

quda::blas::BlasArg::length
const int length
Definition: blas_core.cuh:26

quda::ColorSpinorField::Nspin
int Nspin() const
Definition: color_spinor_field.h:406

quda::TuneParam
Definition: tune_quda.h:17

generic_blas.cuh

Z
int Z[4]
Definition: test_util.cpp:26

quda::blas::caxpyXmazMR
void caxpyXmazMR(const Complex &a, ColorSpinorField &x, ColorSpinorField &y, ColorSpinorField &z)
Definition: blas_quda.cu:603

float_vector.h

commAsyncReduction
bool commAsyncReduction()
Definition: comm_common.cpp:825

quda::blas::BlasCuda::nParity
const int nParity
Definition: blas_quda.cu:33

quda::blas::axpyZpbx
void axpyZpbx(double a, ColorSpinorField &x, ColorSpinorField &y, ColorSpinorField &z, double b)
Definition: blas_quda.cu:552

quda::ColorSpinorField
Definition: color_spinor_field.h:311

quda::LatticeField::AuxString
const char * AuxString() const
Definition: lattice_field.h:627

getVerbosity
QudaVerbosity getVerbosity()
Definition: util_quda.cpp:21

quda::blas::end
void end(void)
Definition: blas_quda.cu:489

quda::blas::BlasCuda::Xnorm_h
char * Xnorm_h
Definition: blas_quda.cu:41

quda::blas::BlasCuda::x
const ColorSpinorField & x
Definition: blas_quda.cu:36

checkPrecision
#define checkPrecision(...)
Definition: lattice_field.h:695

errorQuda
#define errorQuda(...)
Definition: util_quda.h:121

color_spinor_field.h

quda::blas::init
void init()
Definition: blas_quda.cu:483

QUDA_CUDA_FIELD_LOCATION
Definition: enum_quda.h:326

jitify_helper.cuh
Helper file when using jitify run-time compilation. This file should be included in source code...

quda::blas::BlasCuda::y
const ColorSpinorField & y
Definition: blas_quda.cu:36

QUDA_QUARTER_PRECISION
Definition: enum_quda.h:59

quda::blas::BlasCuda::Vnorm_h
char * Vnorm_h
Definition: blas_quda.cu:41

QUDA_HALF_PRECISION
Definition: enum_quda.h:60

quda::blas::BlasArg::Z
SpinorZ Z
Definition: blas_core.cuh:22

streams
cudaStream_t * streams
Definition: interface_quda.cpp:157

quda::stream
cudaStream_t * stream
Definition: cuda_color_spinor_field.cpp:897

quda::blas::cabxpyAx
void cabxpyAx(double a, const Complex &b, ColorSpinorField &x, ColorSpinorField &y)
Definition: blas_quda.cu:591

quda::Nstream
const int Nstream
Definition: quda_internal.h:83

quda::blas::caxpbypczw
void caxpbypczw(const Complex &a, ColorSpinorField &x, const Complex &b, ColorSpinorField &y, const Complex &c, ColorSpinorField &z, ColorSpinorField &w)
Definition: blas_quda.cu:528

quda::blas::BlasCuda::advanceSharedBytes
virtual bool advanceSharedBytes(TuneParam &param) const
Definition: blas_quda.cu:46

quda::LatticeField::VolString
const char * VolString() const
Definition: lattice_field.h:624

quda::TuneParam::shared_bytes
int shared_bytes
Definition: tune_quda.h:22

blas_core.cuh

quda::cudaColorSpinorField
Definition: color_spinor_field.h:575

quda::blas::BlasCuda::w
const ColorSpinorField & w
Definition: blas_quda.cu:36

quda::blas::BlasArg::W
SpinorW W
Definition: blas_core.cuh:23

quda::ColorSpinorField::Ncolor
int Ncolor() const
Definition: color_spinor_field.h:405

length
int length[]
Definition: gauge_force_test.cpp:34

quda::blas::BlasCuda::V_h
char * V_h
Definition: blas_quda.cu:40

quda::ColorSpinorField::Volume
int Volume() const
Definition: color_spinor_field.h:415

quda::TuneParam::grid
dim3 grid
Definition: tune_quda.h:21

quda::blas::caxpyBzpx
void caxpyBzpx(const Complex &, ColorSpinorField &, ColorSpinorField &, const Complex &, ColorSpinorField &)
Definition: blas_quda.cu:563

quda::blas::BlasArg::Y
SpinorY Y
Definition: blas_core.cuh:21

quda
Definition: blas_cublas.h:5

quda::blas::caxpyBxpz
void caxpyBxpz(const Complex &, ColorSpinorField &, ColorSpinorField &, const Complex &, ColorSpinorField &)
Definition: blas_quda.cu:574

quda::blas::BlasCuda::Wnorm_h
char * Wnorm_h
Definition: blas_quda.cu:41

quda::scalar
Definition: register_traits.h:113

quda::blas::doubleCG3Update
void doubleCG3Update(double a, double b, ColorSpinorField &x, ColorSpinorField &y, ColorSpinorField &z)
Definition: blas_quda.cu:631

quda::ColorSpinorField::NormBytes
size_t NormBytes() const
Definition: color_spinor_field.h:419

param
QudaGaugeParam param
Definition: pack_test.cpp:17

quda::blas::getStream
cudaStream_t * getStream()
Definition: blas_quda.cu:494

quda::blas::BlasCuda::W_h
char * W_h
Definition: blas_quda.cu:40

quda::blas::BlasCuda::apply
void apply(const cudaStream_t &stream)
Definition: blas_quda.cu:93

quda::blas::BlasCuda
Definition: blas_quda.cu:29

quda::Tunable
Definition: tune_quda.h:59

quda::blas::blasStream
static cudaStream_t * blasStream
Definition: blas_quda.cu:25

quda::blas::BlasCuda::postTune
void postTune()
Definition: blas_quda.cu:116

quda::blas::BlasCuda::v
const ColorSpinorField & v
Definition: blas_quda.cu:36

quda::TuneParam::block
dim3 block
Definition: tune_quda.h:20

quda::blas::BlasCuda::Ynorm_h
char * Ynorm_h
Definition: blas_quda.cu:41

quda::blas::mixed_blas
void mixed_blas(const double2 &a, const double2 &b, const double2 &c, ColorSpinorField &x, ColorSpinorField &y, ColorSpinorField &z, ColorSpinorField &w, ColorSpinorField &v)
Definition: blas_quda.cu:326

quda::blas::caxpbypzYmbw
void caxpbypzYmbw(const Complex &, ColorSpinorField &, const Complex &, ColorSpinorField &, ColorSpinorField &, ColorSpinorField &)
Definition: blas_quda.cu:585

quda::blas::BlasCuda::tuneKey
TuneKey tuneKey() const
Definition: blas_quda.cu:91

quda::blas::initReduce
void initReduce()
Definition: reduce_quda.cu:64

quda::blas::BlasCuda::Y_h
char * Y_h
Definition: blas_quda.cu:40

quda::tuneLaunch
TuneParam & tuneLaunch(Tunable &tunable, QudaTune enabled, QudaVerbosity verbosity)
Definition: tune.cpp:643

quda::Tunable::jitify_error
CUresult jitify_error
Definition: tune_quda.h:276

warningQuda
#define warningQuda(...)
Definition: util_quda.h:133

checkLocation
#define checkLocation(...)
Definition: lattice_field.h:664

quda::blas::axpyBzpcx
void axpyBzpcx(double a, ColorSpinorField &x, ColorSpinorField &y, double b, ColorSpinorField &z, double c)
Definition: blas_quda.cu:541

quda::blas::BlasCuda::bytes
long long bytes() const
Definition: blas_quda.cu:138

QUDA_FLOAT2_FIELD_ORDER
Definition: enum_quda.h:348

quda::blas::BlasCuda::sharedBytesPerBlock
unsigned int sharedBytesPerBlock(const TuneParam &param) const
Definition: blas_quda.cu:44

quda::vec_length
Definition: register_traits.h:76

REAL
#define REAL(a)
Definition: blas_helper.cuh:14

X
int X[4]
Definition: covdev_test.cpp:70

quda::Complex
std::complex< double > Complex
Definition: quda_internal.h:46

quda::blas::BlasCuda::initTuneParam
void initTuneParam(TuneParam &param) const
Definition: blas_quda.cu:125

quda::blas::tripleCGUpdate
void tripleCGUpdate(double alpha, double beta, ColorSpinorField &q, ColorSpinorField &r, ColorSpinorField &x, ColorSpinorField &p)
Definition: blas_quda.cu:614

quda::blas::BlasCuda::tuningIter
int tuningIter() const
Definition: blas_quda.cu:144

quda::blas::BlasArg
Definition: blas_core.cuh:19

quda::blas::caxpy
void caxpy(const Complex &a, ColorSpinorField &x, ColorSpinorField &y)
Definition: blas_quda.cu:512

quda::blas::axpbyz
void axpbyz(double a, ColorSpinorField &x, double b, ColorSpinorField &y, ColorSpinorField &z)
Definition: blas_quda.cu:496

quda::blas::BlasCuda::~BlasCuda
virtual ~BlasCuda()
Definition: blas_quda.cu:89

quda::blas::zero
void zero(ColorSpinorField &a)
Definition: blas_quda.cu:472

quda::blas::doubleCG3Init
void doubleCG3Init(double a, ColorSpinorField &x, ColorSpinorField &y, ColorSpinorField &z)
Definition: blas_quda.cu:626

V
int V
Definition: test_util.cpp:27

quda::checkLength
void checkLength(const ColorSpinorField &a, const ColorSpinorField &b)
Definition: blas_helper.cuh:26

tune_quda.h

quda::ColorSpinorField::isNative
bool isNative() const
Definition: color_spinor_field.cpp:568

quda::blas::BlasArg::X
SpinorX X
Definition: blas_core.cuh:20

quda::LatticeField::Location
QudaFieldLocation Location() const
Definition: lattice_field.cpp:660

blas_quda.h

quda::blas::BlasArg::f
Functor f
Definition: blas_core.cuh:25

QUDA_DOUBLE_PRECISION
Definition: enum_quda.h:62

quda::blas::BlasCuda::Znorm_h
char * Znorm_h
Definition: blas_quda.cu:41

quda::blas::BlasCuda::arg
BlasArg< SpinorX, SpinorY, SpinorZ, SpinorW, SpinorV, Functor > arg
Definition: blas_quda.cu:34

QUDA_SINGLE_PRECISION
Definition: enum_quda.h:61

quda::blas::BlasCuda::BlasCuda
BlasCuda(SpinorX &X, SpinorY &Y, SpinorZ &Z, SpinorW &W, SpinorV &V, Functor &f, ColorSpinorField &x, ColorSpinorField &y, ColorSpinorField &z, ColorSpinorField &w, ColorSpinorField &v, int length)
Definition: blas_quda.cu:58

quda::blas::caxpyXmaz
void caxpyXmaz(const Complex &a, ColorSpinorField &x, ColorSpinorField &y, ColorSpinorField &z)
Definition: blas_quda.cu:597

quda::blas::BlasCuda::flops
long long flops() const
Definition: blas_quda.cu:137

quda::ColorSpinorField::Bytes
size_t Bytes() const
Definition: color_spinor_field.h:418

quda::colorspinor
Definition: color_spinor_field_order.h:187

quda::blas::BlasCuda::Z_h
char * Z_h
Definition: blas_quda.cu:40

quda::blas::uni_blas
void uni_blas(const double2 &a, const double2 &b, const double2 &c, ColorSpinorField &x, ColorSpinorField &y, ColorSpinorField &z, ColorSpinorField &w, ColorSpinorField &v)
Definition: blas_quda.cu:185

quda::blas::flops
unsigned long long flops
Definition: blas_quda.cu:22

quda::blas::caxpby
void caxpby(const Complex &a, ColorSpinorField &x, const Complex &b, ColorSpinorField &y)
Definition: blas_quda.cu:523

quda::ColorSpinorField::Length
size_t Length() const
Definition: color_spinor_field.h:413

quda::blas::BlasArg::V
SpinorV V
Definition: blas_core.cuh:24

quda::Tunable::initTuneParam
virtual void initTuneParam(TuneParam &param) const
Definition: tune_quda.h:304

Spinor
Definition: texture.h:288

quda::blas::cxpaypbz
void cxpaypbz(ColorSpinorField &, const Complex &b, ColorSpinorField &y, const Complex &c, ColorSpinorField &z)
Definition: blas_quda.cu:535

quda::blas::nativeBlas
void nativeBlas(const double2 &a, const double2 &b, const double2 &c, ColorSpinorField &x, ColorSpinorField &y, ColorSpinorField &z, ColorSpinorField &w, ColorSpinorField &v, int length)
Definition: blas_quda.cu:149

checkCudaError
#define checkCudaError()
Definition: util_quda.h:161

QUDA_FLOAT4_FIELD_ORDER
Definition: enum_quda.h:349

quda::Tunable::advanceBlockDim
virtual bool advanceBlockDim(TuneParam &param) const
Definition: tune_quda.h:124

quda::blas::BlasCuda::z
const ColorSpinorField & z
Definition: blas_quda.cu:36

getTuning
QudaTune getTuning()
Query whether autotuning is enabled or not. Default is enabled but can be overridden by setting QUDA_...
Definition: util_quda.cpp:52

quda::LatticeField::Precision
QudaPrecision Precision() const
Definition: lattice_field.h:546

quda::blas::BlasCuda::defaultTuneParam
void defaultTuneParam(TuneParam &param) const
Definition: blas_quda.cu:131

QUDA_CPU_FIELD_LOCATION
Definition: enum_quda.h:325

quda::ColorSpinorField::FieldOrder
QudaFieldOrder FieldOrder() const
Definition: color_spinor_field.h:483

quda::Tunable::aux
char aux[TuneKey::aux_n]
Definition: tune_quda.h:265

quda::TuneKey
Definition: tune_key.h:8

quda::blas::BlasCuda::sharedBytesPerThread
unsigned int sharedBytesPerThread() const
Definition: blas_quda.cu:43

quda::blas::BlasCuda::X_h
char * X_h
Definition: blas_quda.cu:40

quda::blas::endReduce
void endReduce()
Definition: reduce_quda.cu:120

quda::blas::bytes
unsigned long long bytes
Definition: blas_quda.cu:23

quda::cpuColorSpinorField
Definition: color_spinor_field.h:865

quda::blas::BlasCuda::preTune
void preTune()
Definition: blas_quda.cu:107

quda_internal.h

IMAG
#define IMAG(a)
Definition: blas_helper.cuh:15