v0.9.0/doc/dslash__quda_8cu_source.html

 #include <cstdlib>
 #include <cstdio>
 #include <string>
 #include <iostream>

 #include <color_spinor_field.h>
 #include <clover_field.h>

 // these control the Wilson-type actions
 #ifdef GPU_WILSON_DIRAC
 //#define DIRECT_ACCESS_LINK
 //#define DIRECT_ACCESS_WILSON_SPINOR
 //#define DIRECT_ACCESS_WILSON_ACCUM
 //#define DIRECT_ACCESS_WILSON_INTER
 //#define DIRECT_ACCESS_WILSON_PACK_SPINOR
 //#define DIRECT_ACCESS_CLOVER
 #endif // GPU_WILSON_DIRAC

 //these are access control for staggered action
 #ifdef GPU_STAGGERED_DIRAC
 #if (__COMPUTE_CAPABILITY__ >= 300) // Kepler works best with texture loads only
 //#define DIRECT_ACCESS_FAT_LINK
 //#define DIRECT_ACCESS_LONG_LINK
 //#define DIRECT_ACCESS_SPINOR
 //#define DIRECT_ACCESS_ACCUM
 //#define DIRECT_ACCESS_INTER
 //#define DIRECT_ACCESS_PACK
 #else // fermi
 //#define DIRECT_ACCESS_FAT_LINK
 //#define DIRECT_ACCESS_LONG_LINK
 #define DIRECT_ACCESS_SPINOR
 //#define DIRECT_ACCESS_ACCUM
 //#define DIRECT_ACCESS_INTER
 //#define DIRECT_ACCESS_PACK
 #endif
 #endif // GPU_STAGGERED_DIRAC

 #include <quda_internal.h>
 #include <dslash_quda.h>
 #include <sys/time.h>
 #include <blas_quda.h>

 #include <inline_ptx.h>


 #include <color_spinor_field_order.h>
 #include <clover_field_order.h>
 #include <index_helper.cuh>
 #include <color_spinor.h>
 #include <linalg.cuh>

 namespace quda {

   // these should not be namespaced!!
   // determines whether the temporal ghost zones are packed with a gather kernel,
   // as opposed to multiple calls to cudaMemcpy()
   static bool kernelPackT = false;

   void setKernelPackT(bool packT) { kernelPackT = packT; }

   bool getKernelPackT() { return kernelPackT; }

   namespace dslash {
     int it = 0;

 #ifdef PTHREADS
     cudaEvent_t interiorDslashEnd;
 #endif
     cudaEvent_t packEnd[2];
     cudaEvent_t gatherStart[Nstream];
     cudaEvent_t gatherEnd[Nstream];
     cudaEvent_t scatterStart[Nstream];
     cudaEvent_t scatterEnd[Nstream];
     cudaEvent_t dslashStart[2];

     // FIX this is a hack from hell
     // Auxiliary work that can be done while waiting on comms to finis
     Worker *aux_worker;

 #if CUDA_VERSION >= 8000
     cuuint32_t *commsEnd_h;
     CUdeviceptr commsEnd_d[Nstream];
 #endif
   }

   void createDslashEvents()
   {
     using namespace dslash;
     // add cudaEventDisableTiming for lower sync overhead
     for (int i=0; i<Nstream; i++) {
       cudaEventCreateWithFlags(&gatherStart[i], cudaEventDisableTiming);
       cudaEventCreateWithFlags(&gatherEnd[i], cudaEventDisableTiming);
       cudaEventCreateWithFlags(&scatterStart[i], cudaEventDisableTiming);
       cudaEventCreateWithFlags(&scatterEnd[i], cudaEventDisableTiming);
     }
     for (int i=0; i<2; i++) {
       cudaEventCreateWithFlags(&packEnd[i], cudaEventDisableTiming);
       cudaEventCreateWithFlags(&dslashStart[i], cudaEventDisableTiming);
     }
 #ifdef PTHREADS
     cudaEventCreateWithFlags(&interiorDslashEnd, cudaEventDisableTiming);
 #endif

     aux_worker = NULL;

 #if CUDA_VERSION >= 8000
     commsEnd_h = static_cast<cuuint32_t*>(mapped_malloc(Nstream*sizeof(int)));
     for (int i=0; i<Nstream; i++) {
       cudaHostGetDevicePointer((void**)&commsEnd_d[i], commsEnd_h+i, 0);
       commsEnd_h[i] = 0;
     }
 #endif

     checkCudaError();
   }


   void destroyDslashEvents()
   {
     using namespace dslash;

 #if CUDA_VERSION >= 8000
     host_free(commsEnd_h);
     commsEnd_h = 0;
 #endif

     for (int i=0; i<Nstream; i++) {
       cudaEventDestroy(gatherStart[i]);
       cudaEventDestroy(gatherEnd[i]);
       cudaEventDestroy(scatterStart[i]);
       cudaEventDestroy(scatterEnd[i]);
     }

     for (int i=0; i<2; i++) {
       cudaEventDestroy(packEnd[i]);
       cudaEventDestroy(dslashStart[i]);
     }
 #ifdef PTHREADS
     cudaEventDestroy(interiorDslashEnd);
 #endif

     checkCudaError();
   }

   template <typename Float, int nColor>
   struct GammaArg {
     typedef typename colorspinor_mapper<Float,4,nColor>::type F;
     typedef typename mapper<Float>::type RegType;

     F out;                // output vector field
     const F in;           // input vector field
     const int d;          // which gamma matrix are we applying
     const int nParity;    // number of parities we're working on
     bool doublet;         // whether we applying the operator to a doublet
     const int volumeCB;   // checkerboarded volume
     RegType a;
     RegType b;
     RegType c;

     GammaArg(ColorSpinorField &out, const ColorSpinorField &in, int d,
        RegType kappa=0.0, RegType mu=0.0, RegType epsilon=0.0,
        bool dagger=false, QudaTwistGamma5Type twist=QUDA_TWIST_GAMMA5_INVALID)
       : out(out), in(in), d(d), nParity(in.SiteSubset()),
   doublet(in.TwistFlavor() == QUDA_TWIST_DEG_DOUBLET || in.TwistFlavor() == QUDA_TWIST_NONDEG_DOUBLET),
   volumeCB(doublet ? in.VolumeCB()/2 : in.VolumeCB()), a(0.0), b(0.0), c(0.0)
     {
       if (d < 0 || d > 4) errorQuda("Undefined gamma matrix %d", d);
       if (in.Nspin() != 4) errorQuda("Cannot apply gamma5 to nSpin=%d field", in.Nspin());
       if (!in.isNative() || !out.isNative()) errorQuda("Unsupported field order out=%d in=%d\n", out.FieldOrder(), in.FieldOrder());

       if (in.TwistFlavor() == QUDA_TWIST_SINGLET) {
   if (twist == QUDA_TWIST_GAMMA5_DIRECT) {
     a = 2.0 * kappa * mu;
     b = 1.0;
   } else if (twist == QUDA_TWIST_GAMMA5_INVERSE) {
     a = -2.0 * kappa * mu;
     b = 1.0 / (1.0 + a*a);
   }
   c = 0.0;
   if (dagger) a *= -1.0;
       } else if (doublet) {
   a = (twist == QUDA_TWIST_GAMMA5_INVERSE) ? -2.0 * kappa * mu : 2.0 * kappa * mu;
   b = 2.0 * kappa * epsilon;
   c = 1.0 / (1.0 + a*a - b*b);
   if (c<=0) errorQuda("Invalid twisted mass parameters (kappa=%e, mu=%e, epsilon=%e)\n", kappa, mu, epsilon);
       }
     }
   };

   // CPU kernel for applying the gamma matrix to a colorspinor
   template <typename Float, int nColor, typename Arg>
   void gammaCPU(Arg arg)
   {
     typedef typename mapper<Float>::type RegType;
     for (int parity= 0; parity < arg.nParity; parity++) {

       for (int x_cb = 0; x_cb < arg.volumeCB; x_cb++) { // 4-d volume
   ColorSpinor<RegType,nColor,4> in = arg.in(x_cb, parity);
   arg.out(x_cb, parity) = in.gamma(arg.d);
       } // 4-d volumeCB
     } // parity

   }

   // GPU Kernel for applying the gamma matrix to a colorspinor
   template <typename Float, int nColor, int d, typename Arg>
   __global__ void gammaGPU(Arg arg)
   {
     typedef typename mapper<Float>::type RegType;
     int x_cb = blockIdx.x*blockDim.x + threadIdx.x;
     int parity = blockDim.y*blockIdx.y + threadIdx.y;

     if (x_cb >= arg.volumeCB) return;
     if (parity >= arg.nParity) return;

     ColorSpinor<RegType,nColor,4> in = arg.in(x_cb, parity);
     arg.out(x_cb, parity) = in.gamma(d);
   }

   template <typename Float, int nColor, typename Arg>
   class Gamma : public TunableVectorY {

   protected:
     Arg &arg;
     const ColorSpinorField &meta;

     long long flops() const { return 0; }
     long long bytes() const { return arg.out.Bytes() + arg.in.Bytes(); }
     bool tuneGridDim() const { return false; }
     unsigned int minThreads() const { return arg.volumeCB; }

   public:
     Gamma(Arg &arg, const ColorSpinorField &meta) : TunableVectorY(arg.nParity), arg(arg), meta(meta)
     {
       strcpy(aux, meta.AuxString());
     }
     virtual ~Gamma() { }

     void apply(const cudaStream_t &stream) {
       if (meta.Location() == QUDA_CPU_FIELD_LOCATION) {
   gammaCPU<Float,nColor>(arg);
       } else {
         TuneParam tp = tuneLaunch(*this, getTuning(), getVerbosity());
   switch (arg.d) {
   case 4: gammaGPU<Float,nColor,4> <<<tp.grid,tp.block,tp.shared_bytes,stream>>>(arg); break;
   default: errorQuda("%d not instantiated", arg.d);
   }
       }
     }

     TuneKey tuneKey() const { return TuneKey(meta.VolString(), typeid(*this).name(), aux); }

     void preTune() { arg.out.save(); }
     void postTune() { arg.out.load(); }
   };


   template <typename Float, int nColor>
   void ApplyGamma(ColorSpinorField &out, const ColorSpinorField &in, int d)
   {
     GammaArg<Float,nColor> arg(out, in, d);
     Gamma<Float,nColor,GammaArg<Float,nColor> > gamma(arg, in);
     gamma.apply(streams[Nstream-1]);
   }

   // template on the number of colors
   template <typename Float>
   void ApplyGamma(ColorSpinorField &out, const ColorSpinorField &in, int d)
   {
     if (in.Ncolor() == 3) {
       ApplyGamma<Float,3>(out, in, d);
     } else {
       errorQuda("Unsupported number of colors %d\n", in.Ncolor());
     }
   }

   //Apply the Gamma matrix to a colorspinor field
   //out(x) = gamma_d*in
   void ApplyGamma(ColorSpinorField &out, const ColorSpinorField &in, int d)
   {
     checkPrecision(out, in);    // check all precisions match
     checkLocation(out, in);     // check all locations match

     if (in.Precision() == QUDA_DOUBLE_PRECISION) {
       ApplyGamma<double>(out, in, d);
     } else if (in.Precision() == QUDA_SINGLE_PRECISION) {
       ApplyGamma<float>(out, in, d);
     } else if (in.Precision() == QUDA_HALF_PRECISION) {
       ApplyGamma<short>(out, in, d);
     } else {
       errorQuda("Unsupported precision %d\n", in.Precision());
     }
   }

   // CPU kernel for applying the gamma matrix to a colorspinor
   template <bool doublet, typename Float, int nColor, typename Arg>
   void twistGammaCPU(Arg arg)
   {
     typedef typename mapper<Float>::type RegType;
     for (int parity= 0; parity < arg.nParity; parity++) {
       for (int x_cb = 0; x_cb < arg.volumeCB; x_cb++) { // 4-d volume
   if (!doublet) {
     ColorSpinor<RegType,nColor,4> in = arg.in(x_cb, parity);
     arg.out(x_cb, parity) = arg.b*(in + arg.a*in.igamma(arg.d));
   } else {
     ColorSpinor<RegType,nColor,4> in_1 = arg.in(x_cb+0*arg.volumeCB, parity);
     ColorSpinor<RegType,nColor,4> in_2 = arg.in(x_cb+1*arg.volumeCB, parity);
     arg.out(x_cb+0*arg.volumeCB, parity) = arg.c*(in_1 - arg.a*in_1.igamma(arg.d) + arg.b*in_2);
     arg.out(x_cb+1*arg.volumeCB, parity) = arg.c*(in_2 + arg.a*in_2.igamma(arg.d) + arg.b*in_1);
   }
       } // 4-d volumeCB
     } // parity

   }

   // GPU Kernel for applying the gamma matrix to a colorspinor
   template <bool doublet, typename Float, int nColor, int d, typename Arg>
   __global__ void twistGammaGPU(Arg arg)
   {
     typedef typename mapper<Float>::type RegType;
     int x_cb = blockIdx.x*blockDim.x + threadIdx.x;
     int parity = blockDim.y*blockIdx.y + threadIdx.y;
     if (x_cb >= arg.volumeCB) return;

     if (!doublet) {
       ColorSpinor<RegType,nColor,4> in = arg.in(x_cb, parity);
       arg.out(x_cb, parity) = arg.b*(in + arg.a*in.igamma(d));
     } else {
       ColorSpinor<RegType,nColor,4> in_1 = arg.in(x_cb+0*arg.volumeCB, parity);
       ColorSpinor<RegType,nColor,4> in_2 = arg.in(x_cb+1*arg.volumeCB, parity);
       arg.out(x_cb+0*arg.volumeCB, parity) = arg.c*(in_1 - arg.a*in_1.igamma(d) + arg.b*in_2);
       arg.out(x_cb+1*arg.volumeCB, parity) = arg.c*(in_2 + arg.a*in_2.igamma(d) + arg.b*in_1);
     }
   }

   template <typename Float, int nColor, typename Arg>
   class TwistGamma : public TunableVectorY {

   protected:
     Arg &arg;
     const ColorSpinorField &meta;

     long long flops() const { return 0; }
     long long bytes() const { return arg.out.Bytes() + arg.in.Bytes(); }
     bool tuneGridDim() const { return false; }
     unsigned int minThreads() const { return arg.volumeCB; }

   public:
     TwistGamma(Arg &arg, const ColorSpinorField &meta) : TunableVectorY(arg.nParity), arg(arg), meta(meta)
     {
       strcpy(aux, meta.AuxString());
     }
     virtual ~TwistGamma() { }

     void apply(const cudaStream_t &stream) {
       if (meta.Location() == QUDA_CPU_FIELD_LOCATION) {
   if (arg.doublet) twistGammaCPU<true,Float,nColor>(arg);
   twistGammaCPU<false,Float,nColor>(arg);
       } else {
         TuneParam tp = tuneLaunch(*this, getTuning(), getVerbosity());
   if (arg.doublet)
     switch (arg.d) {
     case 4: twistGammaGPU<true,Float,nColor,4> <<<tp.grid,tp.block,tp.shared_bytes,stream>>>(arg); break;
     default: errorQuda("%d not instantiated", arg.d);
     }
   else
     switch (arg.d) {
     case 4: twistGammaGPU<false,Float,nColor,4> <<<tp.grid,tp.block,tp.shared_bytes,stream>>>(arg); break;
     default: errorQuda("%d not instantiated", arg.d);
     }
       }
     }

     TuneKey tuneKey() const { return TuneKey(meta.VolString(), typeid(*this).name(), aux); }
     void preTune() { if (arg.out.field == arg.in.field) arg.out.save(); }
     void postTune() { if (arg.out.field == arg.in.field) arg.out.load(); }
   };


   template <typename Float, int nColor>
   void ApplyTwistGamma(ColorSpinorField &out, const ColorSpinorField &in, int d, double kappa, double mu, double epsilon, int dagger, QudaTwistGamma5Type type)
   {
     GammaArg<Float,nColor> arg(out, in, d, kappa, mu, epsilon, dagger, type);
     TwistGamma<Float,nColor,GammaArg<Float,nColor> > gamma(arg, in);
     gamma.apply(streams[Nstream-1]);

     checkCudaError();
   }

   // template on the number of colors
   template <typename Float>
   void ApplyTwistGamma(ColorSpinorField &out, const ColorSpinorField &in, int d, double kappa, double mu, double epsilon, int dagger, QudaTwistGamma5Type type)
   {
     if (in.Ncolor() == 3) {
       ApplyTwistGamma<Float,3>(out, in, d, kappa, mu, epsilon, dagger, type);
     } else {
       errorQuda("Unsupported number of colors %d\n", in.Ncolor());
     }
   }

   //Apply the Gamma matrix to a colorspinor field
   //out(x) = gamma_d*in
   void ApplyTwistGamma(ColorSpinorField &out, const ColorSpinorField &in, int d, double kappa, double mu, double epsilon, int dagger, QudaTwistGamma5Type type)
   {
     checkPrecision(out, in);    // check all precisions match
     checkLocation(out, in);     // check all locations match

 #ifdef GPU_TWISTED_MASS_DIRAC
     if (in.Precision() == QUDA_DOUBLE_PRECISION) {
       ApplyTwistGamma<double>(out, in, d, kappa, mu, epsilon, dagger, type);
     } else if (in.Precision() == QUDA_SINGLE_PRECISION) {
       ApplyTwistGamma<float>(out, in, d, kappa, mu, epsilon, dagger, type);
     } else if (in.Precision() == QUDA_HALF_PRECISION) {
       ApplyTwistGamma<short>(out, in, d, kappa, mu, epsilon, dagger, type);
     } else {
       errorQuda("Unsupported precision %d\n", in.Precision());
     }
 #else
     errorQuda("Twisted mass dslash has not been built");
 #endif // GPU_TWISTED_MASS_DIRAC
   }

   // Applies a gamma5 matrix to a spinor (wrapper to ApplyGamma)
   void gamma5(ColorSpinorField &out, const ColorSpinorField &in) { ApplyGamma(out,in,4); }

   template <typename Float, int nSpin, int nColor, bool dynamic_clover_=false>
   struct CloverArg {
     static constexpr int length = (nSpin / (nSpin/2)) * 2 * nColor * nColor * (nSpin/2) * (nSpin/2) / 2;
     static constexpr bool dynamic_clover = dynamic_clover_;

     typedef typename colorspinor_mapper<Float,nSpin,nColor>::type F;
     typedef typename clover_mapper<Float,length>::type C;
     typedef typename mapper<Float>::type RegType;

     F out;                // output vector field
     const F in;           // input vector field
     const C clover;       // clover field
     const C cloverInv;    // inverse clover field (only set if not dynamic clover and doing twisted clover)
     const int nParity;    // number of parities we're working on
     const int parity;     // which parity we're acting on (if nParity=1)
     bool inverse;         // whether we are applying the inverse
     bool doublet;         // whether we applying the operator to a doublet
     const int volumeCB;   // checkerboarded volume
     RegType a;
     RegType b;
     RegType c;
     QudaTwistGamma5Type twist;

     CloverArg(ColorSpinorField &out, const ColorSpinorField &in, const CloverField &clover,
         bool inverse, int parity, RegType kappa=0.0, RegType mu=0.0, RegType epsilon=0.0,
         bool dagger = false, QudaTwistGamma5Type twist=QUDA_TWIST_GAMMA5_INVALID)
       : out(out), clover(clover, twist == QUDA_TWIST_GAMMA5_INVALID ? inverse : false),
   cloverInv(clover, (twist != QUDA_TWIST_GAMMA5_INVALID && !dynamic_clover) ? true : false),
   in(in), nParity(in.SiteSubset()), parity(parity), inverse(inverse),
   doublet(in.TwistFlavor() == QUDA_TWIST_DEG_DOUBLET || in.TwistFlavor() == QUDA_TWIST_NONDEG_DOUBLET),
         volumeCB(doublet ? in.VolumeCB()/2 : in.VolumeCB()), a(0.0), b(0.0), c(0.0), twist(twist)
     {
       if (in.TwistFlavor() == QUDA_TWIST_SINGLET) {
   if (twist == QUDA_TWIST_GAMMA5_DIRECT) {
     a = 2.0 * kappa * mu;
     b = 1.0;
   } else if (twist == QUDA_TWIST_GAMMA5_INVERSE) {
     a = -2.0 * kappa * mu;
     b = 1.0 / (1.0 + a*a);
   }
   c = 0.0;
   if (dagger) a *= -1.0;
       } else if (doublet) {
   errorQuda("ERROR: Non-degenerated twisted-mass not supported in this regularization\n");
       }
     }
   };

   template <typename Float, int nSpin, int nColor, typename Arg>
   __device__ __host__ inline void cloverApply(Arg &arg, int x_cb, int parity) {
     typedef typename mapper<Float>::type RegType;
     int spinor_parity = arg.nParity == 2 ? parity : 0;
     ColorSpinor<RegType,nColor,nSpin> in = arg.in(x_cb, spinor_parity);
     ColorSpinor<RegType,nColor,nSpin> out;

     in.toRel(); // change to chiral basis here

 #pragma unroll
     for (int chirality=0; chirality<2; chirality++) {
       HMatrix<RegType,nColor*nSpin/2> A = arg.clover(x_cb, parity, chirality);
       out += (A * in.chiral_project(chirality)).chiral_reconstruct(chirality);
     }

     out.toNonRel(); // change basis back

     arg.out(x_cb, spinor_parity) = out;
   }

   template <typename Float, int nSpin, int nColor, typename Arg>
   void cloverCPU(Arg &arg) {
     for (int parity=0; parity<arg.nParity; parity++) {
       parity = (arg.nParity == 2) ? parity : arg.parity;
       for (int x_cb=0; x_cb<arg.volumeCB; x_cb++) cloverApply<Float,nSpin,nColor>(arg, x_cb, parity);
     }
   }

   template <typename Float, int nSpin, int nColor, typename Arg>
   __global__ void cloverGPU(Arg arg) {
     int x_cb = blockIdx.x*blockDim.x + threadIdx.x;
     int parity = (arg.nParity == 2) ? blockDim.y*blockIdx.y + threadIdx.y : arg.parity;
     if (x_cb >= arg.volumeCB) return;
     cloverApply<Float,nSpin,nColor>(arg, x_cb, parity);
   }

   template <typename Float, int nSpin, int nColor, typename Arg>
   class Clover : public TunableVectorY {

   protected:
     Arg &arg;
     const ColorSpinorField &meta;

   protected:
     long long flops() const { return arg.nParity*arg.volumeCB*504ll; }
     long long bytes() const { return arg.out.Bytes() + arg.in.Bytes() + arg.nParity*arg.volumeCB*arg.clover.Bytes(); }
     bool tuneGridDim() const { return false; }
     unsigned int minThreads() const { return arg.volumeCB; }

   public:
     Clover(Arg &arg, const ColorSpinorField &meta) : TunableVectorY(arg.nParity), arg(arg), meta(meta)
     {
       strcpy(aux, meta.AuxString());
     }
     virtual ~Clover() { }

     void apply(const cudaStream_t &stream)
     {
       TuneParam tp = tuneLaunch(*this, getTuning(), getVerbosity());
       if (meta.Location() == QUDA_CPU_FIELD_LOCATION) {
   cloverCPU<Float,nSpin,nColor>(arg);
       } else {
   cloverGPU<Float,nSpin,nColor> <<<tp.grid,tp.block,tp.shared_bytes,stream>>>(arg);
       }
     }

     TuneKey tuneKey() const { return TuneKey(meta.VolString(), typeid(*this).name(), aux); }
     void preTune() { if (arg.out.field == arg.in.field) arg.out.save(); }  // Need to save the out field if it aliases the in field
     void postTune() { if (arg.out.field == arg.in.field) arg.out.load(); } // Restore if the in and out fields alias
   };


   template <typename Float, int nColor>
   void ApplyClover(ColorSpinorField &out, const ColorSpinorField &in, const CloverField &clover, bool inverse, int parity)
   {
     if (in.Nspin() != 4) errorQuda("Unsupported nSpin=%d", in.Nspin());
     constexpr int nSpin = 4;
     CloverArg<Float,nSpin,nColor> arg(out, in, clover, inverse, parity);
     Clover<Float,nSpin,nColor,CloverArg<Float,nSpin,nColor> > worker(arg, in);
     worker.apply(streams[Nstream-1]);

     checkCudaError();
   }

   // template on the number of colors
   template <typename Float>
   void ApplyClover(ColorSpinorField &out, const ColorSpinorField &in, const CloverField &clover, bool inverse, int parity)
   {
     if (in.Ncolor() == 3) {
       ApplyClover<Float,3>(out, in, clover, inverse, parity);
     } else {
       errorQuda("Unsupported number of colors %d\n", in.Ncolor());
     }
   }

   //Apply the clvoer matrix field to a colorspinor field
   //out(x) = clover*in
   void ApplyClover(ColorSpinorField &out, const ColorSpinorField &in, const CloverField &clover, bool inverse, int parity)
   {
     checkPrecision(out, clover, in);    // check all precisions match
     checkLocation(out, clover, in);     // check all locations match

 #ifdef GPU_CLOVER_DIRAC
     if (in.Precision() == QUDA_DOUBLE_PRECISION) {
       ApplyClover<double>(out, in, clover, inverse, parity);
     } else if (in.Precision() == QUDA_SINGLE_PRECISION) {
       ApplyClover<float>(out, in, clover, inverse, parity);
     } else if (in.Precision() == QUDA_HALF_PRECISION) {
       ApplyClover<short>(out, in, clover, inverse, parity);
     } else {
       errorQuda("Unsupported precision %d\n", in.Precision());
     }
 #else
     errorQuda("Clover dslash has not been built");
 #endif // GPU_TWISTED_MASS_DIRAC
   }

   // if (!inverse) apply (Clover + i*a*gamma_5) to the input spinor
   // else apply (Clover + i*a*gamma_5)/(Clover^2 + a^2) to the input spinor
   template <bool inverse, typename Float, int nSpin, int nColor, typename Arg>
   __device__ __host__ inline void twistCloverApply(Arg &arg, int x_cb, int parity) {
     using namespace linalg; // for Cholesky
     constexpr int N = nColor*nSpin/2;
     typedef typename mapper<Float>::type RegType;
     typedef ColorSpinor<RegType,nColor,nSpin> Spinor;
     typedef ColorSpinor<RegType,nColor,nSpin/2> HalfSpinor;
     typedef HMatrix<RegType,N> Mat;
     int spinor_parity = arg.nParity == 2 ? parity : 0;
     Spinor in = arg.in(x_cb, spinor_parity);
     Spinor out;

     in.toRel(); // change to chiral basis here

 #pragma unroll
     for (int chirality=0; chirality<2; chirality++) {
       // factor of 2 comes from clover normalization we need to correct for
       const complex<RegType> j(0.0, chirality == 0 ? static_cast<RegType>(0.5) : -static_cast<RegType>(0.5));

       Mat A = arg.clover(x_cb, parity, chirality);

       HalfSpinor in_chi = in.chiral_project(chirality);
       HalfSpinor out_chi = A*in_chi + j*arg.a*in_chi;

       if (inverse) {
   if (arg.dynamic_clover) {
     Mat A2 = A.square();
     A2 += arg.a*arg.a*static_cast<RegType>(0.25);
     Cholesky<HMatrix,RegType,N> cholesky(A2);
     out_chi = static_cast<RegType>(0.25)*cholesky.backward(cholesky.forward(out_chi));
   } else {
     Mat Ainv = arg.cloverInv(x_cb, parity, chirality);
     out_chi = static_cast<RegType>(2.0)*(Ainv*out_chi);
   }
       }

       out += (out_chi).chiral_reconstruct(chirality);
     }

     out.toNonRel(); // change basis back

     arg.out(x_cb, spinor_parity) = out;
   }

   template <bool inverse, typename Float, int nSpin, int nColor, typename Arg>
   void twistCloverCPU(Arg &arg) {
     for (int parity=0; parity<arg.nParity; parity++) {
       parity = (arg.nParity == 2) ? parity : arg.parity;
       for (int x_cb=0; x_cb<arg.volumeCB; x_cb++) twistCloverApply<inverse,Float,nSpin,nColor>(arg, x_cb, parity);
     }
   }

   template <bool inverse, typename Float, int nSpin, int nColor, typename Arg>
   __global__ void twistCloverGPU(Arg arg) {
     int x_cb = blockIdx.x*blockDim.x + threadIdx.x;
     int parity = (arg.nParity == 2) ? blockDim.y*blockIdx.y + threadIdx.y : arg.parity;
     if (x_cb >= arg.volumeCB) return;
     twistCloverApply<inverse,Float,nSpin,nColor>(arg, x_cb, parity);
   }

   template <typename Float, int nSpin, int nColor, typename Arg>
   class TwistClover : public TunableVectorY {

   protected:
     Arg &arg;
     const ColorSpinorField &meta;

   protected:
     long long flops() const { return (arg.inverse ? 1056ll : 552ll) * arg.nParity*arg.volumeCB; }
     long long bytes() const {
       long long rtn = arg.out.Bytes() + arg.in.Bytes() + arg.nParity*arg.volumeCB*arg.clover.Bytes();
       if (arg.twist == QUDA_TWIST_GAMMA5_INVERSE && !arg.dynamic_clover)
   rtn += arg.nParity*arg.volumeCB*arg.cloverInv.Bytes();
       return rtn;
     }
     bool tuneGridDim() const { return false; }
     unsigned int minThreads() const { return arg.volumeCB; }

   public:
     TwistClover(Arg &arg, const ColorSpinorField &meta) : TunableVectorY(arg.nParity), arg(arg), meta(meta)
     {
       strcpy(aux, meta.AuxString());
       strcat(aux, arg.inverse ? ",inverse" : ",direct");
     }
     virtual ~TwistClover() { }

     void apply(const cudaStream_t &stream)
     {
       TuneParam tp = tuneLaunch(*this, getTuning(), getVerbosity());
       if (meta.Location() == QUDA_CPU_FIELD_LOCATION) {
   if (arg.inverse) twistCloverCPU<true,Float,nSpin,nColor>(arg);
   else twistCloverCPU<false,Float,nSpin,nColor>(arg);
       } else {
   if (arg.inverse) twistCloverGPU<true,Float,nSpin,nColor> <<<tp.grid,tp.block,tp.shared_bytes,stream>>>(arg);
   else twistCloverGPU<false,Float,nSpin,nColor> <<<tp.grid,tp.block,tp.shared_bytes,stream>>>(arg);
       }
     }

     TuneKey tuneKey() const { return TuneKey(meta.VolString(), typeid(*this).name(), aux); }
     void preTune() { if (arg.out.field == arg.in.field) arg.out.save(); }  // Need to save the out field if it aliases the in field
     void postTune() { if (arg.out.field == arg.in.field) arg.out.load(); } // Restore if the in and out fields alias
   };


   template <typename Float, int nColor>
   void ApplyTwistClover(ColorSpinorField &out, const ColorSpinorField &in, const CloverField &clover,
       double kappa, double mu, double epsilon, int parity, int dagger, QudaTwistGamma5Type twist)
   {
     if (in.Nspin() != 4) errorQuda("Unsupported nSpin=%d", in.Nspin());
     constexpr int nSpin = 4;
     bool inverse = twist == QUDA_TWIST_GAMMA5_DIRECT ? false : true;

 #ifdef DYNAMIC_CLOVER
     constexpr bool dynamic_clover = true;
 #else
     constexpr bool dynamic_clover = false;
 #endif

     CloverArg<Float,nSpin,nColor,dynamic_clover> arg(out, in, clover, inverse, parity, kappa, mu, epsilon, dagger, twist);
     TwistClover<Float,nSpin,nColor,CloverArg<Float,nSpin,nColor,dynamic_clover> > worker(arg, in);
     worker.apply(streams[Nstream-1]);

     checkCudaError();
   }

   // template on the number of colors
   template <typename Float>
   void ApplyTwistClover(ColorSpinorField &out, const ColorSpinorField &in, const CloverField &clover,
       double kappa, double mu, double epsilon, int parity, int dagger, QudaTwistGamma5Type twist)
   {
     if (in.Ncolor() == 3) {
       ApplyTwistClover<Float,3>(out, in, clover, kappa, mu, epsilon, parity, dagger, twist);
     } else {
       errorQuda("Unsupported number of colors %d\n", in.Ncolor());
     }
   }

   //Apply the twisted-clover matrix field to a colorspinor field
   void ApplyTwistClover(ColorSpinorField &out, const ColorSpinorField &in, const CloverField &clover,
       double kappa, double mu, double epsilon, int parity, int dagger, QudaTwistGamma5Type twist)
   {
     checkPrecision(out, clover, in);    // check all precisions match
     checkLocation(out, clover, in);     // check all locations match

 #ifdef GPU_CLOVER_DIRAC
     if (in.Precision() == QUDA_DOUBLE_PRECISION) {
       ApplyTwistClover<double>(out, in, clover, kappa, mu, epsilon, parity, dagger, twist);
     } else if (in.Precision() == QUDA_SINGLE_PRECISION) {
       ApplyTwistClover<float>(out, in, clover, kappa, mu, epsilon, parity, dagger, twist);
     } else if (in.Precision() == QUDA_HALF_PRECISION) {
       ApplyTwistClover<short>(out, in, clover, kappa, mu, epsilon, parity, dagger, twist);
     } else {
       errorQuda("Unsupported precision %d\n", in.Precision());
     }
 #else
     errorQuda("Clover dslash has not been built");
 #endif // GPU_TWISTED_MASS_DIRAC
   }

 } // namespace quda

 #include "contract.cu"
linalg.cuh

quda::gammaGPU
__global__ void gammaGPU(Arg arg)
Definition: dslash_quda.cu:210

inline_ptx.h

quda::ColorSpinorField::Nspin
int Nspin() const
Definition: color_spinor_field.h:361

quda::GammaArg::F
colorspinor_mapper< Float, 4, nColor >::type F
Definition: dslash_quda.cu:150

quda::TuneParam
Definition: tune_quda.h:17

blockDim
dim3 dim3 blockDim
Definition: CMakeCUDACompilerId.cpp1.ii:2471

quda::CloverArg::c
RegType c
Definition: dslash_quda.cu:456

quda::TwistGamma
Definition: dslash_quda.cu:340

mu
double mu
Definition: test_util.cpp:1643

quda::TwistClover
Definition: dslash_quda.cu:664

quda::CloverArg::volumeCB
const int volumeCB
Definition: dslash_quda.cu:453

quda::ColorSpinorField
Definition: color_spinor_field.h:271

quda::TwistGamma::meta
const ColorSpinorField & meta
Definition: dslash_quda.cu:344

quda::GammaArg::doublet
bool doublet
Definition: dslash_quda.cu:157

quda::Worker
Definition: worker.h:5

quda::getKernelPackT
bool getKernelPackT()
Definition: dslash_quda.cu:61

quda::ColorSpinorField::AuxString
const char * AuxString() const
Definition: color_spinor_field.h:378

getVerbosity
QudaVerbosity getVerbosity()
Definition: util_quda.cpp:20

quda::Gamma::meta
const ColorSpinorField & meta
Definition: dslash_quda.cu:228

QUDA_TWIST_GAMMA5_INVALID
Definition: enum_quda.h:392

quda::CloverArg::RegType
mapper< Float >::type RegType
Definition: dslash_quda.cu:443

checkPrecision
#define checkPrecision(...)
Definition: lattice_field.h:592

errorQuda
#define errorQuda(...)
Definition: util_quda.h:90

quda::ApplyGamma
void ApplyGamma(ColorSpinorField &out, const ColorSpinorField &in, int d)
Definition: dslash_quda.cu:262

color_spinor_field.h

quda::twistCloverApply
__device__ __host__ void twistCloverApply(Arg &arg, int x_cb, int parity)
Definition: dslash_quda.cu:604

quda::ColorSpinor
Definition: color_spinor.h:24

host_free
#define host_free(ptr)
Definition: malloc_quda.h:59

quda::TwistGamma::minThreads
unsigned int minThreads() const
Definition: dslash_quda.cu:349

QUDA_HALF_PRECISION
Definition: enum_quda.h:59

quda::CloverField
Definition: clover_field.h:44

streams
cudaStream_t * streams
Definition: interface_quda.cpp:153

quda::stream
cudaStream_t * stream
Definition: cuda_color_spinor_field.cu:898

quda::CloverArg::in
const F in
Definition: dslash_quda.cu:446

quda::TwistClover::postTune
void postTune()
Definition: dslash_quda.cu:703

contract.cu

quda::Nstream
const int Nstream
Definition: quda_internal.h:330

strcpy
char * strcpy(char *__dst, const char *__src)

quda::LatticeField::VolString
const char * VolString() const
Definition: lattice_field.h:524

quda::TuneParam::shared_bytes
int shared_bytes
Definition: tune_quda.h:22

strcat
char * strcat(char *__s1, const char *__s2)

quda::Clover::postTune
void postTune()
Definition: dslash_quda.cu:552

Mat
void Mat(sFloat *out, gFloat **link, sFloat *in, int daggerBit, int mu)
Definition: covdev_reference.cpp:104

quda::CloverArg::dynamic_clover
static constexpr bool dynamic_clover
Definition: dslash_quda.cu:439

QUDA_TWIST_SINGLET
Definition: enum_quda.h:367

clover_field_order.h
Main header file for host and device accessors to CloverFields.

quda::CloverArg::inverse
bool inverse
Definition: dslash_quda.cu:451

quda::TwistClover::minThreads
unsigned int minThreads() const
Definition: dslash_quda.cu:679

QUDA_TWIST_NONDEG_DOUBLET
Definition: enum_quda.h:368

quda::ColorSpinorField::Ncolor
int Ncolor() const
Definition: color_spinor_field.h:360

dslash::commsEnd_h
int * commsEnd_h

quda::TwistClover::bytes
long long bytes() const
Definition: dslash_quda.cu:672

quda::TuneParam::grid
dim3 grid
Definition: tune_quda.h:21

QUDA_TWIST_GAMMA5_DIRECT
Definition: enum_quda.h:390

quda::dslash::scatterStart
cudaEvent_t scatterStart[Nstream]
Definition: dslash_quda.cu:72

quda
Definition: blas_cublas.h:6

quda::Clover::~Clover
virtual ~Clover()
Definition: dslash_quda.cu:538

quda::CloverArg::cloverInv
const C cloverInv
Definition: dslash_quda.cu:448

quda::TwistClover::~TwistClover
virtual ~TwistClover()
Definition: dslash_quda.cu:687

quda::Gamma::postTune
void postTune()
Definition: dslash_quda.cu:257

quda::dslash::packEnd
cudaEvent_t packEnd[2]
Definition: dslash_quda.cu:69

QUDA_TWIST_DEG_DOUBLET
Definition: enum_quda.h:369

quda::TwistGamma::tuneGridDim
bool tuneGridDim() const
Definition: dslash_quda.cu:348

quda::GammaArg::nParity
const int nParity
Definition: dslash_quda.cu:156

quda::CloverArg::clover
const C clover
Definition: dslash_quda.cu:447

dslash_cuda_gen.clover
bool clover
Definition: dslash_cuda_gen.py:1224

quda::CloverArg::b
RegType b
Definition: dslash_quda.cu:455

quda::GammaArg::GammaArg
GammaArg(ColorSpinorField &out, const ColorSpinorField &in, int d, RegType kappa=0.0, RegType mu=0.0, RegType epsilon=0.0, bool dagger=false, QudaTwistGamma5Type twist=QUDA_TWIST_GAMMA5_INVALID)
Definition: dslash_quda.cu:163

quda::Clover::Clover
Clover(Arg &arg, const ColorSpinorField &meta)
Definition: dslash_quda.cu:534

quda::GammaArg::out
F out
Definition: dslash_quda.cu:153

quda::GammaArg::RegType
mapper< Float >::type RegType
Definition: dslash_quda.cu:151

quda::GammaArg::d
const int d
Definition: dslash_quda.cu:155

kappa
VOLATILE spinorFloat kappa
Definition: dw_dslash5inv_core.h:153

quda::ApplyTwistGamma
void ApplyTwistGamma(ColorSpinorField &out, const ColorSpinorField &in, int d, double kappa, double mu, double epsilon, int dagger, QudaTwistGamma5Type type)
Apply the twisted-mass gamma operator to a color-spinor field.
Definition: dslash_quda.cu:384

quda::Gamma::preTune
void preTune()
Definition: dslash_quda.cu:256

quda::Gamma::Gamma
Gamma(Arg &arg, const ColorSpinorField &meta)
Definition: dslash_quda.cu:236

deg_tm_dslash_cuda_gen.dagger
bool dagger
Definition: deg_tm_dslash_cuda_gen.py:960

quda::dslash::aux_worker
Worker * aux_worker
Definition: dslash_quda.cu:78

quda::TwistClover::preTune
void preTune()
Definition: dslash_quda.cu:702

nColor
const int nColor
Definition: covdev_test.cpp:77

quda::TuneParam::block
dim3 block
Definition: tune_quda.h:20

quda::TwistGamma::tuneKey
TuneKey tuneKey() const
Definition: dslash_quda.cu:377

quda::TunableVectorY
Definition: tune_quda.h:346

in
cpuColorSpinorField * in
Definition: staggered_invert_test.cpp:44

quda::TwistGamma::postTune
void postTune()
Definition: dslash_quda.cu:379

quda::Clover::apply
void apply(const cudaStream_t &stream)
Definition: dslash_quda.cu:540

for
for(int s=0;s< param.dc.Ls;s++)
Definition: dw_dslash5inv_core.h:181

quda::createDslashEvents
void createDslashEvents()
Definition: dslash_quda.cu:86

quda::twistCloverCPU
void twistCloverCPU(Arg &arg)
Definition: dslash_quda.cu:648

quda::tuneLaunch
TuneParam & tuneLaunch(Tunable &tunable, QudaTune enabled, QudaVerbosity verbosity)
Definition: tune.cpp:603

fused_exterior_ndeg_tm_dslash_cuda_gen.i
int i
start here
Definition: fused_exterior_ndeg_tm_dslash_cuda_gen.py:816

quda::CloverArg::C
clover_mapper< Float, length >::type C
Definition: dslash_quda.cu:442

checkLocation
#define checkLocation(...)
Definition: lattice_field.h:561

quda::HMatrix
Specialized container for Hermitian matrices (e.g., used for wrapping clover matrices) ...
Definition: quda_matrix.h:65

quda::TwistClover::apply
void apply(const cudaStream_t &stream)
Definition: dslash_quda.cu:689

quda::kernelPackT
static bool kernelPackT
Definition: dslash_quda.cu:57

quda::CloverArg::a
RegType a
Definition: dslash_quda.cu:454

quda::TwistClover::TwistClover
TwistClover(Arg &arg, const ColorSpinorField &meta)
Definition: dslash_quda.cu:682

quda::TwistClover::meta
const ColorSpinorField & meta
Definition: dslash_quda.cu:668

quda::TwistClover::flops
long long flops() const
Definition: dslash_quda.cu:671

quda::CloverArg::out
F out
Definition: dslash_quda.cu:445

quda::TwistClover::tuneKey
TuneKey tuneKey() const
Definition: dslash_quda.cu:701

quda::GammaArg::volumeCB
const int volumeCB
Definition: dslash_quda.cu:158

quda::dslash::gatherEnd
cudaEvent_t gatherEnd[Nstream]
Definition: dslash_quda.cu:71

quda::Gamma
Definition: gamma.cuh:9

gamma
double gamma(double) __attribute__((availability(macosx

clover_field.h

quda::CloverArg::doublet
bool doublet
Definition: dslash_quda.cu:452

quda::Clover
Definition: dslash_quda.cu:521

quda::Gamma::minThreads
unsigned int minThreads() const
Definition: dslash_quda.cu:233

quda::TwistGamma::arg
Arg & arg
Definition: dslash_quda.cu:343

quda::Gamma::bytes
long long bytes() const
Definition: dslash_quda.cu:231

deg_tm_dslash_cuda_gen.twist
bool twist
Definition: deg_tm_dslash_cuda_gen.py:961

quda::Clover::preTune
void preTune()
Definition: dslash_quda.cu:551

quda::Clover::meta
const ColorSpinorField & meta
Definition: dslash_quda.cu:525

quda::GammaArg::in
const F in
Definition: dslash_quda.cu:154

quda::LatticeField::Location
QudaFieldLocation Location() const
Definition: lattice_field.cpp:522

quda::CloverArg::length
static constexpr int length
Definition: dslash_quda.cu:438

blas_quda.h

quda::CloverArg::CloverArg
CloverArg(ColorSpinorField &out, const ColorSpinorField &in, const CloverField &clover, bool inverse, int parity, RegType kappa=0.0, RegType mu=0.0, RegType epsilon=0.0, bool dagger=false, QudaTwistGamma5Type twist=QUDA_TWIST_GAMMA5_INVALID)
Definition: dslash_quda.cu:459

quda::cloverCPU
void cloverCPU(Arg &arg)
Definition: dslash_quda.cu:505

quda::TwistClover::arg
Arg & arg
Definition: dslash_quda.cu:667

quda::TwistGamma::TwistGamma
TwistGamma(Arg &arg, const ColorSpinorField &meta)
Definition: dslash_quda.cu:352

QUDA_DOUBLE_PRECISION
Definition: enum_quda.h:61

quda::Gamma::tuneKey
TuneKey tuneKey() const
Definition: dslash_quda.cu:254

index_helper.cuh

quda::Clover::arg
Arg & arg
Definition: dslash_quda.cu:524

out
cpuColorSpinorField * out
Definition: staggered_invert_test.cpp:45

quda::Gamma::flops
long long flops() const
Definition: dslash_quda.cu:230

QUDA_SINGLE_PRECISION
Definition: enum_quda.h:60

quda::cloverApply
__device__ __host__ void cloverApply(Arg &arg, int x_cb, int parity)
Definition: dslash_quda.cu:485

quda::ApplyClover
void ApplyClover(ColorSpinorField &out, const ColorSpinorField &in, const CloverField &clover, bool inverse, int parity)
Apply clover-matrix field to a color-spinor field.
Definition: dslash_quda.cu:557

quda::mapper
Definition: register_traits.h:41

quda::CloverArg
Parameteter structure for driving the clover and twist-clover application kernels.
Definition: dslash_quda.cu:437

color_spinor_field_order.h

quda::twistCloverGPU
__global__ void twistCloverGPU(Arg arg)
Definition: dslash_quda.cu:656

quda::CloverArg::F
colorspinor_mapper< Float, nSpin, nColor >::type F
Definition: dslash_quda.cu:441

quda::Clover::minThreads
unsigned int minThreads() const
Definition: dslash_quda.cu:531

dslash_quda.h

quda::TwistGamma::apply
void apply(const cudaStream_t &stream)
Definition: dslash_quda.cu:358

quda::colorspinor_mapper
Definition: color_spinor_field_order.h:1160

if
if(err !=cudaSuccess)
Definition: CMakeCUDACompilerId.cpp1.ii:15963

quda::Gamma::arg
Arg & arg
Definition: dslash_quda.cu:227

quda::clover_mapper
Definition: clover_field_order.h:775

quda::CloverArg::twist
QudaTwistGamma5Type twist
Definition: dslash_quda.cu:457

quda::CloverArg::parity
const int parity
Definition: dslash_quda.cu:450

quda::arg
__host__ __device__ ValueType arg(const complex< ValueType > &z)
Returns the phase angle of z.
Definition: complex_quda.h:880

quda::TwistGamma::~TwistGamma
virtual ~TwistGamma()
Definition: dslash_quda.cu:356

quda::GammaArg::c
RegType c
Definition: dslash_quda.cu:161

quda::TwistClover::tuneGridDim
bool tuneGridDim() const
Definition: dslash_quda.cu:678

quda::setKernelPackT
void setKernelPackT(bool pack)
Definition: dslash_quda.cu:59

quda::Clover::tuneKey
TuneKey tuneKey() const
Definition: dslash_quda.cu:550

quda::gammaCPU
void gammaCPU(Arg arg)
Definition: dslash_quda.cu:195

quda::twistGammaCPU
void twistGammaCPU(Arg arg)
Definition: dslash_quda.cu:300

quda::GammaArg::a
RegType a
Definition: dslash_quda.cu:159

quda::dslash::it
int it
Definition: dslash_quda.cu:64

quda::gamma5
void gamma5(ColorSpinorField &out, const ColorSpinorField &in)
Applies a gamma5 matrix to a spinor (wrapper to ApplyGamma)
Definition: dslash_quda.cu:427

Spinor
Definition: texture.h:528

quda::TwistGamma::flops
long long flops() const
Definition: dslash_quda.cu:346

quda::CloverArg::nParity
const int nParity
Definition: dslash_quda.cu:449

QudaTwistGamma5Type
enum QudaTwistGamma5Type_s QudaTwistGamma5Type

checkCudaError
#define checkCudaError()
Definition: util_quda.h:129

quda::GammaArg::b
RegType b
Definition: dslash_quda.cu:160

mapped_malloc
#define mapped_malloc(size)
Definition: malloc_quda.h:56

getTuning
QudaTune getTuning()
Query whether autotuning is enabled or not. Default is enabled but can be overridden by setting QUDA_...
Definition: util_quda.cpp:51

d
static __inline__ size_t size_t d
Definition: CMakeCUDACompilerId.cpp1.ii:3019

quda::LatticeField::Precision
QudaPrecision Precision() const
Definition: lattice_field.h:462

quda::dslash::scatterEnd
cudaEvent_t scatterEnd[Nstream]
Definition: dslash_quda.cu:73

quda::Gamma::~Gamma
virtual ~Gamma()
Definition: dslash_quda.cu:240

quda::Clover::tuneGridDim
bool tuneGridDim() const
Definition: dslash_quda.cu:530

parity
QudaParity parity
Definition: covdev_test.cpp:53

quda::twistGammaGPU
__global__ void twistGammaGPU(Arg arg)
Definition: dslash_quda.cu:321

quda::Gamma::apply
void apply(const cudaStream_t &stream)
Definition: dslash_quda.cu:242

QUDA_CPU_FIELD_LOCATION
Definition: enum_quda.h:296

quda::cloverGPU
__global__ void cloverGPU(Arg arg)
Definition: dslash_quda.cu:513

quda::TwistGamma::preTune
void preTune()
Definition: dslash_quda.cu:378

quda::destroyDslashEvents
void destroyDslashEvents()
Definition: dslash_quda.cu:118

quda::Tunable::aux
char aux[TuneKey::aux_n]
Definition: tune_quda.h:189

quda::dslash::dslashStart
cudaEvent_t dslashStart[2]
Definition: dslash_quda.cu:74

quda::TuneKey
Definition: tune_key.h:8

dslash
Definition: dslash_events.cuh:1

quda::TwistGamma::bytes
long long bytes() const
Definition: dslash_quda.cu:347

QUDA_TWIST_GAMMA5_INVERSE
Definition: enum_quda.h:391

quda::dslash::gatherStart
cudaEvent_t gatherStart[Nstream]
Definition: dslash_quda.cu:70

quda::Clover::flops
long long flops() const
Definition: dslash_quda.cu:528

quda::ApplyTwistClover
void ApplyTwistClover(ColorSpinorField &out, const ColorSpinorField &in, const CloverField &clover, double kappa, double mu, double epsilon, int parity, int dagger, QudaTwistGamma5Type twist)
Apply twisted clover-matrix field to a color-spinor field.
Definition: dslash_quda.cu:708

quda::Clover::bytes
long long bytes() const
Definition: dslash_quda.cu:529

quda::GammaArg
Parameter structure for driving the Gamma operator.
Definition: dslash_quda.cu:149

color_spinor.h

quda_internal.h

dslash::commsEnd_d
CUdeviceptr commsEnd_d[Nstream]

quda::Gamma::tuneGridDim
bool tuneGridDim() const
Definition: dslash_quda.cu:232