v0.9.0/doc/ks__force__quda_8cu_source.html

 #include <quda_internal.h>
 #include <quda_matrix.h>
 #include <tune_quda.h>
 #include <gauge_field.h>
 #include <gauge_field_order.h>
 #include <ks_force_quda.h>
 #include <index_helper.cuh>

 namespace quda {

   using namespace gauge;

   template<typename Oprod, typename Gauge, typename Mom>
     struct KSForceArg {
       int threads;
       int X[4]; // grid dimensions
 #ifndef BUILD_TIFR_INTERFACE
 #ifdef MULTI_GPU
       int border[4];
 #endif
 #endif
       Oprod oprod;
       Gauge gauge;
       Mom mom;

       KSForceArg(Oprod& oprod, Gauge &gauge, Mom& mom, int dim[4])
         : oprod(oprod), gauge(gauge), mom(mom){

           threads = 1;
           for(int dir=0; dir<4; ++dir) threads *= dim[dir];

           for(int dir=0; dir<4; ++dir) X[dir] = dim[dir];
 #ifndef BUILD_TIFR_INTERFACE
 #ifdef MULTI_GPU
           for(int dir=0; dir<4; ++dir) border[dir] = 2;
 #endif
 #endif
         }

     };


   template<typename Float, typename Oprod, typename Gauge, typename Mom>
     __host__ __device__ void completeKSForceCore(KSForceArg<Oprod,Gauge,Mom>& arg, int idx){

       int parity = 0;
       if(idx >= arg.threads/2){
         parity = 1;
         idx -= arg.threads/2;
       }

       int X[4];
       for(int dir=0; dir<4; ++dir) X[dir] = arg.X[dir];

       int x[4];
       getCoords(x, idx, X, parity);
 #ifndef BUILD_TIFR_INTERFACE
 #ifdef MULTI_GPU
       for(int dir=0; dir<4; ++dir){
         x[dir] += arg.border[dir];
         X[dir] += 2*arg.border[dir];
       }
 #endif
 #endif

       Matrix<complex<Float>,3> O;
       Matrix<complex<Float>,3> G;
       Matrix<complex<Float>,3> M;


       int dx[4] = {0,0,0,0};
       for(int dir=0; dir<4; ++dir){
         arg.gauge.load((Float*)(G.data), linkIndexShift(x,dx,X), dir, parity);
         arg.oprod.load((Float*)(O.data), linkIndexShift(x,dx,X), dir, parity);
         if(parity==0){
           M = G*O;
         }else{
           M = -G*O;
         }

         Float sub = getTrace(M).y/(static_cast<Float>(3));
         Float temp[10];


         temp[0] = (M.data[1].x - M.data[3].x)*0.5;
         temp[1] = (M.data[1].y + M.data[3].y)*0.5;

         temp[2] = (M.data[2].x - M.data[6].x)*0.5;
         temp[3] = (M.data[2].y + M.data[6].y)*0.5;

         temp[4] = (M.data[5].x - M.data[7].x)*0.5;
         temp[5] = (M.data[5].y + M.data[7].y)*0.5;

         temp[6] = (M.data[0].y-sub);
         temp[7] = (M.data[4].y-sub);
         temp[8] = (M.data[8].y-sub);
         temp[9] = 0.0;

         arg.mom.save(temp, idx, dir, parity);
       }
     }

   template<typename Float, typename Oprod, typename Gauge, typename Mom>
     __global__ void completeKSForceKernel(KSForceArg<Oprod,Gauge,Mom> arg)
     {
       int idx = threadIdx.x + blockIdx.x*blockDim.x;

       if(idx >= arg.threads) return;
       completeKSForceCore<Float,Oprod,Gauge,Mom>(arg,idx);
     }


   template<typename Float, typename Oprod, typename Gauge, typename Mom>
     void completeKSForceCPU(KSForceArg<Oprod,Gauge,Mom>& arg)
     {
       for(int idx=0; idx<arg.threads; idx++){
         completeKSForceCore<Float,Oprod,Gauge,Mom>(arg,idx);
       }
     }


   template<typename Float, typename Oprod, typename Gauge, typename Mom>
     class KSForceComplete : Tunable {

       KSForceArg<Oprod, Gauge, Mom> arg;
       const GaugeField &meta;
       const QudaFieldLocation location;

       private:
       unsigned int sharedBytesPerThread() const { return 0; }
       unsigned int sharedBytesPerBlock(const TuneParam &param) const { return 0; }

       bool tuneSharedBytes() const { return false; } // Don't tune the shared memory.
       bool tuneGridDim() const { return false; } // Don't tune the grid dimensions.
       unsigned int minThreads() const { return arg.threads; }

       public:
       KSForceComplete(KSForceArg<Oprod,Gauge,Mom> &arg, const GaugeField &meta, QudaFieldLocation location)
         : arg(arg), meta(meta), location(location) {
   writeAuxString("prec=%lu,stride=%d",sizeof(Float),arg.mom.stride);
       }

       virtual ~KSForceComplete() {}

       void apply(const cudaStream_t &stream) {
         if(location == QUDA_CUDA_FIELD_LOCATION){
           // Fix this
           dim3 blockDim(128, 1, 1);
           dim3 gridDim((arg.threads + blockDim.x - 1) / blockDim.x, 1, 1);
           completeKSForceKernel<Float><<<gridDim,blockDim>>>(arg);
         }else{
           completeKSForceCPU<Float>(arg);
         }
       }

       TuneKey tuneKey() const { return TuneKey(meta.VolString(), typeid(*this).name(), aux); }

       long long flops() const { return 792*arg.X[0]*arg.X[1]*arg.X[2]*arg.X[3]; }
       long long bytes() const { return 0; } // Fix this
     };

   template<typename Float, typename Oprod, typename Gauge, typename Mom>
   void completeKSForce(Oprod oprod, Gauge gauge, Mom mom, int dim[4], const GaugeField &meta, QudaFieldLocation location, long long *flops)
     {
       KSForceArg<Oprod,Gauge,Mom> arg(oprod, gauge, mom, dim);
       KSForceComplete<Float,Oprod,Gauge,Mom> completeForce(arg,meta,location);
       completeForce.apply(0);
       if(flops) *flops = completeForce.flops();
       qudaDeviceSynchronize();
     }


   template<typename Float>
     void completeKSForce(GaugeField& mom, const GaugeField& oprod, const GaugeField& gauge, QudaFieldLocation location, long long *flops)
     {

       if(location != QUDA_CUDA_FIELD_LOCATION){
         errorQuda("Only QUDA_CUDA_FIELD_LOCATION currently supported");
       }else{
         if((oprod.Reconstruct() != QUDA_RECONSTRUCT_NO) || (gauge.Reconstruct() != QUDA_RECONSTRUCT_NO) || (mom.Reconstruct() != QUDA_RECONSTRUCT_10)){
           errorQuda("Reconstruct type not supported");
         }else{
           completeKSForce<Float>(FloatNOrder<Float, 18, 2, 18>(oprod),
          FloatNOrder<Float, 18, 2, 18>(gauge),
          FloatNOrder<Float, 10, 2, 10>(mom),
          const_cast<int*>(mom.X()),
          gauge, location, flops);
         }
       }
       return;
     }


   void completeKSForce(GaugeField &mom, const GaugeField &oprod, const GaugeField &gauge, QudaFieldLocation location, long long *flops)
   {
     if(mom.Precision() == QUDA_HALF_PRECISION){
       errorQuda("Half precision not supported");
     }

     if(mom.Precision() == QUDA_SINGLE_PRECISION){
       completeKSForce<float>(mom, oprod, gauge, location, flops);
     }else if(mom.Precision() == QUDA_DOUBLE_PRECISION){
       completeKSForce<double>(mom, oprod, gauge, location, flops);
     }else{
       errorQuda("Precision %d not supported", mom.Precision());
     }
     return;
   }


   template<typename Result, typename Oprod, typename Gauge>
     struct KSLongLinkArg {
       int threads;
       int X[4]; // grid dimensions
 #ifdef MULTI_GPU
       int border[4];
 #endif
       double coeff;
       Result res;
       Oprod oprod;
       Gauge gauge;

       KSLongLinkArg(Result& res, Oprod& oprod, Gauge &gauge, int dim[4])
         : coeff(1.0), res(res), oprod(oprod), gauge(gauge){

           threads = 1;
 #ifdef MULTI_GPU
           for(int dir=0; dir<4; ++dir) threads *= (dim[dir]-2);
           for(int dir=0; dir<4; ++dir) X[dir] = dim[dir]-2;
           for(int dir=0; dir<4; ++dir) border[dir] = 2;
 #else
           for(int dir=0; dir<4; ++dir) threads *= dim[dir];
           for(int dir=0; dir<4; ++dir) X[dir] = dim[dir];
 #endif
         }

     };


   template<typename Float, typename Result, typename Oprod, typename Gauge>
     __host__ __device__ void computeKSLongLinkForceCore(KSLongLinkArg<Result,Oprod,Gauge>& arg, int idx){

       /*
          int parity = 0;
          if(idx >= arg.threads/2){
          parity = 1;
          idx -= arg.threads/2;
          }

          int X[4];
          for(int dir=0; dir<4; ++dir) X[dir] = arg.X[dir];

          int x[4];
          getCoords(x, idx, X, parity);
 #ifndef BUILD_TIFR_INTERFACE
 #ifdef MULTI_GPU
 for(int dir=0; dir<4; ++dir){
 x[dir] += arg.border[dir];
 X[dir] += 2*arg.border[dir];
 }
 #endif
 #endif

 typedef complex<Float> Cmplx;

 Matrix<Cmplx,3> O;
 Matrix<Cmplx,3> G;
 Matrix<Cmplx,3> M;


 int dx[4] = {0,0,0,0};
 for(int dir=0; dir<4; ++dir){
 arg.gauge.load((Float*)(G.data), linkIndexShift(x,dx,X), dir, parity);
 arg.oprod.load((Float*)(O.data), linkIndexShift(x,dx,X), dir, parity);
 if(parity==0){
 M = G*O;
 }else{
 M = -G*O;
 }

 Float sub = getTrace(M).y/(static_cast<Float>(3));
 Float temp[10];


 temp[0] = (M.data[1].x - M.data[3].x)*0.5;
 temp[1] = (M.data[1].y + M.data[3].y)*0.5;

 temp[2] = (M.data[2].x - M.data[6].x)*0.5;
 temp[3] = (M.data[2].y + M.data[6].y)*0.5;

 temp[4] = (M.data[5].x - M.data[7].x)*0.5;
 temp[5] = (M.data[5].y + M.data[7].y)*0.5;

 temp[6] = (M.data[0].y-sub);
 temp[7] = (M.data[4].y-sub);
 temp[8] = (M.data[8].y-sub);
 temp[9] = 0.0;

 arg.mom.save(temp, idx, dir, parity);
 }
        */
     }

   template<typename Float, typename Result, typename Oprod, typename Gauge>
 __global__ void computeKSLongLinkForceKernel(KSLongLinkArg<Result,Oprod,Gauge> arg)
 {
   int idx = threadIdx.x + blockIdx.x*blockDim.x;

   if(idx >= arg.threads) return;
   computeKSLongLinkForceCore<Float,Result,Oprod,Gauge>(arg,idx);
 }


   template<typename Float, typename Result, typename Oprod, typename Gauge>
 void computeKSLongLinkForceCPU(KSLongLinkArg<Result,Oprod,Gauge>& arg)
 {
   for(int idx=0; idx<arg.threads; idx++){
     computeKSLongLinkForceCore<Float,Result,Oprod,Gauge>(arg,idx);
   }
 }


 // should be tunable
 template<typename Float, typename Result, typename Oprod, typename Gauge>
 class KSLongLinkForce : Tunable {


   KSLongLinkArg<Result,Oprod,Gauge> arg;
   const GaugeField &meta;
   const QudaFieldLocation location;

   private:
   unsigned int sharedBytesPerThread() const { return 0; }
   unsigned int sharedBytesPerBlock(const TuneParam &param) const { return 0; }

   bool tuneSharedBytes() const { return false; } // Don't tune the shared memory.
   bool tuneGridDim() const { return false; } // Don't tune the grid dimensions.
   unsigned int minThreads() const { return arg.threads; }

   public:
   KSLongLinkForce(KSLongLinkArg<Result,Oprod,Gauge> &arg, const GaugeField &meta, QudaFieldLocation location)
     : arg(arg), meta(meta), location(location) {
     writeAuxString("prec=%lu,stride=%d",sizeof(Float),arg.res.stride);
   }

   virtual ~KSLongLinkForce() {}

   void apply(const cudaStream_t &stream) {
     if(location == QUDA_CUDA_FIELD_LOCATION){
       // Fix this
       dim3 blockDim(128, 1, 1);
       dim3 gridDim((arg.threads + blockDim.x - 1) / blockDim.x, 1, 1);
       computeKSLongLinkForceKernel<Float><<<gridDim,blockDim>>>(arg);
     }else{
       computeKSLongLinkForceCPU<Float>(arg);
     }
   }

   TuneKey tuneKey() const { return TuneKey(meta.VolString(), typeid(*this).name(), aux); }

   long long flops() const { return 0; } // Fix this
   long long bytes() const { return 0; } // Fix this
 };


 template<typename Float, typename Result, typename Oprod, typename Gauge>
 void computeKSLongLinkForce(Result res, Oprod oprod, Gauge gauge, int dim[4], const GaugeField &meta, QudaFieldLocation location)
 {
   KSLongLinkArg<Result,Oprod,Gauge> arg(res, oprod, gauge, dim);
   KSLongLinkForce<Float,Result,Oprod,Gauge> computeLongLink(arg,meta,location);
   computeLongLink.apply(0);
   qudaDeviceSynchronize();
 }

   template<typename Float>
 void computeKSLongLinkForce(GaugeField& result, const GaugeField &oprod, const GaugeField &gauge, QudaFieldLocation location)
 {
   if(location != QUDA_CUDA_FIELD_LOCATION){
     errorQuda("Only QUDA_CUDA_FIELD_LOCATION currently supported");
   }else{
     if((oprod.Reconstruct() != QUDA_RECONSTRUCT_NO) || (gauge.Reconstruct() != QUDA_RECONSTRUCT_NO) ||
         (result.Reconstruct() != QUDA_RECONSTRUCT_10)){

       errorQuda("Reconstruct type not supported");
     }else{
       computeKSLongLinkForce<Float>(FloatNOrder<Float, 18, 2, 18>(result),
             FloatNOrder<Float, 18, 2, 18>(oprod),
             FloatNOrder<Float, 18, 2, 18>(gauge),
             const_cast<int*>(result.X()),
             gauge, location);
     }
   }
   return;
 }


 void computeKSLongLinkForce(GaugeField &result, const GaugeField &oprod, const GaugeField &gauge, QudaFieldLocation location)
 {
   if(result.Precision() == QUDA_HALF_PRECISION){
     errorQuda("Half precision not supported");
   }

   if(result.Precision() == QUDA_SINGLE_PRECISION){
     computeKSLongLinkForce<float>(result, oprod, gauge, location);
   }else if(result.Precision() == QUDA_DOUBLE_PRECISION){
     computeKSLongLinkForce<double>(result, oprod, gauge, location);
   }
   errorQuda("Precision %d not supported", result.Precision());
   return;
 }

 } // namespace quda
quda::KSLongLinkArg::coeff
double coeff
Definition: ks_force_quda.cu:223

QUDA_RECONSTRUCT_NO
Definition: enum_quda.h:66

quda::TuneParam
Definition: tune_quda.h:17

blockDim
dim3 dim3 blockDim
Definition: CMakeCUDACompilerId.cpp1.ii:2471

QUDA_RECONSTRUCT_10
Definition: enum_quda.h:71

quda::KSForceArg::KSForceArg
KSForceArg(Oprod &oprod, Gauge &gauge, Mom &mom, int dim[4])
Definition: ks_force_quda.cu:26

quda::completeKSForceKernel
__global__ void completeKSForceKernel(KSForceArg< Oprod, Gauge, Mom > arg)
Definition: ks_force_quda.cu:104

quda::linkIndexShift
static __device__ __host__ int linkIndexShift(const I x[], const J dx[], const K X[4])
Definition: index_helper.cuh:13

quda::KSForceComplete::sharedBytesPerThread
unsigned int sharedBytesPerThread() const
Definition: ks_force_quda.cu:133

quda::computeKSLongLinkForceKernel
__global__ void computeKSLongLinkForceKernel(KSLongLinkArg< Result, Oprod, Gauge > arg)
Definition: ks_force_quda.cu:311

quda::KSForceComplete::flops
long long flops() const
Definition: ks_force_quda.cu:161

quda::KSLongLinkForce::arg
KSLongLinkArg< Result, Oprod, Gauge > arg
Definition: ks_force_quda.cu:337

quda::KSForceComplete::KSForceComplete
KSForceComplete(KSForceArg< Oprod, Gauge, Mom > &arg, const GaugeField &meta, QudaFieldLocation location)
Definition: ks_force_quda.cu:141

errorQuda
#define errorQuda(...)
Definition: util_quda.h:90

QUDA_CUDA_FIELD_LOCATION
Definition: enum_quda.h:297

sub
static void sub(Float *dst, Float *a, Float *b, int cnt)
Definition: dslash_util.h:14

quda::KSForceComplete::tuneSharedBytes
bool tuneSharedBytes() const
Definition: ks_force_quda.cu:136

QUDA_HALF_PRECISION
Definition: enum_quda.h:59

quda::completeKSForceCPU
void completeKSForceCPU(KSForceArg< Oprod, Gauge, Mom > &arg)
Definition: ks_force_quda.cu:116

quda::KSForceArg::threads
int threads
Definition: ks_force_quda.cu:15

quda::KSForceComplete::location
const QudaFieldLocation location
Definition: ks_force_quda.cu:130

quda::stream
cudaStream_t * stream
Definition: cuda_color_spinor_field.cu:898

dim
static __inline__ dim3 dim3 void size_t cudaStream_t int dim
Definition: CMakeCUDACompilerId.cpp1.ii:15687

quda::completeKSForce
void completeKSForce(GaugeField &mom, const GaugeField &oprod, const GaugeField &gauge, QudaFieldLocation location, long long *flops=NULL)
Definition: ks_force_quda.cu:177

quda::KSForceArg::oprod
Oprod oprod
Definition: ks_force_quda.cu:22

quda::KSLongLinkArg::threads
int threads
Definition: ks_force_quda.cu:218

quda::LatticeField::VolString
const char * VolString() const
Definition: lattice_field.h:524

quda::KSForceComplete::sharedBytesPerBlock
unsigned int sharedBytesPerBlock(const TuneParam &param) const
Definition: ks_force_quda.cu:134

quda::KSForceComplete::apply
void apply(const cudaStream_t &stream)
Definition: ks_force_quda.cu:148

quda
Definition: blas_cublas.h:6

gridDim
dim3 gridDim
Definition: CMakeCUDACompilerId.cpp1.ii:2471

param
QudaGaugeParam param
Definition: pack_test.cpp:17

quda::KSForceComplete::minThreads
unsigned int minThreads() const
Definition: ks_force_quda.cu:138

x
p x
Definition: CMakeCUDACompilerId.cpp1.ii:3011

quda::KSLongLinkForce::minThreads
unsigned int minThreads() const
Definition: ks_force_quda.cu:347

quda::Tunable
Definition: tune_quda.h:60

quda::KSLongLinkArg::res
Result res
Definition: ks_force_quda.cu:224

quda::Matrix::data
T data[N *N]
Definition: quda_matrix.h:74

quda::completeKSForceCore
__host__ __device__ void completeKSForceCore(KSForceArg< Oprod, Gauge, Mom > &arg, int idx)
Definition: ks_force_quda.cu:44

quda::KSForceComplete::~KSForceComplete
virtual ~KSForceComplete()
Definition: ks_force_quda.cu:146

quda::KSLongLinkForce::tuneKey
TuneKey tuneKey() const
Definition: ks_force_quda.cu:368

quda::KSLongLinkForce::KSLongLinkForce
KSLongLinkForce(KSLongLinkArg< Result, Oprod, Gauge > &arg, const GaugeField &meta, QudaFieldLocation location)
Definition: ks_force_quda.cu:350

quda::KSForceComplete
Definition: ks_force_quda.cu:126

quda::KSLongLinkForce::tuneGridDim
bool tuneGridDim() const
Definition: ks_force_quda.cu:346

gauge_field_order.h
Main header file for host and device accessors to GaugeFields.

quda::KSForceComplete::tuneGridDim
bool tuneGridDim() const
Definition: ks_force_quda.cu:137

quda::KSLongLinkForce::location
const QudaFieldLocation location
Definition: ks_force_quda.cu:339

quda::KSForceComplete::tuneKey
TuneKey tuneKey() const
Definition: ks_force_quda.cu:159

quda::qudaDeviceSynchronize
cudaError_t qudaDeviceSynchronize()
Wrapper around cudaDeviceSynchronize or cuDeviceSynchronize.
Definition: quda_cuda_api.cpp:277

quda::KSForceArg::gauge
Gauge gauge
Definition: ks_force_quda.cu:23

tune_quda.h

quda::KSLongLinkForce::meta
const GaugeField & meta
Definition: ks_force_quda.cu:338

X
int X
Definition: asym_wilson_clover_dslash_dagger_fermi_core.h:394

quda::KSLongLinkForce::flops
long long flops() const
Definition: ks_force_quda.cu:370

quda::KSForceComplete::bytes
long long bytes() const
Definition: ks_force_quda.cu:162

quda_matrix.h

QUDA_DOUBLE_PRECISION
Definition: enum_quda.h:61

quda::getTrace
__device__ __host__ T getTrace(const Matrix< T, 3 > &a)
Definition: quda_matrix.h:305

QudaFieldLocation
enum QudaFieldLocation_s QudaFieldLocation

index_helper.cuh

dw_dslash_4D_cuda_gen.coeff
def coeff()
Definition: dw_dslash_4D_cuda_gen.py:1099

idx
int idx
Definition: staggered_fused_exterior_dslash_core.h:355

QUDA_SINGLE_PRECISION
Definition: enum_quda.h:60

quda::computeKSLongLinkForceCore
__host__ __device__ void computeKSLongLinkForceCore(KSLongLinkArg< Result, Oprod, Gauge > &arg, int idx)
Definition: ks_force_quda.cu:247

quda::KSLongLinkForce
Definition: ks_force_quda.cu:334

quda::KSForceArg
Definition: ks_force_quda.cu:14

quda::KSLongLinkForce::~KSLongLinkForce
virtual ~KSLongLinkForce()
Definition: ks_force_quda.cu:355

quda::KSLongLinkArg
Definition: ks_force_quda.cu:217

quda::blas::flops
unsigned long long flops
Definition: blas_quda.cu:42

quda::KSLongLinkArg::gauge
Gauge gauge
Definition: ks_force_quda.cu:226

quda::computeKSLongLinkForce
void computeKSLongLinkForce(Result res, Oprod oprod, Gauge gauge, int dim[4], const GaugeField &meta, QudaFieldLocation location)
Definition: ks_force_quda.cu:378

quda::arg
__host__ __device__ ValueType arg(const complex< ValueType > &z)
Returns the phase angle of z.
Definition: complex_quda.h:880

quda::KSForceArg::mom
Mom mom
Definition: ks_force_quda.cu:24

quda::clover::FloatNOrder
Accessor routine for CloverFields in native field order.
Definition: clover_field_order.h:367

quda::KSLongLinkForce::sharedBytesPerBlock
unsigned int sharedBytesPerBlock(const TuneParam &param) const
Definition: ks_force_quda.cu:343

quda::GaugeField::Reconstruct
QudaReconstructType Reconstruct() const
Definition: gauge_field.h:203

quda::computeKSLongLinkForceCPU
void computeKSLongLinkForceCPU(KSLongLinkArg< Result, Oprod, Gauge > &arg)
Definition: ks_force_quda.cu:323

ks_force_quda.h

quda::KSLongLinkForce::sharedBytesPerThread
unsigned int sharedBytesPerThread() const
Definition: ks_force_quda.cu:342

quda::KSLongLinkForce::apply
void apply(const cudaStream_t &stream)
Definition: ks_force_quda.cu:357

quda::KSForceComplete::meta
const GaugeField & meta
Definition: ks_force_quda.cu:129

quda::KSLongLinkArg::KSLongLinkArg
KSLongLinkArg(Result &res, Oprod &oprod, Gauge &gauge, int dim[4])
Definition: ks_force_quda.cu:228

parity
QudaParity parity
Definition: covdev_test.cpp:53

quda::KSLongLinkForce::tuneSharedBytes
bool tuneSharedBytes() const
Definition: ks_force_quda.cu:345

gauge_field.h

quda::Matrix
Definition: quda_matrix.h:68

quda::KSLongLinkArg::oprod
Oprod oprod
Definition: ks_force_quda.cu:225

quda::KSForceComplete::arg
KSForceArg< Oprod, Gauge, Mom > arg
Definition: ks_force_quda.cu:128

quda::TuneKey
Definition: tune_key.h:8

quda::KSLongLinkForce::bytes
long long bytes() const
Definition: ks_force_quda.cu:371

quda::LatticeField::X
const int * X() const
Definition: lattice_field.h:415

quda_internal.h

quda::GaugeField
Definition: gauge_field.h:123

quda::getCoords
static __device__ __host__ void getCoords(int x[], int cb_index, const I X[], int parity)
Definition: index_helper.cuh:129