quda-ref/v1.0.0/ks__force__quda_8cu_source.html

 #include <quda_internal.h>
 #include <quda_matrix.h>
 #include <tune_quda.h>
 #include <gauge_field.h>
 #include <gauge_field_order.h>
 #include <ks_force_quda.h>
 #include <index_helper.cuh>

 namespace quda {

   using namespace gauge;

   template<typename Oprod, typename Gauge, typename Mom>
     struct KSForceArg {
       int threads;
       int X[4]; // grid dimensions
 #ifndef BUILD_TIFR_INTERFACE
 #ifdef MULTI_GPU
       int border[4];
 #endif
 #endif
       Oprod oprod;
       Gauge gauge;
       Mom mom;

       KSForceArg(Oprod& oprod, Gauge &gauge, Mom& mom, int dim[4])
         : oprod(oprod), gauge(gauge), mom(mom){

           threads = 1;
           for(int dir=0; dir<4; ++dir) threads *= dim[dir];

           for(int dir=0; dir<4; ++dir) X[dir] = dim[dir];
 #ifndef BUILD_TIFR_INTERFACE
 #ifdef MULTI_GPU
           for(int dir=0; dir<4; ++dir) border[dir] = 2;
 #endif
 #endif
         }

     };

   template<typename Float, typename Oprod, typename Gauge, typename Mom>
     __host__ __device__ void completeKSForceCore(KSForceArg<Oprod,Gauge,Mom>& arg, int idx){

       int parity = 0;
       if(idx >= arg.threads/2){
         parity = 1;
         idx -= arg.threads/2;
       }

       int X[4];
       for(int dir=0; dir<4; ++dir) X[dir] = arg.X[dir];

       int x[4];
       getCoords(x, idx, X, parity);
 #ifndef BUILD_TIFR_INTERFACE
 #ifdef MULTI_GPU
       for(int dir=0; dir<4; ++dir){
         x[dir] += arg.border[dir];
         X[dir] += 2*arg.border[dir];
       }
 #endif
 #endif

       Matrix<complex<Float>,3> O, G, M;

       int dx[4] = {0,0,0,0};
       for(int dir=0; dir<4; ++dir){
         G = arg.gauge(dir, linkIndexShift(x,dx,X), parity);
         O = arg.oprod(dir, linkIndexShift(x,dx,X), parity);
         if(parity==0){
           M = G*O;
         }else{
           M = -G*O;
         }

         makeAntiHerm(M);

         arg.mom(dir, idx, parity) = M;
       }
     }

   template<typename Float, typename Oprod, typename Gauge, typename Mom>
     __global__ void completeKSForceKernel(KSForceArg<Oprod,Gauge,Mom> arg)
     {
       int idx = threadIdx.x + blockIdx.x*blockDim.x;

       if(idx >= arg.threads) return;
       completeKSForceCore<Float,Oprod,Gauge,Mom>(arg,idx);
     }

   template<typename Float, typename Oprod, typename Gauge, typename Mom>
     void completeKSForceCPU(KSForceArg<Oprod,Gauge,Mom>& arg)
     {
       for(int idx=0; idx<arg.threads; idx++){
         completeKSForceCore<Float,Oprod,Gauge,Mom>(arg,idx);
       }
     }

   template<typename Float, typename Oprod, typename Gauge, typename Mom>
     class KSForceComplete : Tunable {

       KSForceArg<Oprod, Gauge, Mom> arg;
       const GaugeField &meta;
       const QudaFieldLocation location;

       private:
       unsigned int sharedBytesPerThread() const { return 0; }
       unsigned int sharedBytesPerBlock(const TuneParam &param) const { return 0; }

       bool tuneSharedBytes() const { return false; } // Don't tune the shared memory.
       bool tuneGridDim() const { return false; } // Don't tune the grid dimensions.
       unsigned int minThreads() const { return arg.threads; }

       public:
       KSForceComplete(KSForceArg<Oprod,Gauge,Mom> &arg, const GaugeField &meta, QudaFieldLocation location)
         : arg(arg), meta(meta), location(location) {
   writeAuxString("prec=%lu,stride=%d",sizeof(Float),arg.mom.stride);
       }

       virtual ~KSForceComplete() {}

       void apply(const cudaStream_t &stream) {
         if(location == QUDA_CUDA_FIELD_LOCATION){
           // Fix this
           dim3 blockDim(128, 1, 1);
           dim3 gridDim((arg.threads + blockDim.x - 1) / blockDim.x, 1, 1);
           completeKSForceKernel<Float><<<gridDim,blockDim>>>(arg);
         }else{
           completeKSForceCPU<Float>(arg);
         }
       }

       TuneKey tuneKey() const { return TuneKey(meta.VolString(), typeid(*this).name(), aux); }

       long long flops() const { return 792*arg.X[0]*arg.X[1]*arg.X[2]*arg.X[3]; }
       long long bytes() const { return 0; } // Fix this
     };

   template<typename Float, typename Oprod, typename Gauge, typename Mom>
   void completeKSForce(Oprod oprod, Gauge gauge, Mom mom, int dim[4], const GaugeField &meta, QudaFieldLocation location, long long *flops)
     {
       KSForceArg<Oprod,Gauge,Mom> arg(oprod, gauge, mom, dim);
       KSForceComplete<Float,Oprod,Gauge,Mom> completeForce(arg,meta,location);
       completeForce.apply(0);
       if(flops) *flops = completeForce.flops();
       qudaDeviceSynchronize();
     }


   template<typename Float>
     void completeKSForce(GaugeField& mom, const GaugeField& oprod, const GaugeField& gauge, QudaFieldLocation location, long long *flops)
     {

       if(location != QUDA_CUDA_FIELD_LOCATION){
         errorQuda("Only QUDA_CUDA_FIELD_LOCATION currently supported");
       }else{
         if((oprod.Reconstruct() != QUDA_RECONSTRUCT_NO) || (gauge.Reconstruct() != QUDA_RECONSTRUCT_NO) || (mom.Reconstruct() != QUDA_RECONSTRUCT_10)){
           errorQuda("Reconstruct type not supported");
         }else{
           completeKSForce<Float>(FloatNOrder<Float, 18, 2, 18>(oprod),
          FloatNOrder<Float, 18, 2, 18>(gauge),
          FloatNOrder<Float, 10, 2, 10>(mom),
          const_cast<int*>(mom.X()),
          gauge, location, flops);
         }
       }
       return;
     }


   void completeKSForce(GaugeField &mom, const GaugeField &oprod, const GaugeField &gauge, QudaFieldLocation location, long long *flops)
   {
     if(mom.Precision() == QUDA_HALF_PRECISION){
       errorQuda("Half precision not supported");
     }

     if(mom.Precision() == QUDA_SINGLE_PRECISION){
       completeKSForce<float>(mom, oprod, gauge, location, flops);
     }else if(mom.Precision() == QUDA_DOUBLE_PRECISION){
       completeKSForce<double>(mom, oprod, gauge, location, flops);
     }else{
       errorQuda("Precision %d not supported", mom.Precision());
     }
     return;
   }


   template<typename Result, typename Oprod, typename Gauge>
     struct KSLongLinkArg {
       int threads;
       int X[4]; // grid dimensions
 #ifdef MULTI_GPU
       int border[4];
 #endif
       double coeff;
       Result res;
       Oprod oprod;
       Gauge gauge;

       KSLongLinkArg(Result& res, Oprod& oprod, Gauge &gauge, int dim[4])
         : coeff(1.0), res(res), oprod(oprod), gauge(gauge){

           threads = 1;
 #ifdef MULTI_GPU
           for(int dir=0; dir<4; ++dir) threads *= (dim[dir]-2);
           for(int dir=0; dir<4; ++dir) X[dir] = dim[dir]-2;
           for(int dir=0; dir<4; ++dir) border[dir] = 2;
 #else
           for(int dir=0; dir<4; ++dir) threads *= dim[dir];
           for(int dir=0; dir<4; ++dir) X[dir] = dim[dir];
 #endif
         }

     };


   template<typename Float, typename Result, typename Oprod, typename Gauge>
     __host__ __device__ void computeKSLongLinkForceCore(KSLongLinkArg<Result,Oprod,Gauge>& arg, int idx){

       /*
          int parity = 0;
          if(idx >= arg.threads/2){
          parity = 1;
          idx -= arg.threads/2;
          }

          int X[4];
          for(int dir=0; dir<4; ++dir) X[dir] = arg.X[dir];

          int x[4];
          getCoords(x, idx, X, parity);
 #ifndef BUILD_TIFR_INTERFACE
 #ifdef MULTI_GPU
 for(int dir=0; dir<4; ++dir){
 x[dir] += arg.border[dir];
 X[dir] += 2*arg.border[dir];
 }
 #endif
 #endif

 typedef complex<Float> Cmplx;

 Matrix<Cmplx,3> O;
 Matrix<Cmplx,3> G;
 Matrix<Cmplx,3> M;


 int dx[4] = {0,0,0,0};
 for(int dir=0; dir<4; ++dir){
 arg.gauge.load((Float*)(G.data), linkIndexShift(x,dx,X), dir, parity);
 arg.oprod.load((Float*)(O.data), linkIndexShift(x,dx,X), dir, parity);
 if(parity==0){
 M = G*O;
 }else{
 M = -G*O;
 }

 Float sub = getTrace(M).y/(static_cast<Float>(3));
 Float temp[10];


 temp[0] = (M.data[1].x - M.data[3].x)*0.5;
 temp[1] = (M.data[1].y + M.data[3].y)*0.5;

 temp[2] = (M.data[2].x - M.data[6].x)*0.5;
 temp[3] = (M.data[2].y + M.data[6].y)*0.5;

 temp[4] = (M.data[5].x - M.data[7].x)*0.5;
 temp[5] = (M.data[5].y + M.data[7].y)*0.5;

 temp[6] = (M.data[0].y-sub);
 temp[7] = (M.data[4].y-sub);
 temp[8] = (M.data[8].y-sub);
 temp[9] = 0.0;

 arg.mom.save(temp, idx, dir, parity);
 }
        */
     }

   template<typename Float, typename Result, typename Oprod, typename Gauge>
 __global__ void computeKSLongLinkForceKernel(KSLongLinkArg<Result,Oprod,Gauge> arg)
 {
   int idx = threadIdx.x + blockIdx.x*blockDim.x;

   if(idx >= arg.threads) return;
   computeKSLongLinkForceCore<Float,Result,Oprod,Gauge>(arg,idx);
 }


   template<typename Float, typename Result, typename Oprod, typename Gauge>
 void computeKSLongLinkForceCPU(KSLongLinkArg<Result,Oprod,Gauge>& arg)
 {
   for(int idx=0; idx<arg.threads; idx++){
     computeKSLongLinkForceCore<Float,Result,Oprod,Gauge>(arg,idx);
   }
 }


 // should be tunable
 template<typename Float, typename Result, typename Oprod, typename Gauge>
 class KSLongLinkForce : Tunable {


   KSLongLinkArg<Result,Oprod,Gauge> arg;
   const GaugeField &meta;
   const QudaFieldLocation location;

   private:
   unsigned int sharedBytesPerThread() const { return 0; }
   unsigned int sharedBytesPerBlock(const TuneParam &param) const { return 0; }

   bool tuneSharedBytes() const { return false; } // Don't tune the shared memory.
   bool tuneGridDim() const { return false; } // Don't tune the grid dimensions.
   unsigned int minThreads() const { return arg.threads; }

   public:
   KSLongLinkForce(KSLongLinkArg<Result,Oprod,Gauge> &arg, const GaugeField &meta, QudaFieldLocation location)
     : arg(arg), meta(meta), location(location) {
     writeAuxString("prec=%lu,stride=%d",sizeof(Float),arg.res.stride);
   }

   virtual ~KSLongLinkForce() {}

   void apply(const cudaStream_t &stream) {
     if(location == QUDA_CUDA_FIELD_LOCATION){
       // Fix this
       dim3 blockDim(128, 1, 1);
       dim3 gridDim((arg.threads + blockDim.x - 1) / blockDim.x, 1, 1);
       computeKSLongLinkForceKernel<Float><<<gridDim,blockDim>>>(arg);
     }else{
       computeKSLongLinkForceCPU<Float>(arg);
     }
   }

   TuneKey tuneKey() const { return TuneKey(meta.VolString(), typeid(*this).name(), aux); }

   long long flops() const { return 0; } // Fix this
   long long bytes() const { return 0; } // Fix this
 };


 template<typename Float, typename Result, typename Oprod, typename Gauge>
 void computeKSLongLinkForce(Result res, Oprod oprod, Gauge gauge, int dim[4], const GaugeField &meta, QudaFieldLocation location)
 {
   KSLongLinkArg<Result,Oprod,Gauge> arg(res, oprod, gauge, dim);
   KSLongLinkForce<Float,Result,Oprod,Gauge> computeLongLink(arg,meta,location);
   computeLongLink.apply(0);
   qudaDeviceSynchronize();
 }

   template<typename Float>
 void computeKSLongLinkForce(GaugeField& result, const GaugeField &oprod, const GaugeField &gauge, QudaFieldLocation location)
 {
   if(location != QUDA_CUDA_FIELD_LOCATION){
     errorQuda("Only QUDA_CUDA_FIELD_LOCATION currently supported");
   }else{
     if((oprod.Reconstruct() != QUDA_RECONSTRUCT_NO) || (gauge.Reconstruct() != QUDA_RECONSTRUCT_NO) ||
         (result.Reconstruct() != QUDA_RECONSTRUCT_10)){

       errorQuda("Reconstruct type not supported");
     }else{
       computeKSLongLinkForce<Float>(FloatNOrder<Float, 18, 2, 18>(result),
             FloatNOrder<Float, 18, 2, 18>(oprod),
             FloatNOrder<Float, 18, 2, 18>(gauge),
             const_cast<int*>(result.X()),
             gauge, location);
     }
   }
   return;
 }


 void computeKSLongLinkForce(GaugeField &result, const GaugeField &oprod, const GaugeField &gauge, QudaFieldLocation location)
 {
   if(result.Precision() == QUDA_HALF_PRECISION){
     errorQuda("Half precision not supported");
   }

   if(result.Precision() == QUDA_SINGLE_PRECISION){
     computeKSLongLinkForce<float>(result, oprod, gauge, location);
   }else if(result.Precision() == QUDA_DOUBLE_PRECISION){
     computeKSLongLinkForce<double>(result, oprod, gauge, location);
   }
   errorQuda("Precision %d not supported", result.Precision());
   return;
 }

 } // namespace quda
quda::KSLongLinkArg::coeff
double coeff
Definition: ks_force_quda.cu:198

QUDA_RECONSTRUCT_NO
Definition: enum_quda.h:67

quda::TuneParam
Definition: tune_quda.h:17

QUDA_RECONSTRUCT_10
Definition: enum_quda.h:72

quda::KSForceArg::KSForceArg
KSForceArg(Oprod &oprod, Gauge &gauge, Mom &mom, int dim[4])
Definition: ks_force_quda.cu:26

quda::completeKSForceKernel
__global__ void completeKSForceKernel(KSForceArg< Oprod, Gauge, Mom > arg)
Definition: ks_force_quda.cu:84

quda::linkIndexShift
static __device__ __host__ int linkIndexShift(const I x[], const J dx[], const K X[4])
Definition: index_helper.cuh:13

quda::KSForceComplete::sharedBytesPerThread
unsigned int sharedBytesPerThread() const
Definition: ks_force_quda.cu:108

quda::computeKSLongLinkForceKernel
__global__ void computeKSLongLinkForceKernel(KSLongLinkArg< Result, Oprod, Gauge > arg)
Definition: ks_force_quda.cu:286

quda::KSForceComplete::flops
long long flops() const
Definition: ks_force_quda.cu:136

quda::KSLongLinkForce::arg
KSLongLinkArg< Result, Oprod, Gauge > arg
Definition: ks_force_quda.cu:312

quda::KSForceComplete::KSForceComplete
KSForceComplete(KSForceArg< Oprod, Gauge, Mom > &arg, const GaugeField &meta, QudaFieldLocation location)
Definition: ks_force_quda.cu:116

errorQuda
#define errorQuda(...)
Definition: util_quda.h:121

QUDA_CUDA_FIELD_LOCATION
Definition: enum_quda.h:326

quda::KSForceComplete::tuneSharedBytes
bool tuneSharedBytes() const
Definition: ks_force_quda.cu:111

QUDA_HALF_PRECISION
Definition: enum_quda.h:60

quda::completeKSForceCPU
void completeKSForceCPU(KSForceArg< Oprod, Gauge, Mom > &arg)
Definition: ks_force_quda.cu:93

quda::KSForceArg::threads
int threads
Definition: ks_force_quda.cu:15

quda::KSForceComplete::location
const QudaFieldLocation location
Definition: ks_force_quda.cu:105

quda::stream
cudaStream_t * stream
Definition: cuda_color_spinor_field.cpp:897

quda::completeKSForce
void completeKSForce(GaugeField &mom, const GaugeField &oprod, const GaugeField &gauge, QudaFieldLocation location, long long *flops=NULL)
Definition: ks_force_quda.cu:152

quda::KSForceArg::oprod
Oprod oprod
Definition: ks_force_quda.cu:22

quda::KSLongLinkArg::threads
int threads
Definition: ks_force_quda.cu:193

quda::LatticeField::VolString
const char * VolString() const
Definition: lattice_field.h:624

quda::KSForceComplete::sharedBytesPerBlock
unsigned int sharedBytesPerBlock(const TuneParam &param) const
Definition: ks_force_quda.cu:109

quda::KSForceComplete::apply
void apply(const cudaStream_t &stream)
Definition: ks_force_quda.cu:123

quda
Definition: blas_cublas.h:5

param
QudaGaugeParam param
Definition: pack_test.cpp:17

quda::KSForceComplete::minThreads
unsigned int minThreads() const
Definition: ks_force_quda.cu:113

quda::KSLongLinkForce::minThreads
unsigned int minThreads() const
Definition: ks_force_quda.cu:322

quda::Tunable
Definition: tune_quda.h:59

quda::KSLongLinkArg::res
Result res
Definition: ks_force_quda.cu:199

qudaDeviceSynchronize
#define qudaDeviceSynchronize()
Definition: quda_cuda_api.h:145

quda::completeKSForceCore
__host__ __device__ void completeKSForceCore(KSForceArg< Oprod, Gauge, Mom > &arg, int idx)
Definition: ks_force_quda.cu:43

quda::KSForceComplete::~KSForceComplete
virtual ~KSForceComplete()
Definition: ks_force_quda.cu:121

quda::KSLongLinkForce::tuneKey
TuneKey tuneKey() const
Definition: ks_force_quda.cu:343

quda::KSLongLinkForce::KSLongLinkForce
KSLongLinkForce(KSLongLinkArg< Result, Oprod, Gauge > &arg, const GaugeField &meta, QudaFieldLocation location)
Definition: ks_force_quda.cu:325

quda::KSForceComplete
Definition: ks_force_quda.cu:101

quda::KSLongLinkForce::tuneGridDim
bool tuneGridDim() const
Definition: ks_force_quda.cu:321

gauge_field_order.h
Main header file for host and device accessors to GaugeFields.

X
int X[4]
Definition: covdev_test.cpp:70

quda::KSForceComplete::tuneGridDim
bool tuneGridDim() const
Definition: ks_force_quda.cu:112

quda::KSLongLinkForce::location
const QudaFieldLocation location
Definition: ks_force_quda.cu:314

quda::KSForceComplete::tuneKey
TuneKey tuneKey() const
Definition: ks_force_quda.cu:134

quda::KSForceArg::gauge
Gauge gauge
Definition: ks_force_quda.cu:23

tune_quda.h

quda::KSLongLinkForce::meta
const GaugeField & meta
Definition: ks_force_quda.cu:313

quda::KSLongLinkForce::flops
long long flops() const
Definition: ks_force_quda.cu:345

quda::KSForceComplete::bytes
long long bytes() const
Definition: ks_force_quda.cu:137

quda_matrix.h

QUDA_DOUBLE_PRECISION
Definition: enum_quda.h:62

QudaFieldLocation
enum QudaFieldLocation_s QudaFieldLocation

index_helper.cuh

quda::KSForceArg::X
int X[4]
Definition: ks_force_quda.cu:16

QUDA_SINGLE_PRECISION
Definition: enum_quda.h:61

quda::computeKSLongLinkForceCore
__host__ __device__ void computeKSLongLinkForceCore(KSLongLinkArg< Result, Oprod, Gauge > &arg, int idx)
Definition: ks_force_quda.cu:222

quda::KSLongLinkForce
Definition: ks_force_quda.cu:309

quda::KSForceArg
Definition: ks_force_quda.cu:14

quda::KSLongLinkForce::~KSLongLinkForce
virtual ~KSLongLinkForce()
Definition: ks_force_quda.cu:330

quda::KSLongLinkArg
Definition: ks_force_quda.cu:192

quda::blas::flops
unsigned long long flops
Definition: blas_quda.cu:22

quda::KSLongLinkArg::gauge
Gauge gauge
Definition: ks_force_quda.cu:201

quda::computeKSLongLinkForce
void computeKSLongLinkForce(Result res, Oprod oprod, Gauge gauge, int dim[4], const GaugeField &meta, QudaFieldLocation location)
Definition: ks_force_quda.cu:353

quda::arg
__host__ __device__ ValueType arg(const complex< ValueType > &z)
Returns the phase angle of z.
Definition: complex_quda.h:1076

quda::KSForceArg::mom
Mom mom
Definition: ks_force_quda.cu:24

quda::clover::FloatNOrder
Accessor routine for CloverFields in native field order.
Definition: clover_field_order.h:541

quda::makeAntiHerm
__device__ __host__ void makeAntiHerm(Matrix< Complex, N > &m)
Definition: quda_matrix.h:746

quda::KSLongLinkForce::sharedBytesPerBlock
unsigned int sharedBytesPerBlock(const TuneParam &param) const
Definition: ks_force_quda.cu:318

quda::GaugeField::Reconstruct
QudaReconstructType Reconstruct() const
Definition: gauge_field.h:250

quda::computeKSLongLinkForceCPU
void computeKSLongLinkForceCPU(KSLongLinkArg< Result, Oprod, Gauge > &arg)
Definition: ks_force_quda.cu:298

ks_force_quda.h

quda::KSLongLinkForce::sharedBytesPerThread
unsigned int sharedBytesPerThread() const
Definition: ks_force_quda.cu:317

quda::KSLongLinkForce::apply
void apply(const cudaStream_t &stream)
Definition: ks_force_quda.cu:332

quda::KSForceComplete::meta
const GaugeField & meta
Definition: ks_force_quda.cu:104

quda::LatticeField::Precision
QudaPrecision Precision() const
Definition: lattice_field.h:546

quda::KSLongLinkArg::KSLongLinkArg
KSLongLinkArg(Result &res, Oprod &oprod, Gauge &gauge, int dim[4])
Definition: ks_force_quda.cu:203

parity
QudaParity parity
Definition: covdev_test.cpp:54

quda::KSLongLinkForce::tuneSharedBytes
bool tuneSharedBytes() const
Definition: ks_force_quda.cu:320

gauge_field.h

quda::Matrix
Definition: quda_matrix.h:64

quda::KSLongLinkArg::oprod
Oprod oprod
Definition: ks_force_quda.cu:200

quda::KSForceComplete::arg
KSForceArg< Oprod, Gauge, Mom > arg
Definition: ks_force_quda.cu:103

quda::TuneKey
Definition: tune_key.h:8

quda::getCoords
__host__ __device__ int getCoords(int coord[], const Arg &arg, int &idx, int parity, int &dim)
Compute the space-time coordinates we are at.
Definition: dslash_helper.cuh:88

quda::KSLongLinkForce::bytes
long long bytes() const
Definition: ks_force_quda.cu:346

quda::LatticeField::X
const int * X() const
Definition: lattice_field.h:499

quda_internal.h

quda::GaugeField
Definition: gauge_field.h:164