quda-ref/v1.0.0/shift__quark__field_8cu_source.html

 #include <cstdio>
 #include <cstdlib>
 #include <cuda.h>
 #include <quda_internal.h>

 namespace quda {

   template<typename Output, typename Input>
     struct ShiftColorSpinorFieldArg {
       const unsigned int length;
       unsigned int X[4];
 #ifdef MULTI_GPU
       const usigned int ghostOffset; // depends on the direction
 #endif
       const unsigned int parity;
       const unsigned int dir;
       bool partitioned[4];
       const int shift;
       Input in;
       Output out;
       ShiftColorSpinorFieldArg(const unsigned int length,
           const unsigned int X[4],
           const unsigned int ghostOffset,
           const unsigned int parity,
           const unsigned int dir,
           const int shift,
           const Input& in,
           const Output& out) : length(length),
 #ifdef MULTI_GPU
       ghostOffset(ghostOffset),
 #endif
       parity(parity), dir(dir), shift(shift),  in(in), out(out)
       {
         for(int i=0; i<4; ++i) this->X[i] = X[i];
         for(int i=0; i<4; ++i) partitioned[i] = commDimPartitioned(i) ? true : false;
       }
     };

   template<IndexType idxType, typename Int>
     __device__ __forceinline__
     int neighborIndex(const unsigned int& cb_idx, const int (&shift)[4], const bool (&partitioned)[4], const unsigned int& parity){

       int idx;
       Int x, y, z, t;

       coordsFromIndex(full_idx, x, y, z, t, cb_idx, parity);

 #ifdef MULTI_GPU
       if(partitioned[0])
         if( (x+shift[0])<0 || (x+shift[0])>=X1) return -1;
       if(partitioned[1])
         if( (y+shift[1])<0 || (y+shift[1])>=X2) return -1;
       if(partitioned[2])
         if( (z+shift[2])<0 || (z+shift[2])>=X3) return -1;
       if(partitioned[3])
         if( (z+shift[3])<0 || (z+shift[3])>=X4) return -1;
 #endif

       x = shift[0] ? (x + shift[0] + X1) % X1 : x;
       y = shift[1] ? (y + shift[1] + X2) % X2 : y;
       z = shift[2] ? (z + shift[2] + X3) % X3 : z;
       t = shift[3] ? (t + shift[3] + X4) % X4 : t;
       return  (((t*X3 + z)*X2 + y)*X1 + x) >> 1;
     }


   template <typename FloatN, int N, typename Output, typename Input>
     __global__ void shiftColorSpinorFieldKernel(ShiftQuarkArg<Output,Input> arg){

       int shift[4] = {0,0,0,0};
       shift[arg.dir] = arg.shift;

       unsigned int idx = blockIdx.x*(blockDim.x) + threadIdx.x;
       unsigned int gridSize = gridDim.x*blockDim.x;

       FloatN x[N];
       while(idx<arg.length){
         const int new_idx = neighborIndex(idx, shift, arg.partitioned, arg.parity);
 #ifdef MULTI_GPU
         if(new_idx > 0){
 #endif
           arg.in.load(x, new_idx);
           arg.out.save(x, idx);
 #ifdef MULTI_GPU
         }
 #endif
         idx += gridSize;
       }
       return;
     }

   template<typename FloatN, int N, typename Output, typename Input>
     __global__ void shiftColorSpinorFieldExternalKernel(ShiftQuarkArg<Output,Input> arg){

       unsigned int idx = blockIdx.x*(blockDim.x) + threadIdx.x;
       unsigned int gridSize = gridDim.x*blockDim.x;

       Float x[N];
       unsigned int coord[4];
       while(idx<arg.length){

         // compute the coordinates in the ghost zone
         coordsFromIndex<1>(coord, idx, arg.X, arg.dir, arg.parity);

         unsigned int ghost_idx = arg.ghostOffset + ghostIndexFromCoords<3,3>(arg.X, coord, arg.dir, arg.shift);

         arg.in.load(x, ghost_idx);
         arg.out.save(x, idx);

         idx += gridSize;
       }


       return;
     }

   template<typename Output, typename Input>
     class ShiftColorSpinorField : public Tunable {

       private:
         ShiftColorSpinorFieldArg<Output,Input> arg;
         const int *X; // pointer to lattice dimensions

         int sharedBytesPerThread() const { return 0; }
         int sharedBytesPerBlock(const TuneParam &) cont { return 0; }

         // don't tune the grid dimension
         bool advanceGridDim(TuneParam & param) const { return false; }

         bool advanceBlockDim(TuneParam &param) const
         {
           const unsigned int max_threads = deviceProp.maxThreadsDim[0];
           const unsigned int max_blocks = deviceProp.maxGridSize[0];
           const unsigned int max_shared = 16384;
           const int step = deviceProp.warpSize;
           const int threads = arg.length;
           bool ret;

           param.block.x += step;
           if(param.block.x > max_threads || sharedBytesPerThread()*param.block.x > max_shared){
             param.block = dim3((threads+max_blocks-1)/max_blocks, 1, 1); // ensure the blockDim is large enough given the limit on gridDim
             param.block.x = ((param.block.x+step-1)/step)*step;
             if(param.block.x > max_threads) errorQuda("Local lattice volume is too large for device");
             ret = false;
           }else{
             ret = true;
           }
           param.grid = dim3((threads+param.block.x-1)/param.block.x,1,1);
           return ret;
         }


       public:
         ShiftColorSpinorField(const ShiftColorSpinorField<Output,Input> &arg,
             QudaFieldLocation location)
           : arg(arg), location(location)  {}
         virtual ~ShiftColorSpinorField() {}

         void apply(const cudaStream_t &stream){
           if(location == QUDA_CUDA_FIELD_LOCATION){
             TuneParam tp = tuneLaunch(*this, getTuning(), getVerbosity());
             shiftColorSpinorFieldKernel<Output,Input><<<tp.grid,tp.block,tp.shared_bytes>>>(arg);
 #ifdef MULTI_GPU
             // Need to perform some communication and call exterior kernel, I guess
 #endif
           }else{ // run the CPU code
             errorQuda("ShiftColorSpinorField is not yet implemented on the CPU\n");
           }
         } // apply

         virtual void initTuneParam(TuneParam &param) const
         {
           const unsigned int max_threads = deviceProp.maxThreadsDim[0];
           const unsigned int max_blocks = deviceProp.maxGridSize[0];
           const int threads = arg.length;
           const int step = deviceProp.warpSize;
           param.block = dim3((threads+max_blocks-1)/max_blocks, 1, 1); // ensure the blockDim is large enough, given the limit on gridDim
           param.block.x = ((param.block.x+step-1) / step) * step; // round up to the nearest "step"
           if (param.block.x > max_threads) errorQuda("Local lattice volume is too large for device");
           param.grid = dim3((threads+param.block.x-1)/param.block.x, 1, 1);
           param.shared_bytes = sharedBytesPerThread()*param.block.x > sharedBytesPerBlock(param) ?
             sharedBytesPerThread()*param.block.x : sharedBytesPerBlock(param);
         }

         void defaultTuneParam(TuneParam &param) const {
           initTuneParam(param);
         }

         long long flops() const { return 0; } // fixme
         long long bytes() const { return 0; } // fixme

         TuneKey tuneKey() const {
           std::stringstream vol, aux;
           vol << X[0] << "x";
           vol << X[1] << "x";
           vol << X[2] << "x";
           vol << X[3] << "x";
           aux << "threads=" << 2*arg.in.volumeCB << ",prec=" << sizeof(Complex)/2;
           aux << "stride=" << arg.in.stride;
           return TuneKey(vol.str(), typeid(*this).name(), aux.str());
         }
     };


   // Should really have a parity
   void shiftColorSpinorField(cudaColorSpinorField &dst, const cudaColorSpinorField &src, const unsigned int parity, const unsigned int dim, const int shift) {

     if(&src == &dst){
       errorQuda("destination field is the same as source field\n");
       return;
     }

     if(src.Nspin() != 1 && src.Nspin() !=4) errorQuda("nSpin(%d) not supported\n", src.Nspin());

     if(src.SiteSubset() != dst.SiteSubset())
       errorQuda("Spinor fields do not have matching subsets\n");

     if(src.SiteSubset() == QUDA_FULL_SITE_SUBSET){
       if(shift&1){
         shiftColorSpinorField(dst.Even(), src.Odd(), 0, dim, shift);
         shiftColorSpinorField(dst.Odd(), src.Even(), 1, dim, shift);
       }else{
         shiftColorSpinorField(dst.Even(), src.Even(), 0, dim, shift);
         shiftColorSpinorField(dst.Odd(), src.Odd(), 1, dim, shift);
       }
       return;
     }

 #ifdef MULTI_GPU
     const int dir = (shift>0) ? QUDA_BACKWARDS : QUDA_FORWARDS; // pack the start of the field if shift is positive
     const int offset = (shift>0) ? 0 : 1;
 #endif


     if(dst.Precision() == QUDA_DOUBLE_PRECISION && src.Precision() == QUDA_DOUBLE_PRECISION){
       if(src.Nspin() == 1){
         Spinor<double2, double2, double2, 3, 0, 0> src_tex(src);
         Spinor<double2, double2, double2, 3, 1> dst_spinor(dst);
         ShiftColorSpinorFieldArg arg(src.Volume(), parity, dim, shift, dst_spinor, src_tex);
         ShiftColorSpinorField shiftColorSpinor(arg, QUDA_CPU_FIELD_LOCATION);

 #ifdef MULTI_GPU
         if(commDimPartitioned(dim) && dim!=3){
           face->pack(src, 1-parity, dagger, dim, dir, streams); // pack in stream[1]
           qudaEventRecord(packEnd, streams[1]);
           qudaStreamWaitEvent(streams[1], packEnd, 0); // wait for pack to end in stream[1]
           face->gather(src, dagger, 2*dim+offset, 1); // copy packed data from device buffer to host and do this in stream[1]
           qudaEventRecord(gatherEnd, streams[1]); // record the completion of face->gather
         }
 #endif

         shiftColorSpinor.apply(0); // shift the field in the interior region

 #ifdef MULTI_GPU
         if(commDimPartitioned(dim) && dim!=3){
           while(1){
             cudaError_t eventQuery = cudaEventQuery(gatherEnd);
             if(eventQuery == cudaSuccess){
               face->commsStart(2*dim + offset); // if argument is even, send backwards, else send forwards
               break;
             }
           }

           // after communication, load data back on to device
           // do this in stream[1]
           while(1){
             if(face->commsQuery(2*dim + offset)){
               face->scatter(src, dagger, 2*dim+offset, 1);
               break;
             }
           } // while(1)
           qudaEventRecord(scatterEnd, streams[1]);
           qudaStreamWaitEvent(streams[1], scatterEnd, 0);
           shiftColorSpinor.apply(1);
         }
 #endif

       }else{
         errorQuda("Only staggered fermions are currently supported\n");
       }
     }else if(dst.Precision() == QUDA_SINGLE_PRECISION && src.Precision() == QUDA_SINGLE_PRECISION){
       if(src.Nspin() == 1 ){
         Spinor<float2, float2, float2, 3, 0, 0> src_tex(src);
         Spinor<float2, float2, float2, 3, 1> dst_spinor(dst);
         ShiftColorSpinorFieldArg arg(src.Volume(), parity, dim, shift, dst_spinor, src_tex);
         ShiftColorSpinorField shiftColorSpinor(arg, QUDA_CPU_FIELD_LOCATION);
       }else{
         errorQuda("Only staggered fermions are currently supported\n");
       }
     }
     return;
   }


 } // namespace quda

QUDA_BACKWARDS
Definition: enum_quda.h:462

quda::neighborIndex
__device__ __forceinline__ int neighborIndex(const unsigned int &cb_idx, const int(&shift)[4], const bool(&partitioned)[4], const unsigned int &parity)
Definition: shift_quark_field.cu:41

quda::ColorSpinorField::Nspin
int Nspin() const
Definition: color_spinor_field.h:406

quda::TuneParam
Definition: tune_quda.h:17

commDimPartitioned
int commDimPartitioned(int dir)
Definition: comm_common.cpp:815

quda::ShiftColorSpinorField::X
const int * X
Definition: shift_quark_field.cu:122

quda::ShiftColorSpinorField::ShiftColorSpinorField
ShiftColorSpinorField(const ShiftColorSpinorField< Output, Input > &arg, QudaFieldLocation location)
Definition: shift_quark_field.cu:154

quda::ShiftColorSpinorField::apply
void apply(const cudaStream_t &stream)
Definition: shift_quark_field.cu:159

deviceProp
cudaDeviceProp deviceProp
Definition: interface_quda.cpp:156

quda::qudaStreamWaitEvent
cudaError_t qudaStreamWaitEvent(cudaStream_t stream, cudaEvent_t event, unsigned int flags)
Wrapper around cudaEventRecord or cuEventRecord.
Definition: quda_cuda_api.cpp:249

getVerbosity
QudaVerbosity getVerbosity()
Definition: util_quda.cpp:21

quda::ShiftColorSpinorFieldArg::length
const unsigned int length
Definition: shift_quark_field.cu:10

quda::ShiftColorSpinorFieldArg::partitioned
bool partitioned[4]
Definition: shift_quark_field.cu:17

X2
static int X2
Definition: face_gauge.cpp:42

errorQuda
#define errorQuda(...)
Definition: util_quda.h:121

QUDA_CUDA_FIELD_LOCATION
Definition: enum_quda.h:326

quda::shiftColorSpinorField
void shiftColorSpinorField(cudaColorSpinorField &dst, const cudaColorSpinorField &src, const unsigned int parity, const unsigned int dim, const int shift)
Definition: shift_quark_field.cu:207

streams
cudaStream_t * streams
Definition: interface_quda.cpp:157

quda::ShiftColorSpinorField::initTuneParam
virtual void initTuneParam(TuneParam &param) const
Definition: shift_quark_field.cu:171

quda::stream
cudaStream_t * stream
Definition: cuda_color_spinor_field.cpp:897

QUDA_FULL_SITE_SUBSET
Definition: enum_quda.h:333

quda::ColorSpinorField::Even
const ColorSpinorField & Even() const
Definition: color_spinor_field.cpp:608

quda::ColorSpinorField::Odd
const ColorSpinorField & Odd() const
Definition: color_spinor_field.cpp:616

quda::shiftColorSpinorFieldKernel
__global__ void shiftColorSpinorFieldKernel(ShiftQuarkArg< Output, Input > arg)
Definition: shift_quark_field.cu:68

quda::ShiftColorSpinorFieldArg::in
Input in
Definition: shift_quark_field.cu:19

quda::TuneParam::shared_bytes
int shared_bytes
Definition: tune_quda.h:22

quda::cudaColorSpinorField
Definition: color_spinor_field.h:575

quda::ColorSpinorField::Volume
int Volume() const
Definition: color_spinor_field.h:415

quda::TuneParam::grid
dim3 grid
Definition: tune_quda.h:21

quda
Definition: blas_cublas.h:5

quda::ShiftColorSpinorField::defaultTuneParam
void defaultTuneParam(TuneParam &param) const
Definition: shift_quark_field.cu:186

param
QudaGaugeParam param
Definition: pack_test.cpp:17

quda::shiftColorSpinorFieldExternalKernel
__global__ void shiftColorSpinorFieldExternalKernel(ShiftQuarkArg< Output, Input > arg)
Definition: shift_quark_field.cu:93

quda::ShiftColorSpinorField::sharedBytesPerThread
int sharedBytesPerThread() const
Definition: shift_quark_field.cu:124

quda::Tunable
Definition: tune_quda.h:59

quda::ShiftColorSpinorFieldArg::parity
const unsigned int parity
Definition: shift_quark_field.cu:15

quda::TuneParam::block
dim3 block
Definition: tune_quda.h:20

quda::ShiftColorSpinorFieldArg::ShiftColorSpinorFieldArg
ShiftColorSpinorFieldArg(const unsigned int length, const unsigned int X[4], const unsigned int ghostOffset, const unsigned int parity, const unsigned int dir, const int shift, const Input &in, const Output &out)
Definition: shift_quark_field.cu:21

quda::ShiftColorSpinorField::advanceGridDim
bool advanceGridDim(TuneParam &param) const
Definition: shift_quark_field.cu:128

coordsFromIndex
static __device__ __forceinline__ void coordsFromIndex(int &idx, T *x, int &cb_idx, const Param &param)
Compute coordinates from index into the checkerboard (used by the interior Dslash kernels)...
Definition: dslash_index.cuh:352

quda::ShiftColorSpinorFieldArg::X
unsigned int X[4]
Definition: shift_quark_field.cu:11

quda::ColorSpinorField::SiteSubset
QudaSiteSubset SiteSubset() const
Definition: color_spinor_field.h:481

quda::tuneLaunch
TuneParam & tuneLaunch(Tunable &tunable, QudaTune enabled, QudaVerbosity verbosity)
Definition: tune.cpp:643

quda::dslash::packEnd
cudaEvent_t packEnd[2]
Definition: dslash_quda.cu:55

quda::ShiftColorSpinorField::sharedBytesPerBlock
int sharedBytesPerBlock(const TuneParam &) cont
Definition: shift_quark_field.cu:125

quda::Complex
std::complex< double > Complex
Definition: quda_internal.h:46

quda::ShiftColorSpinorField::arg
ShiftColorSpinorFieldArg< Output, Input > arg
Definition: shift_quark_field.cu:121

quda::ShiftColorSpinorField
Definition: shift_quark_field.cu:118

X3
static int X3
Definition: face_gauge.cpp:42

X1
static int X1
Definition: face_gauge.cpp:42

quda::ShiftColorSpinorFieldArg::dir
const unsigned int dir
Definition: shift_quark_field.cu:16

quda::ShiftColorSpinorFieldArg::shift
const int shift
Definition: shift_quark_field.cu:18

quda::ShiftColorSpinorField::bytes
long long bytes() const
Definition: shift_quark_field.cu:191

QUDA_DOUBLE_PRECISION
Definition: enum_quda.h:62

QudaFieldLocation
enum QudaFieldLocation_s QudaFieldLocation

QUDA_SINGLE_PRECISION
Definition: enum_quda.h:61

quda::ShiftColorSpinorField::advanceBlockDim
bool advanceBlockDim(TuneParam &param) const
Definition: shift_quark_field.cu:130

quda::ShiftColorSpinorFieldArg::out
Output out
Definition: shift_quark_field.cu:20

quda::dslash::scatterEnd
cudaEvent_t scatterEnd[Nstream]
Definition: dslash_quda.cu:59

quda::arg
__host__ __device__ ValueType arg(const complex< ValueType > &z)
Returns the phase angle of z.
Definition: complex_quda.h:1076

QUDA_FORWARDS
Definition: enum_quda.h:463

quda::qudaEventRecord
cudaError_t qudaEventRecord(cudaEvent_t &event, cudaStream_t stream=0)
Wrapper around cudaEventRecord or cuEventRecord.
Definition: quda_cuda_api.cpp:230

Spinor
Definition: texture.h:288

quda::ShiftColorSpinorField::~ShiftColorSpinorField
virtual ~ShiftColorSpinorField()
Definition: shift_quark_field.cu:157

getTuning
QudaTune getTuning()
Query whether autotuning is enabled or not. Default is enabled but can be overridden by setting QUDA_...
Definition: util_quda.cpp:52

quda::LatticeField::Precision
QudaPrecision Precision() const
Definition: lattice_field.h:546

dagger
QudaDagType dagger
Definition: test_util.cpp:1620

quda::ShiftColorSpinorField::flops
long long flops() const
Definition: shift_quark_field.cu:190

QUDA_CPU_FIELD_LOCATION
Definition: enum_quda.h:325

quda::ShiftColorSpinorFieldArg
Definition: shift_quark_field.cu:9

quda::TuneKey
Definition: tune_key.h:8

quda::dslash::gatherEnd
cudaEvent_t gatherEnd[Nstream]
Definition: dslash_quda.cu:57

X4
static int X4
Definition: face_gauge.cpp:42

quda_internal.h

quda::ShiftColorSpinorField::tuneKey
TuneKey tuneKey() const
Definition: shift_quark_field.cu:193