v0.9.0/doc/dslash__domain__wall__4d_8cu_source.html

 #include <cstdlib>
 #include <cstdio>
 #include <string>
 #include <iostream>

 #include <color_spinor_field.h>
 #include <clover_field.h>

 // these control the Wilson-type actions
 #ifdef GPU_WILSON_DIRAC
 //#define DIRECT_ACCESS_LINK
 //#define DIRECT_ACCESS_WILSON_SPINOR
 //#define DIRECT_ACCESS_WILSON_ACCUM
 //#define DIRECT_ACCESS_WILSON_INTER
 //#define DIRECT_ACCESS_WILSON_PACK_SPINOR
 //#define DIRECT_ACCESS_CLOVER
 #endif // GPU_WILSON_DIRAC

 #include <quda_internal.h>
 #include <dslash_quda.h>
 #include <sys/time.h>
 #include <blas_quda.h>

 #include <inline_ptx.h>

 namespace quda {

   namespace domainwall4d {

 #undef GPU_STAGGERED_DIRAC
 #include <dslash_constants.h>
 #include <dslash_textures.h>
 #include <dslash_index.cuh>

     // Enable shared memory dslash for Fermi architecture
     //#define SHARED_WILSON_DSLASH
     //#define SHARED_8_BYTE_WORD_SIZE // 8-byte shared memory access

 #ifdef GPU_DOMAIN_WALL_DIRAC
 #include <dw_dslash4_def.h>       // Dslash4 Domain Wall kernels
 #include <dw_dslash5_def.h>       // Dslash5 Domain Wall kernels
 #include <dw_dslash5inv_def.h>    // Dslash5inv Domain Wall kernels
 #endif

 #ifndef DSLASH_SHARED_FLOATS_PER_THREAD
 #define DSLASH_SHARED_FLOATS_PER_THREAD 0
 #endif

 #include <dslash_quda.cuh>
   }

   // declare the dslash events
 #include <dslash_events.cuh>

   using namespace domainwall4d;

 #ifdef GPU_DOMAIN_WALL_DIRAC
   template <typename sFloat, typename gFloat>
   class DomainWallDslash4DPCCuda : public DslashCuda {

   private:
     const int DS_type;

     bool checkGrid(TuneParam &param) const {
       if (param.grid.x > (unsigned int)deviceProp.maxGridSize[0] || param.grid.y > (unsigned int)deviceProp.maxGridSize[1]) {
         warningQuda("Autotuner is skipping blockDim=(%u,%u,%u), gridDim=(%u,%u,%u) because lattice volume is too large",
                     param.block.x, param.block.y, param.block.z, param.grid.x, param.grid.y, param.grid.z);
         return false;
       } else {
         return true;
       }
     }

   protected:
     bool advanceBlockDim(TuneParam &param) const
     {
       const unsigned int max_shared = 16384; // FIXME: use deviceProp.sharedMemPerBlock;
       const int step[2] = { deviceProp.warpSize, 1 };
       bool advance[2] = { false, false };

       // first try to advance block.x
       param.block.x += step[0];
       if (param.block.x > (unsigned int)deviceProp.maxThreadsDim[0] ||
           sharedBytesPerThread()*param.block.x*param.block.y > max_shared) {
         advance[0] = false;
         param.block.x = step[0]; // reset block.x
       } else {
         advance[0] = true; // successfully advanced block.x
       }

       if (!advance[0]) {  // if failed to advance block.x, now try block.y
         param.block.y += step[1];

         if (param.block.y > (unsigned)in->X(4) ||
             sharedBytesPerThread()*param.block.x*param.block.y > max_shared) {
           advance[1] = false;
           param.block.y = step[1]; // reset block.x
         } else {
           advance[1] = true; // successfully advanced block.y
         }
       }

       if (advance[0] || advance[1]) {
         param.grid = dim3( (dslashParam.threads+param.block.x-1) / param.block.x,
             (in->X(4)+param.block.y-1) / param.block.y, 1);

         bool advance = true;
         if (!checkGrid(param)) advance = advanceBlockDim(param);
         return advance;
       } else {
         return false;
       }
     }

     unsigned int sharedBytesPerThread() const { return 0; }

   public:
     DomainWallDslash4DPCCuda(cudaColorSpinorField *out, const GaugeField &gauge, const cudaColorSpinorField *in,
            const cudaColorSpinorField *x, const double mferm,
            const double a, const double b, const int parity, const int dagger, const int *commOverride, const int DS_type)
       : DslashCuda(out, in, x, gauge, parity, dagger, commOverride), DS_type(DS_type)
     {
       dslashParam.a = a;
       dslashParam.a_f = a;
       dslashParam.b = b;
       dslashParam.b_f = b;
       dslashParam.mferm = mferm;
       dslashParam.mferm_f = mferm;
     }
     virtual ~DomainWallDslash4DPCCuda() { unbindSpinorTex<sFloat>(in, out, x); }

     TuneKey tuneKey() const
     {
       TuneKey key = DslashCuda::tuneKey();
       switch(DS_type){
       case 0:
   strcat(key.aux,",Dslash4");
   break;
       case 1:
   strcat(key.aux,",Dslash5");
   break;
       case 2:
   strcat(key.aux,",Dslash5inv");
   break;
       }
       return key;
     }

     virtual void initTuneParam(TuneParam &param) const
     {
       Tunable::initTuneParam(param);
       param.grid = dim3( (dslashParam.threads+param.block.x-1) / param.block.x,
        (in->X(4)+param.block.y-1) / param.block.y, 1);
       bool ok = true;
       if (!checkGrid(param)) ok = advanceBlockDim(param);
       if (!ok) errorQuda("Lattice volume is too large for even the largest blockDim");
     }

     virtual void defaultTuneParam(TuneParam &param) const
     {
       Tunable::defaultTuneParam(param);
       param.grid = dim3( (dslashParam.threads+param.block.x-1) / param.block.x,
        (in->X(4)+param.block.y-1) / param.block.y, 1);
       bool ok = true;
       if (!checkGrid(param)) ok = advanceBlockDim(param);
       if (!ok) errorQuda("Lattice volume is too large for even the largest blockDim");
     }

     void apply(const cudaStream_t &stream)
     {
 #ifndef USE_TEXTURE_OBJECTS
       if (dslashParam.kernel_type == INTERIOR_KERNEL) bindSpinorTex<sFloat>(in, out, x);
 #endif // USE_TEXTURE_OBJECTS
       TuneParam tp = tuneLaunch(*this, getTuning(), getVerbosity());
       setParam();

       switch(DS_type){
         case 0:
           DSLASH(domainWallDslash4, tp.grid, tp.block, tp.shared_bytes, stream, dslashParam);
           break;
         case 1:
           DSLASH(domainWallDslash5, tp.grid, tp.block, tp.shared_bytes, stream, dslashParam);
           break;
         case 2:
           DSLASH(domainWallDslash5inv, tp.grid, tp.block, tp.shared_bytes, stream, dslashParam);
           break;
         default:
           errorQuda("invalid Dslash type");
       }
     }

     long long flops() const {
       long long Ls = in->X(4);
       long long vol4d = in->VolumeCB() / Ls;
       long long bulk = (Ls-2)*vol4d;
       long long wall = 2*vol4d;
       long long flops = 0;
       switch(DS_type){
         case 0:
           flops = DslashCuda::flops();
           break;
         case 1:
           flops = (x ? 48ll : 0 ) * in->VolumeCB() + 96ll*bulk + 120ll*wall;
           break;
         case 2:
           flops = 144ll*in->VolumeCB()*Ls + 3ll*Ls*(Ls-1ll);
           break;
         default:
           errorQuda("invalid Dslash type");
       }
       return flops;
     }

     long long bytes() const {
       bool isHalf = in->Precision() == sizeof(short) ? true : false;
       int spinor_bytes = 2 * in->Ncolor() * in->Nspin() * in->Precision() + (isHalf ? sizeof(float) : 0);
       long long Ls = in->X(4);
       long long bytes = 0;

       switch(DS_type){
       case 0:
   bytes = DslashCuda::bytes();
   break;
       case 1:
   bytes = (x ? 5ll : 4ll ) * spinor_bytes * in->VolumeCB();
   break;
       case 2:
   bytes = (x ? Ls + 2 : Ls + 1) * spinor_bytes * in->VolumeCB();
   break;
       default:
   errorQuda("invalid Dslash type");
       }
       return bytes;
     }
   };
 #endif // GPU_DOMAIN_WALL_DIRAC

 #include <dslash_policy.cuh>


   //-----------------------------------------------------
   // Modification for 4D preconditioned DWF operator
   // Additional Arg. is added to give a function name.
   //
   // pre-defined DS_type list
   // 0 = dslash4
   // 1 = dslash5
   // 2 = dslash5inv
   //-----------------------------------------------------

   void domainWallDslashCuda(cudaColorSpinorField *out, const cudaGaugeField &gauge,
           const cudaColorSpinorField *in, const int parity, const int dagger,
           const cudaColorSpinorField *x, const double &m_f, const double &a, const double &b,
           const int *commOverride, const int DS_type, TimeProfile &profile)
   {
 #ifdef GPU_DOMAIN_WALL_DIRAC
     const_cast<cudaColorSpinorField*>(in)->createComms(1);

     DslashCuda *dslash = nullptr;
     if (in->Precision() == QUDA_DOUBLE_PRECISION) {
       dslash = new DomainWallDslash4DPCCuda<double2,double2>(out, gauge, in, x, m_f, a, b, parity, dagger, commOverride, DS_type);
     } else if (in->Precision() == QUDA_SINGLE_PRECISION) {
       dslash = new DomainWallDslash4DPCCuda<float4,float4>(out, gauge, in, x, m_f, a, b, parity, dagger, commOverride, DS_type);
     } else if (in->Precision() == QUDA_HALF_PRECISION) {
       dslash = new DomainWallDslash4DPCCuda<short4,short4>(out, gauge, in, x, m_f, a, b, parity, dagger, commOverride, DS_type);
     }

     // the parameters passed to dslashCuda must be 4-d volume and 3-d
     // faces because Ls is added as the y-dimension in thread space
     int ghostFace[QUDA_MAX_DIM];
     for (int i=0; i<4; i++) ghostFace[i] = in->GhostFace()[i] / in->X(4);

     DslashPolicyImp* dslashImp = nullptr;
     if (DS_type != 0) {
       dslashImp = DslashFactory::create(QudaDslashPolicy::QUDA_DSLASH_NC);
       (*dslashImp)(*dslash, const_cast<cudaColorSpinorField*>(in), in->Volume()/in->X(4), ghostFace, profile);
       delete dslashImp;
     } else {
       DslashPolicyTune dslash_policy(*dslash, const_cast<cudaColorSpinorField*>(in), in->Volume()/in->X(4), ghostFace, profile);
       dslash_policy.apply(0);
     }

     delete dslash;
 #else
     errorQuda("4D preconditioned Domain wall dslash has not been built");
 #endif
   }

 }
inline_ptx.h

DslashCuda::bytes
virtual long long bytes() const
Definition: dslash_quda.cuh:693

dslash_policy.cuh

deviceProp
cudaDeviceProp deviceProp
Definition: interface_quda.cpp:152

quda::blas::setParam
void setParam(int kernel, int prec, int threads, int blocks)

getVerbosity
QudaVerbosity getVerbosity()
Definition: util_quda.cpp:20

errorQuda
#define errorQuda(...)
Definition: util_quda.h:90

color_spinor_field.h

QUDA_HALF_PRECISION
Definition: enum_quda.h:59

quda::stream
cudaStream_t * stream
Definition: cuda_color_spinor_field.cu:898

DslashCuda
Definition: dslash_quda.cuh:365

dslash_constants.h

dslash_textures.h

strcat
char * strcat(char *__s1, const char *__s2)

quda::cudaColorSpinorField
Definition: color_spinor_field.h:504

mferm
#define mferm
Definition: dw_dslash4_core.h:81

quda
Definition: blas_cublas.h:6

Ls
int Ls
Definition: test_util.cpp:39

param
QudaGaugeParam param
Definition: pack_test.cpp:17

b
#define b
Definition: dw_dslash4_core.h:83

x
p x
Definition: CMakeCUDACompilerId.cpp1.ii:3011

deg_tm_dslash_cuda_gen.dslash
bool dslash
Definition: deg_tm_dslash_cuda_gen.py:959

deg_tm_dslash_cuda_gen.dagger
bool dagger
Definition: deg_tm_dslash_cuda_gen.py:960

in
cpuColorSpinorField * in
Definition: staggered_invert_test.cpp:44

quda::tuneLaunch
TuneParam & tuneLaunch(Tunable &tunable, QudaTune enabled, QudaVerbosity verbosity)
Definition: tune.cpp:603

fused_exterior_ndeg_tm_dslash_cuda_gen.i
int i
start here
Definition: fused_exterior_ndeg_tm_dslash_cuda_gen.py:816

warningQuda
#define warningQuda(...)
Definition: util_quda.h:101

quda::cudaGaugeField
Definition: gauge_field.h:298

dslash_events.cuh

INTERIOR_KERNEL
Definition: dslash_constants.h:6

clover_field.h

dslash_quda.cuh

blas_quda.h

QUDA_DOUBLE_PRECISION
Definition: enum_quda.h:61

DSLASH
#define DSLASH(FUNC, gridDim, blockDim, shared, stream, param)
Definition: dslash_quda.cuh:169

dw_dslash5_def.h

out
cpuColorSpinorField * out
Definition: staggered_invert_test.cpp:45

dw_dslash4_def.h

QUDA_SINGLE_PRECISION
Definition: enum_quda.h:60

dslash_index.cuh

quda::domainWallDslashCuda
void domainWallDslashCuda(cudaColorSpinorField *out, const cudaGaugeField &gauge, const cudaColorSpinorField *in, const int parity, const int dagger, const cudaColorSpinorField *x, const double &m_f, const double &k, const int *commDim, TimeProfile &profile)
Definition: dslash_domain_wall.cu:203

dslash_quda.h

quda::blas::flops
unsigned long long flops
Definition: blas_quda.cu:42

DslashCuda::tuneKey
virtual TuneKey tuneKey() const
Definition: dslash_quda.cuh:553

quda::TimeProfile
Definition: quda_internal.h:232

quda::Tunable::initTuneParam
virtual void initTuneParam(TuneParam &param) const
Definition: tune_quda.h:230

QUDA_MAX_DIM
#define QUDA_MAX_DIM
Maximum number of dimensions supported by QUDA. In practice, no routines make use of more than 5...
Definition: quda_constants.h:17

float
float
Definition: CMakeCUDACompilerId.cpp1.ii:12791

getTuning
QudaTune getTuning()
Query whether autotuning is enabled or not. Default is enabled but can be overridden by setting QUDA_...
Definition: util_quda.cpp:51

DslashCuda::flops
virtual long long flops() const
Definition: dslash_quda.cuh:651

dw_dslash5inv_def.h

parity
QudaParity parity
Definition: covdev_test.cpp:53

a
#define a
Definition: dw_dslash4_core.h:82

dslash
Definition: dslash_events.cuh:1

quda::blas::bytes
unsigned long long bytes
Definition: blas_quda.cu:43

quda::Tunable::defaultTuneParam
virtual void defaultTuneParam(TuneParam &param) const
Definition: tune_quda.h:254

quda_internal.h