v0.9.0/doc/color__spinor__wuppertal_8cu_source.html

 #include <transfer.h>
 #include <quda_internal.h>
 #include <quda_matrix.h>
 #include <gauge_field.h>
 #include <gauge_field_order.h>
 #include <index_helper.cuh>
 #include <color_spinor.h>
 #include <color_spinor_field.h>
 #include <color_spinor_field_order.h>
 #include <tune_quda.h>

 namespace quda {

   template <typename Float, int Ns, int Nc, QudaReconstructType gRecon>
   struct WuppertalSmearingArg {
     typedef typename colorspinor_mapper<Float,Ns,Nc>::type F;
     typedef typename gauge_mapper<Float,gRecon>::type G;

     F out;                // output vector field
     const F in;           // input vector field
     const G U;            // the gauge field
     const Float A;        // A parameter
     const Float B;        // B parameter
     const int parity;     // only use this for single parity fields
     const int nParity;    // number of parities we're working on
     const int nFace;      // hard code to 1 for now
     const int dim[5];     // full lattice dimensions
     const int commDim[4]; // whether a given dimension is partitioned or not
     const int volumeCB;   // checkerboarded volume

     WuppertalSmearingArg(ColorSpinorField &out, const ColorSpinorField &in, int parity, const GaugeField &U,
                        Float A, Float B)
       : out(out), in(in), U(U), A(A), B(B), parity(parity), nParity(in.SiteSubset()), nFace(1),
         dim{ (3-nParity) * in.X(0), in.X(1), in.X(2), in.X(3), 1 },
       commDim{comm_dim_partitioned(0), comm_dim_partitioned(1), comm_dim_partitioned(2), comm_dim_partitioned(3)},
       volumeCB(in.VolumeCB())
     {
       if (in.FieldOrder() != QUDA_FLOAT2_FIELD_ORDER || !U.isNative())
         errorQuda("Unsupported field order colorspinor=%d gauge=%d combination\n", in.FieldOrder(), U.FieldOrder());
     }
   };

   template <typename Float, int Nc, typename Vector, typename Arg>
   __device__ __host__ inline void computeNeighborSum(Vector &out, Arg &arg, int x_cb, int parity) {

     typedef Matrix<complex<Float>,Nc> Link;
     const int their_spinor_parity = (arg.nParity == 2) ? 1-parity : 0;

     int coord[5];
     getCoords(coord, x_cb, arg.dim, parity);
     coord[4] = 0;

 #pragma unroll
     for (int dir=0; dir<3; dir++) { // loop over spatial directions

       //Forward gather - compute fwd offset for vector fetch
       const int fwd_idx = linkIndexP1(coord, arg.dim, dir);

       if ( arg.commDim[dir] && (coord[dir] + arg.nFace >= arg.dim[dir]) ) {
         const int ghost_idx = ghostFaceIndex<1>(coord, arg.dim, dir, arg.nFace);

         const Link U = arg.U(dir, x_cb, parity);
   const Vector in = arg.in.Ghost(dir, 1, ghost_idx, their_spinor_parity);

         out += U * in;
       } else {
         const Link U = arg.U(dir, x_cb, parity);
   const Vector in = arg.in(fwd_idx, their_spinor_parity);

         out += U * in;
       }

       //Backward gather - compute back offset for spinor and gauge fetch
       const int back_idx = linkIndexM1(coord, arg.dim, dir);
       const int gauge_idx = back_idx;

       if ( arg.commDim[dir] && (coord[dir] - arg.nFace < 0) ) {
         const int ghost_idx = ghostFaceIndex<0>(coord, arg.dim, dir, arg.nFace);

         const Link U = arg.U.Ghost(dir, ghost_idx, 1-parity);
   const Vector in = arg.in.Ghost(dir, 0, ghost_idx, their_spinor_parity);

         out += conj(U) * in;
       } else {
         const Link U = arg.U(dir, gauge_idx, 1-parity);
   const Vector in = arg.in(back_idx, their_spinor_parity);

         out += conj(U) * in;
       }
     }
   }

   //out(x) = A in(x) + B computeNeighborSum(out, x)
   template <typename Float, int Ns, int Nc, typename Arg>
   __device__ __host__ inline void computeWupperalStep(Arg &arg, int x_cb, int parity)
   {
     typedef ColorSpinor<Float,Nc,Ns> Vector;
     Vector out;

     computeNeighborSum<Float,Nc>(out, arg, x_cb, parity);

     Vector in;
     arg.in.load((Float*)in.data, x_cb, parity);
     out = arg.A*in + arg.B*out;

     arg.out(x_cb, parity) = out;
   }

   // CPU kernel for applying a wuppertal smearing step to a vector
   template <typename Float, int Ns, int Nc, typename Arg>
   void wuppertalStepCPU(Arg arg)
   {

     for (int parity= 0; parity < arg.nParity; parity++) {
       // for full fields then set parity from loop else use arg setting
       parity = (arg.nParity == 2) ? parity : arg.parity;

       for (int x_cb = 0; x_cb < arg.volumeCB; x_cb++) { // 4-d volume
         computeWupperalStep<Float,Ns,Nc>(arg, x_cb, parity);
       } // 4-d volumeCB
     } // parity

   }

   // GPU Kernel for applying a wuppertal smearing step to a vector
   template <typename Float, int Ns, int Nc, typename Arg>
   __global__ void wuppertalStepGPU(Arg arg)
   {
     int x_cb = blockIdx.x*blockDim.x + threadIdx.x;

     // for full fields set parity from y thread index else use arg setting
     int parity = blockDim.y*blockIdx.y + threadIdx.y;

     if (x_cb >= arg.volumeCB) return;
     if (parity >= arg.nParity) return;
     parity = (arg.nParity == 2) ? parity : arg.parity;

     computeWupperalStep<Float,Ns,Nc>(arg, x_cb, parity);
   }

   template <typename Float, int Ns, int Nc, typename Arg>
   class WuppertalSmearing : public TunableVectorY {

   protected:
     Arg &arg;
     const ColorSpinorField &meta;

     long long flops() const
     {
       return (2*3*Ns*Nc*(8*Nc-2) + 2*3*Nc*Ns )*arg.nParity*(long long)meta.VolumeCB();
     }
     long long bytes() const
     {
       return arg.out.Bytes() + (2*3+1)*arg.in.Bytes() + arg.nParity*2*3*arg.U.Bytes()*meta.VolumeCB();
     }
     bool tuneGridDim() const { return false; }
     unsigned int minThreads() const { return arg.volumeCB; }
     unsigned int maxBlockSize() const { return deviceProp.maxThreadsPerBlock / arg.nParity; }

   public:
     WuppertalSmearing(Arg &arg, const ColorSpinorField &meta) : TunableVectorY(arg.nParity), arg(arg), meta(meta)
     {
       strcpy(aux, meta.AuxString());
       strcat(aux, comm_dim_partitioned_string());
     }
     virtual ~WuppertalSmearing() { }

     void apply(const cudaStream_t &stream) {
       if (meta.Location() == QUDA_CPU_FIELD_LOCATION) {
         wuppertalStepCPU<Float,Ns,Nc>(arg);
       } else {
         TuneParam tp = tuneLaunch(*this, getTuning(), getVerbosity());
         wuppertalStepGPU<Float,Ns,Nc> <<<tp.grid,tp.block,tp.shared_bytes,stream>>>(arg);
       }
     }

     TuneKey tuneKey() const { return TuneKey(meta.VolString(), typeid(*this).name(), aux); }
   };

   template<typename Float, int Ns, int Nc, QudaReconstructType gRecon>
   void wuppertalStep(ColorSpinorField &out, const ColorSpinorField &in, int parity,
          const GaugeField& U, double A, double B)
   {
     WuppertalSmearingArg<Float,Ns,Nc,gRecon> arg(out, in, parity, U, A, B);
     WuppertalSmearing<Float,Ns,Nc,WuppertalSmearingArg<Float,Ns,Nc,gRecon> > wuppertal(arg, in);
     wuppertal.apply(0);
   }

   // template on the gauge reconstruction
   template<typename Float, int Ns, int Nc>
   void wuppertalStep(ColorSpinorField &out, const ColorSpinorField &in, int parity,
          const GaugeField& U, double A, double B)
   {
     if (U.Reconstruct() == QUDA_RECONSTRUCT_NO) {
       wuppertalStep<Float,Ns,Nc,QUDA_RECONSTRUCT_NO>(out, in, parity, U, A, B);
     } else if(U.Reconstruct() == QUDA_RECONSTRUCT_12) {
       wuppertalStep<Float,Ns,Nc,QUDA_RECONSTRUCT_12>(out, in, parity, U, A, B);
     } else if(U.Reconstruct() == QUDA_RECONSTRUCT_8) {
       wuppertalStep<Float,Ns,Nc,QUDA_RECONSTRUCT_8>(out, in, parity, U, A, B);
     } else {
       errorQuda("Reconstruction type %d of origin gauge field not supported", U.Reconstruct());
     }
   }


   // template on the number of colors
   template<typename Float, int Ns>
   void wuppertalStep(ColorSpinorField &out, const ColorSpinorField &in, int parity,
          const GaugeField& U, double A, double B)
   {
     if (out.Ncolor() != in.Ncolor()) {
       errorQuda("Orign and destination fields must have the same number of colors\n");
     }

     if (out.Ncolor() == 3 ) {
       wuppertalStep<Float,Ns,3>(out, in, parity, U, A, B);
     } else {
       errorQuda(" is not implemented for Ncolor!=3");
     }
   }

   // template on the number of spins
   template<typename Float>
   void wuppertalStep(ColorSpinorField &out, const ColorSpinorField &in, int parity,
          const GaugeField& U, double A, double B)
   {
     if(out.Nspin() != in.Nspin()) {
       errorQuda("Orign and destination fields must have the same number of spins\n");
     }

     if (out.Nspin() == 4 ){
       wuppertalStep<Float,4>(out, in, parity, U, A, B);
     }else if (in.Nspin() == 1 ){
       wuppertalStep<Float,1>(out, in, parity, U, A, B);
     }else{
       errorQuda("Nspin %d not supported", out.Nspin());
     }
   }

   // template on the precision
   void wuppertalStep(ColorSpinorField &out, const ColorSpinorField &in, int parity,
          const GaugeField& U, double A, double B)
   {
     if (in.V() == out.V()) {
       errorQuda("Orign and destination fields must be different pointers");
     }

     // check precisions match
     checkPrecision(out, in, U);

     // check all locations match
     checkLocation(out, in, U);

     const int nFace = 1;
     in.exchangeGhost((QudaParity)(1-parity), nFace, 0); // last parameter is dummy

     if (out.Precision() == QUDA_SINGLE_PRECISION){
       wuppertalStep<float>(out, in, parity, U, A, B);
     } else if(out.Precision() == QUDA_DOUBLE_PRECISION) {
       wuppertalStep<double>(out, in, parity, U, A, B);
     } else {
       errorQuda("Precision %d not supported", out.Precision());
     }

     in.bufferIndex = (1 - in.bufferIndex);
     return;
   }

   void wuppertalStep(ColorSpinorField &out, const ColorSpinorField &in, int parity, const GaugeField& U, double alpha)
   {
     wuppertalStep(out, in, parity, U, 1./(1.+6.*alpha), alpha/(1.+6.*alpha));
   }
 } // namespace quda
quda::WuppertalSmearingArg::G
gauge_mapper< Float, gRecon >::type G
Definition: color_spinor_wuppertal.cu:17

QUDA_RECONSTRUCT_NO
Definition: enum_quda.h:66

quda::ColorSpinorField::Nspin
int Nspin() const
Definition: color_spinor_field.h:361

quda::TuneParam
Definition: tune_quda.h:17

blockDim
dim3 dim3 blockDim
Definition: CMakeCUDACompilerId.cpp1.ii:2471

quda::WuppertalSmearingArg::F
colorspinor_mapper< Float, Ns, Nc >::type F
Definition: color_spinor_wuppertal.cu:16

quda::ColorSpinorField
Definition: color_spinor_field.h:271

comm_dim_partitioned_string
const char * comm_dim_partitioned_string()
Return a string that defines the comm partitioning (used as a tuneKey)
Definition: comm_mpi.cpp:342

deviceProp
cudaDeviceProp deviceProp
Definition: interface_quda.cpp:152

quda::ColorSpinorField::AuxString
const char * AuxString() const
Definition: color_spinor_field.h:378

quda::computeNeighborSum
__device__ __host__ void computeNeighborSum(Vector &out, Arg &arg, int x_cb, int parity)
Definition: color_spinor_wuppertal.cu:52

getVerbosity
QudaVerbosity getVerbosity()
Definition: util_quda.cpp:20

checkPrecision
#define checkPrecision(...)
Definition: lattice_field.h:592

quda::WuppertalSmearing::apply
void apply(const cudaStream_t &stream)
Definition: color_spinor_wuppertal.cu:176

errorQuda
#define errorQuda(...)
Definition: util_quda.h:90

color_spinor_field.h

quda::ColorSpinorField::VolumeCB
int VolumeCB() const
Definition: color_spinor_field.h:370

quda::ColorSpinor
Definition: color_spinor.h:24

quda::WuppertalSmearing::~WuppertalSmearing
virtual ~WuppertalSmearing()
Definition: color_spinor_wuppertal.cu:174

quda::WuppertalSmearing::tuneKey
TuneKey tuneKey() const
Definition: color_spinor_wuppertal.cu:185

quda::stream
cudaStream_t * stream
Definition: cuda_color_spinor_field.cu:898

strcpy
char * strcpy(char *__dst, const char *__src)

quda::LatticeField::VolString
const char * VolString() const
Definition: lattice_field.h:524

quda::TuneParam::shared_bytes
int shared_bytes
Definition: tune_quda.h:22

strcat
char * strcat(char *__s1, const char *__s2)

quda::ColorSpinorField::Ncolor
int Ncolor() const
Definition: color_spinor_field.h:360

quda::cpuColorSpinorField::exchangeGhost
void exchangeGhost(QudaParity parity, int nFace, int dagger, const MemoryLocation *pack_destination=nullptr, const MemoryLocation *halo_location=nullptr, bool gdr_send=false, bool gdr_recv=false) const
This is a unified ghost exchange function for doing a complete halo exchange regardless of the type o...
Definition: cpu_color_spinor_field.cpp:311

quda::TuneParam::grid
dim3 grid
Definition: tune_quda.h:21

quda
Definition: blas_cublas.h:6

quda::WuppertalSmearingArg::commDim
const int commDim[4]
Definition: color_spinor_wuppertal.cu:28

quda::WuppertalSmearing::maxBlockSize
unsigned int maxBlockSize() const
Definition: color_spinor_wuppertal.cu:166

quda::WuppertalSmearing::arg
Arg & arg
Definition: color_spinor_wuppertal.cu:153

quda::WuppertalSmearing::flops
long long flops() const
Definition: color_spinor_wuppertal.cu:156

quda::WuppertalSmearingArg
Definition: color_spinor_wuppertal.cu:15

quda::WuppertalSmearing::tuneGridDim
bool tuneGridDim() const
Definition: color_spinor_wuppertal.cu:164

QUDA_RECONSTRUCT_12
Definition: enum_quda.h:67

quda::LatticeField::bufferIndex
static int bufferIndex
Definition: lattice_field.h:400

quda::linkIndexM1
static __device__ __host__ int linkIndexM1(const int x[], const I X[4], const int mu)
Definition: index_helper.cuh:75

quda::TuneParam::block
dim3 block
Definition: tune_quda.h:20

quda::TunableVectorY
Definition: tune_quda.h:346

in
cpuColorSpinorField * in
Definition: staggered_invert_test.cpp:44

for
for(int s=0;s< param.dc.Ls;s++)
Definition: dw_dslash5inv_core.h:181

quda::WuppertalSmearing::bytes
long long bytes() const
Definition: color_spinor_wuppertal.cu:160

quda::computeWupperalStep
__device__ __host__ void computeWupperalStep(Arg &arg, int x_cb, int parity)
Definition: color_spinor_wuppertal.cu:103

quda::tuneLaunch
TuneParam & tuneLaunch(Tunable &tunable, QudaTune enabled, QudaVerbosity verbosity)
Definition: tune.cpp:603

quda::WuppertalSmearing::meta
const ColorSpinorField & meta
Definition: color_spinor_wuppertal.cu:154

quda::WuppertalSmearingArg::nFace
const int nFace
Definition: color_spinor_wuppertal.cu:26

checkLocation
#define checkLocation(...)
Definition: lattice_field.h:561

quda::WuppertalSmearing::WuppertalSmearing
WuppertalSmearing(Arg &arg, const ColorSpinorField &meta)
Definition: color_spinor_wuppertal.cu:169

QUDA_FLOAT2_FIELD_ORDER
Definition: enum_quda.h:319

quda::WuppertalSmearingArg::parity
const int parity
Definition: color_spinor_wuppertal.cu:24

gauge_field_order.h
Main header file for host and device accessors to GaugeFields.

QudaParity
enum QudaParity_s QudaParity

quda::WuppertalSmearingArg::out
F out
Definition: color_spinor_wuppertal.cu:19

quda::WuppertalSmearingArg::A
const Float A
Definition: color_spinor_wuppertal.cu:22

quda::WuppertalSmearingArg::B
const Float B
Definition: color_spinor_wuppertal.cu:23

tune_quda.h

quda::LatticeField::Location
QudaFieldLocation Location() const
Definition: lattice_field.cpp:522

quda::wuppertalStepCPU
void wuppertalStepCPU(Arg arg)
Definition: color_spinor_wuppertal.cu:119

coord
int coord[5]
Definition: asym_wilson_clover_dslash_dagger_fermi_core.h:393

QUDA_RECONSTRUCT_8
Definition: enum_quda.h:68

quda_matrix.h

QUDA_DOUBLE_PRECISION
Definition: enum_quda.h:61

quda::wuppertalStep
void wuppertalStep(ColorSpinorField &out, const ColorSpinorField &in, int parity, const GaugeField &U, double A, double B)
Definition: color_spinor_wuppertal.cu:189

index_helper.cuh

out
cpuColorSpinorField * out
Definition: staggered_invert_test.cpp:45

QUDA_SINGLE_PRECISION
Definition: enum_quda.h:60

color_spinor_field_order.h

quda::colorspinor_mapper
Definition: color_spinor_field_order.h:1160

quda::gauge_mapper
Definition: gauge_field_order.h:2083

quda::WuppertalSmearingArg::WuppertalSmearingArg
WuppertalSmearingArg(ColorSpinorField &out, const ColorSpinorField &in, int parity, const GaugeField &U, Float A, Float B)
Definition: color_spinor_wuppertal.cu:31

quda::wuppertalStepGPU
__global__ void wuppertalStepGPU(Arg arg)
Definition: color_spinor_wuppertal.cu:135

transfer.h

quda::WuppertalSmearingArg::dim
const int dim[5]
Definition: color_spinor_wuppertal.cu:27

quda::arg
__host__ __device__ ValueType arg(const complex< ValueType > &z)
Returns the phase angle of z.
Definition: complex_quda.h:880

quda::Vector
VectorXcd Vector
Definition: inv_eigcg_quda.cpp:38

quda::WuppertalSmearing::minThreads
unsigned int minThreads() const
Definition: color_spinor_wuppertal.cu:165

quda::conj
__host__ __device__ ValueType conj(ValueType x)
Definition: complex_quda.h:115

quda::WuppertalSmearingArg::nParity
const int nParity
Definition: color_spinor_wuppertal.cu:25

getTuning
QudaTune getTuning()
Query whether autotuning is enabled or not. Default is enabled but can be overridden by setting QUDA_...
Definition: util_quda.cpp:51

quda::LatticeField::Precision
QudaPrecision Precision() const
Definition: lattice_field.h:462

quda::linkIndexP1
static __device__ __host__ int linkIndexP1(const int x[], const I X[4], const int mu)
Definition: index_helper.cuh:111

quda::WuppertalSmearing
Definition: color_spinor_wuppertal.cu:150

parity
QudaParity parity
Definition: covdev_test.cpp:53

QUDA_CPU_FIELD_LOCATION
Definition: enum_quda.h:296

quda::WuppertalSmearingArg::in
const F in
Definition: color_spinor_wuppertal.cu:20

gauge_field.h

quda::Matrix
Definition: quda_matrix.h:68

quda::Tunable::aux
char aux[TuneKey::aux_n]
Definition: tune_quda.h:189

quda::TuneKey
Definition: tune_key.h:8

quda::WuppertalSmearingArg::volumeCB
const int volumeCB
Definition: color_spinor_wuppertal.cu:29

quda::ColorSpinorField::V
void * V()
Definition: color_spinor_field.h:380

comm_dim_partitioned
int comm_dim_partitioned(int dim)
Definition: comm_common.cpp:597

color_spinor.h

quda_internal.h

quda::GaugeField
Definition: gauge_field.h:123

quda::getCoords
static __device__ __host__ void getCoords(int x[], int cb_index, const I X[], int parity)
Definition: index_helper.cuh:129

quda::WuppertalSmearingArg::U
const G U
Definition: color_spinor_wuppertal.cu:21