v0.9.0/doc/laplace_8cu_source.html

 #include <transfer.h>
 #include <gauge_field_order.h>
 #include <color_spinor_field_order.h>
 #include <index_helper.cuh>
 #include <stencil.h>
 #include <color_spinor.h>

 namespace quda {

   template <typename Float, int nColor, QudaReconstructType reconstruct, bool xpay>
   struct LaplaceArg {
     typedef typename colorspinor_mapper<Float,1,nColor>::type F;
     typedef typename gauge_mapper<Float,reconstruct>::type G;

     F out;                // output vector field
     const F in;           // input vector field
     const F x;            // input vector when doing xpay
     const G U;            // the gauge field
     const Float kappa;    // kappa parameter = 1/(8+m)
     const int parity;     // only use this for single parity fields
     const int nParity;    // number of parities we're working on
     const int nFace;      // hard code to 1 for now
     const int dim[5];     // full lattice dimensions
     const int commDim[4]; // whether a given dimension is partitioned or not
     const int volumeCB;   // checkerboarded volume

     __host__ __device__ static constexpr bool isXpay() { return xpay; }

     LaplaceArg(ColorSpinorField &out, const ColorSpinorField &in, const GaugeField &U,
          Float kappa, const ColorSpinorField *x, int parity)
       : out(out), in(in), U(U), kappa(kappa), x(xpay ? *x : in), parity(parity), nParity(in.SiteSubset()), nFace(1),
   dim{ (3-nParity) * in.X(0), in.X(1), in.X(2), in.X(3), 1 },
       commDim{comm_dim_partitioned(0), comm_dim_partitioned(1), comm_dim_partitioned(2), comm_dim_partitioned(3)},
       volumeCB(in.VolumeCB())
     {
       if (in.FieldOrder() != QUDA_FLOAT2_FIELD_ORDER || !U.isNative())
       errorQuda("Unsupported field order colorspinor=%d gauge=%d combination\n", in.FieldOrder(), U.FieldOrder());
     }
   };

   template <typename Float, int nDim, int nColor, typename Vector, typename Arg>
   __device__ __host__ inline void applyLaplace(Vector &out, Arg &arg, int x_cb, int parity) {
     typedef Matrix<complex<Float>,nColor> Link;
     const int their_spinor_parity = (arg.nParity == 2) ? 1-parity : 0;

     int coord[5];
     getCoords(coord, x_cb, arg.dim, parity);
     coord[4] = 0;

 #pragma unroll
     for (int d = 0; d<nDim; d++) // loop over dimension
     {
       //Forward gather - compute fwd offset for vector fetch
       const int fwd_idx = linkIndexP1(coord, arg.dim, d);

       if ( arg.commDim[d] && (coord[d] + arg.nFace >= arg.dim[d]) ) {
   const int ghost_idx = ghostFaceIndex<1>(coord, arg.dim, d, arg.nFace);

   const Link U = arg.U(d, x_cb, parity);
   const Vector in = arg.in.Ghost(d, 1, ghost_idx, their_spinor_parity);

   out += U * in;
   } else {

   const Link U = arg.U(d, x_cb, parity);
   const Vector in = arg.in(fwd_idx, their_spinor_parity);

   out += U * in;
       }

       //Backward gather - compute back offset for spinor and gauge fetch
       const int back_idx = linkIndexM1(coord, arg.dim, d);
       const int gauge_idx = back_idx;

       if ( arg.commDim[d] && (coord[d] - arg.nFace < 0) ) {
   const int ghost_idx = ghostFaceIndex<0>(coord, arg.dim, d, arg.nFace);

   const Link U = arg.U.Ghost(d, ghost_idx, 1-parity);
   const Vector in = arg.in.Ghost(d, 0, ghost_idx, their_spinor_parity);

   out += conj(U) * in;
       } else {

   const Link U = arg.U(d, gauge_idx, 1-parity);
   const Vector in = arg.in(back_idx, their_spinor_parity);

   out += conj(U) * in;
       }
     } //nDim

   }


   //out(x) = M*in = (-D + m) * in(x-mu)
   template <typename Float, int nDim, int nColor, typename Arg>
   __device__ __host__ inline void laplace(Arg &arg, int x_cb, int parity)
   {
     typedef ColorSpinor<Float,nColor,1> Vector;
     Vector out;

     applyLaplace<Float,nDim,nColor>(out, arg, x_cb, parity);

     if (arg.isXpay()) {
       Vector x = arg.x(x_cb, parity);
       out = x + arg.kappa * out;
     }
     arg.out(x_cb, arg.nParity == 2 ? parity : 0) = out;
   }

   // CPU kernel for applying the Laplace operator to a vector
   template <typename Float, int nDim, int nColor, typename Arg>
   void laplaceCPU(Arg arg)
   {

     for (int parity= 0; parity < arg.nParity; parity++) {
       // for full fields then set parity from loop else use arg setting
       parity = (arg.nParity == 2) ? parity : arg.parity;

       for (int x_cb = 0; x_cb < arg.volumeCB; x_cb++) { // 4-d volume
   laplace<Float,nDim,nColor>(arg, x_cb, parity);
       } // 4-d volumeCB
     } // parity

   }

   // GPU Kernel for applying the Laplace operator to a vector
   template <typename Float, int nDim, int nColor, typename Arg>
   __global__ void laplaceGPU(Arg arg)
   {
     int x_cb = blockIdx.x*blockDim.x + threadIdx.x;

     // for full fields set parity from y thread index else use arg setting
     int parity = (arg.nParity == 2) ? blockDim.y*blockIdx.y + threadIdx.y : arg.parity;

     if (x_cb >= arg.volumeCB) return;
     if (parity >= arg.nParity) return;

     laplace<Float,nDim,nColor>(arg, x_cb, parity);
   }

   template <typename Float, int nDim, int nColor, typename Arg>
   class Laplace : public TunableVectorY {

   protected:
     Arg &arg;
     const ColorSpinorField &meta;

     long long flops() const
     {
       return (2*nDim*(8*nColor*nColor)-2*nColor + (arg.isXpay() ? 2*2*nColor : 0) )*arg.nParity*(long long)meta.VolumeCB();
     }
     long long bytes() const
     {
       return arg.out.Bytes() + 2*nDim*arg.in.Bytes() + arg.nParity*2*nDim*arg.U.Bytes()*meta.VolumeCB() +
   (arg.isXpay() ? arg.x.Bytes() : 0);
     }
     bool tuneGridDim() const { return false; }
     unsigned int minThreads() const { return arg.volumeCB; }
     unsigned int maxBlockSize() const { return deviceProp.maxThreadsPerBlock / arg.nParity; }

   public:
     Laplace(Arg &arg, const ColorSpinorField &meta) : TunableVectorY(arg.nParity), arg(arg), meta(meta)
     {
       strcpy(aux, meta.AuxString());
 #ifdef MULTI_GPU
       char comm[5];
       comm[0] = (arg.commDim[0] ? '1' : '0');
       comm[1] = (arg.commDim[1] ? '1' : '0');
       comm[2] = (arg.commDim[2] ? '1' : '0');
       comm[3] = (arg.commDim[3] ? '1' : '0');
       comm[4] = '\0';
       strcat(aux,",comm=");
       strcat(aux,comm);
 #endif
       if (arg.isXpay()) strcat(aux,",xpay");
     }
     virtual ~Laplace() { }

     void apply(const cudaStream_t &stream) {
       if (meta.Location() == QUDA_CPU_FIELD_LOCATION) {
   laplaceCPU<Float,nDim,nColor>(arg);
       } else {
         TuneParam tp = tuneLaunch(*this, getTuning(), getVerbosity());
   laplaceGPU<Float,nDim,nColor> <<<tp.grid,tp.block,tp.shared_bytes,stream>>>(arg);
       }
     }

     TuneKey tuneKey() const { return TuneKey(meta.VolString(), typeid(*this).name(), aux); }
   };


   template <typename Float, int nColor, QudaReconstructType recon>
     void ApplyLaplace(ColorSpinorField &out, const ColorSpinorField &in, const GaugeField &U,
           double kappa, const ColorSpinorField *x, int parity)
   {
     constexpr int nDim = 4;
     if (x) {
       LaplaceArg<Float,nColor,recon,true> arg(out, in, U, kappa, x, parity);
       Laplace<Float,nDim,nColor,LaplaceArg<Float,nColor,recon,true> > laplace(arg, in);
       laplace.apply(0);
     } else {
       LaplaceArg<Float,nColor,recon,false> arg(out, in, U, kappa, x, parity);
       Laplace<Float,nDim,nColor,LaplaceArg<Float,nColor,recon,false> > laplace(arg, in);
       laplace.apply(0);
     }
   }

   // template on the gauge reconstruction
   template <typename Float, int nColor>
     void ApplyLaplace(ColorSpinorField &out, const ColorSpinorField &in, const GaugeField &U,
           double kappa, const ColorSpinorField *x, int parity)
   {
     if (U.Reconstruct()== QUDA_RECONSTRUCT_NO) {
       ApplyLaplace<Float,nColor,QUDA_RECONSTRUCT_NO>(out, in, U, kappa, x, parity);
     } else if (U.Reconstruct()== QUDA_RECONSTRUCT_12) {
       ApplyLaplace<Float,nColor,QUDA_RECONSTRUCT_12>(out, in, U, kappa, x, parity);
     } else if (U.Reconstruct()== QUDA_RECONSTRUCT_8) {
       ApplyLaplace<Float,nColor,QUDA_RECONSTRUCT_8>(out, in, U, kappa, x, parity);
     } else {
       errorQuda("Unsupported reconstruct type %d\n", U.Reconstruct());
     }
   }

   // template on the number of colors
   template <typename Float>
     void ApplyLaplace(ColorSpinorField &out, const ColorSpinorField &in, const GaugeField &U,
           double kappa, const ColorSpinorField *x, int parity)
   {
     if (in.Ncolor() == 3) {
       ApplyLaplace<Float,3>(out, in, U, kappa, x, parity);
     } else {
       errorQuda("Unsupported number of colors %d\n", U.Ncolor());
     }
   }

   // this is the Worker pointer that may have issue additional work
   // while we're waiting on communication to finish
   namespace dslash {
     extern Worker* aux_worker;
   }

   //Apply the Laplace operator
   //out(x) = M*in = - kappa*\sum_mu U_{-\mu}(x)in(x+mu) + U^\dagger_mu(x-mu)in(x-mu)
   //Uses the kappa normalization for the Wilson operator.
   void ApplyLaplace(ColorSpinorField &out, const ColorSpinorField &in, const GaugeField &U,
         double kappa, const ColorSpinorField *x, int parity)
   {
     if (in.V() == out.V()) errorQuda("Aliasing pointers");
     if (in.FieldOrder() != out.FieldOrder())
       errorQuda("Field order mismatch in = %d, out = %d", in.FieldOrder(), out.FieldOrder());

     // check all precisions match
     checkPrecision(out, in, U);

     // check all locations match
     checkLocation(out, in, U);

     const int nFace = 1;
     in.exchangeGhost((QudaParity)(1-parity), nFace, 0); // last parameter is dummy

     if (dslash::aux_worker) dslash::aux_worker->apply(0);

     if (U.Precision() == QUDA_DOUBLE_PRECISION) {
       ApplyLaplace<double>(out, in, U, kappa, x, parity);
     } else if (U.Precision() == QUDA_SINGLE_PRECISION) {
       ApplyLaplace<float>(out, in, U, kappa, x, parity);
     } else {
       errorQuda("Unsupported precision %d\n", U.Precision());
     }

     in.bufferIndex = (1 - in.bufferIndex);
   }


 } // namespace quda
quda::Worker::apply
virtual void apply(const cudaStream_t &stream)=0

QUDA_RECONSTRUCT_NO
Definition: enum_quda.h:66

quda::TuneParam
Definition: tune_quda.h:17

blockDim
dim3 dim3 blockDim
Definition: CMakeCUDACompilerId.cpp1.ii:2471

quda::applyLaplace
__device__ __host__ void applyLaplace(Vector &out, Arg &arg, int x_cb, int parity)
Definition: laplace.cu:59

quda::blas::xpay
void xpay(ColorSpinorField &x, const double &a, ColorSpinorField &y)
Definition: blas_quda.cu:173

quda::Laplace::tuneGridDim
bool tuneGridDim() const
Definition: laplace.cu:174

quda::Laplace::Laplace
Laplace(Arg &arg, const ColorSpinorField &meta)
Definition: laplace.cu:179

quda::laplaceGPU
__global__ void laplaceGPU(Arg arg)
Definition: laplace.cu:145

quda::ColorSpinorField
Definition: color_spinor_field.h:271

deviceProp
cudaDeviceProp deviceProp
Definition: interface_quda.cpp:152

quda::ColorSpinorField::AuxString
const char * AuxString() const
Definition: color_spinor_field.h:378

getVerbosity
QudaVerbosity getVerbosity()
Definition: util_quda.cpp:20

checkPrecision
#define checkPrecision(...)
Definition: lattice_field.h:592

errorQuda
#define errorQuda(...)
Definition: util_quda.h:90

quda::ColorSpinorField::VolumeCB
int VolumeCB() const
Definition: color_spinor_field.h:370

quda::ColorSpinor
Definition: color_spinor.h:24

quda::LaplaceArg::nFace
const int nFace
Definition: laplace.cu:29

quda::LaplaceArg::volumeCB
const int volumeCB
Definition: laplace.cu:32

stencil.h

quda::stream
cudaStream_t * stream
Definition: cuda_color_spinor_field.cu:898

quda::laplaceCPU
void laplaceCPU(Arg arg)
Definition: laplace.cu:129

strcpy
char * strcpy(char *__dst, const char *__src)

quda::Laplace
Definition: laplace.cu:159

quda::LatticeField::VolString
const char * VolString() const
Definition: lattice_field.h:524

quda::TuneParam::shared_bytes
int shared_bytes
Definition: tune_quda.h:22

strcat
char * strcat(char *__s1, const char *__s2)

quda::Laplace::~Laplace
virtual ~Laplace()
Definition: laplace.cu:194

quda::ColorSpinorField::Ncolor
int Ncolor() const
Definition: color_spinor_field.h:360

quda::cpuColorSpinorField::exchangeGhost
void exchangeGhost(QudaParity parity, int nFace, int dagger, const MemoryLocation *pack_destination=nullptr, const MemoryLocation *halo_location=nullptr, bool gdr_send=false, bool gdr_recv=false) const
This is a unified ghost exchange function for doing a complete halo exchange regardless of the type o...
Definition: cpu_color_spinor_field.cpp:311

quda::TuneParam::grid
dim3 grid
Definition: tune_quda.h:21

quda
Definition: blas_cublas.h:6

quda::LaplaceArg::parity
const int parity
Definition: laplace.cu:27

quda::laplace
__device__ __host__ void laplace(Arg &arg, int x_cb, int parity)
Definition: laplace.cu:113

quda::Laplace::flops
long long flops() const
Definition: laplace.cu:165

x
p x
Definition: CMakeCUDACompilerId.cpp1.ii:3011

quda::LaplaceArg::in
const F in
Definition: laplace.cu:23

quda::LaplaceArg::isXpay
__host__ static __device__ constexpr bool isXpay()
Definition: laplace.cu:34

quda::LaplaceArg
Parameter structure for driving the Laplace operator.
Definition: laplace.cu:18

quda::LaplaceArg::LaplaceArg
LaplaceArg(ColorSpinorField &out, const ColorSpinorField &in, const GaugeField &U, Float kappa, const ColorSpinorField *x, int parity)
Definition: laplace.cu:36

QUDA_RECONSTRUCT_12
Definition: enum_quda.h:67

quda::LatticeField::bufferIndex
static int bufferIndex
Definition: lattice_field.h:400

kappa
VOLATILE spinorFloat kappa
Definition: dw_dslash5inv_core.h:153

quda::Laplace::minThreads
unsigned int minThreads() const
Definition: laplace.cu:175

quda::dslash::aux_worker
Worker * aux_worker
Definition: dslash_quda.cu:78

quda::linkIndexM1
static __device__ __host__ int linkIndexM1(const int x[], const I X[4], const int mu)
Definition: index_helper.cuh:75

nColor
const int nColor
Definition: covdev_test.cpp:77

quda::Laplace::tuneKey
TuneKey tuneKey() const
Definition: laplace.cu:205

quda::TuneParam::block
dim3 block
Definition: tune_quda.h:20

quda::TunableVectorY
Definition: tune_quda.h:346

in
cpuColorSpinorField * in
Definition: staggered_invert_test.cpp:44

for
for(int s=0;s< param.dc.Ls;s++)
Definition: dw_dslash5inv_core.h:181

quda::tuneLaunch
TuneParam & tuneLaunch(Tunable &tunable, QudaTune enabled, QudaVerbosity verbosity)
Definition: tune.cpp:603

checkLocation
#define checkLocation(...)
Definition: lattice_field.h:561

QUDA_FLOAT2_FIELD_ORDER
Definition: enum_quda.h:319

gauge_field_order.h
Main header file for host and device accessors to GaugeFields.

quda::LaplaceArg::commDim
const int commDim[4]
Definition: laplace.cu:31

QudaParity
enum QudaParity_s QudaParity

quda::LaplaceArg::out
F out
Definition: laplace.cu:22

quda::LatticeField::Location
QudaFieldLocation Location() const
Definition: lattice_field.cpp:522

coord
int coord[5]
Definition: asym_wilson_clover_dslash_dagger_fermi_core.h:393

QUDA_RECONSTRUCT_8
Definition: enum_quda.h:68

QUDA_DOUBLE_PRECISION
Definition: enum_quda.h:61

quda::Laplace::arg
Arg & arg
Definition: laplace.cu:162

index_helper.cuh

out
cpuColorSpinorField * out
Definition: staggered_invert_test.cpp:45

quda::LaplaceArg::dim
const int dim[5]
Definition: laplace.cu:30

QUDA_SINGLE_PRECISION
Definition: enum_quda.h:60

color_spinor_field_order.h

quda::colorspinor_mapper
Definition: color_spinor_field_order.h:1160

quda::gauge_mapper
Definition: gauge_field_order.h:2083

if
if(err !=cudaSuccess)
Definition: CMakeCUDACompilerId.cpp1.ii:15963

quda::LaplaceArg::F
colorspinor_mapper< Float, 1, nColor >::type F
Definition: laplace.cu:19

quda::Laplace::meta
const ColorSpinorField & meta
Definition: laplace.cu:163

quda::LaplaceArg::U
const G U
Definition: laplace.cu:25

transfer.h

quda::arg
__host__ __device__ ValueType arg(const complex< ValueType > &z)
Returns the phase angle of z.
Definition: complex_quda.h:880

quda::Vector
VectorXcd Vector
Definition: inv_eigcg_quda.cpp:38

quda::LaplaceArg::x
const F x
Definition: laplace.cu:24

quda::LaplaceArg::nParity
const int nParity
Definition: laplace.cu:28

quda::ApplyLaplace
void ApplyLaplace(ColorSpinorField &out, const ColorSpinorField &in, const GaugeField &U, double kappa, const ColorSpinorField *x, int parity)
Driver for applying the Laplace stencil.
Definition: laplace.cu:210

quda::Laplace::bytes
long long bytes() const
Definition: laplace.cu:169

quda::conj
__host__ __device__ ValueType conj(ValueType x)
Definition: complex_quda.h:115

getTuning
QudaTune getTuning()
Query whether autotuning is enabled or not. Default is enabled but can be overridden by setting QUDA_...
Definition: util_quda.cpp:51

d
static __inline__ size_t size_t d
Definition: CMakeCUDACompilerId.cpp1.ii:3019

quda::linkIndexP1
static __device__ __host__ int linkIndexP1(const int x[], const I X[4], const int mu)
Definition: index_helper.cuh:111

quda::Laplace::apply
void apply(const cudaStream_t &stream)
Definition: laplace.cu:196

parity
QudaParity parity
Definition: covdev_test.cpp:53

quda::LaplaceArg::G
gauge_mapper< Float, reconstruct >::type G
Definition: laplace.cu:20

QUDA_CPU_FIELD_LOCATION
Definition: enum_quda.h:296

quda::ColorSpinorField::FieldOrder
QudaFieldOrder FieldOrder() const
Definition: color_spinor_field.h:437

quda::LaplaceArg::kappa
const Float kappa
Definition: laplace.cu:26

quda::Matrix
Definition: quda_matrix.h:68

quda::Tunable::aux
char aux[TuneKey::aux_n]
Definition: tune_quda.h:189

quda::TuneKey
Definition: tune_key.h:8

dslash
Definition: dslash_events.cuh:1

quda::ColorSpinorField::V
void * V()
Definition: color_spinor_field.h:380

comm_dim_partitioned
int comm_dim_partitioned(int dim)
Definition: comm_common.cpp:597

quda::Laplace::maxBlockSize
unsigned int maxBlockSize() const
Definition: laplace.cu:176

color_spinor.h

quda::GaugeField
Definition: gauge_field.h:123

quda::getCoords
static __device__ __host__ void getCoords(int x[], int cb_index, const I X[], int parity)
Definition: index_helper.cuh:129