quda-ref/v1.0.0/laplace_8cu_source.html

 #include <dslash.h>
 #include <worker.h>
 #include <dslash_helper.cuh>
 #include <color_spinor_field_order.h>
 #include <gauge_field_order.h>
 #include <color_spinor.h>
 #include <dslash_helper.cuh>
 #include <index_helper.cuh>
 #include <gauge_field.h>
 #include <uint_to_char.h>

 #include <dslash_policy.cuh>
 #include <kernels/laplace.cuh>

 namespace quda
 {

   template <typename Float, int nDim, int nColor, int nParity, bool dagger, bool xpay, KernelType kernel_type, typename Arg>
   struct LaplaceLaunch {

     // kernel name for jit compilation
     static constexpr const char *kernel = "quda::laplaceGPU";

     template <typename Dslash>
     inline static void launch(Dslash &dslash, TuneParam &tp, Arg &arg, const cudaStream_t &stream)
     {
       dslash.launch(laplaceGPU<Float, nDim, nColor, nParity, dagger, xpay, kernel_type, Arg>, tp, arg, stream);
     }
   };

   template <typename Float, int nDim, int nColor, typename Arg> class Laplace : public Dslash<Float>
   {

 protected:
     Arg &arg;
     const ColorSpinorField &in;

 public:
     Laplace(Arg &arg, const ColorSpinorField &out, const ColorSpinorField &in) :
       Dslash<Float>(arg, out, in, "kernels/laplace.cuh"),
       arg(arg),
       in(in)
     {
     }

     virtual ~Laplace() {}

     void apply(const cudaStream_t &stream)
     {
       TuneParam tp = tuneLaunch(*this, getTuning(), getVerbosity());
       Dslash<Float>::setParam(arg);
       Dslash<Float>::template instantiate<LaplaceLaunch, nDim, nColor>(tp, arg, stream);
     }

     long long flops() const
     {
       int mv_flops = (8 * in.Ncolor() - 2) * in.Ncolor(); // SU(3) matrix-vector flops
       int num_mv_multiply = in.Nspin() == 4 ? 2 : 1;
       int ghost_flops = (num_mv_multiply * mv_flops + 2 * in.Ncolor() * in.Nspin());
       int xpay_flops = 2 * 2 * in.Ncolor() * in.Nspin(); // multiply and add per real component
       int num_dir = (arg.dir == 4 ? 2 * 4 : 2 * 3);      // 3D or 4D operator

       long long flops_ = 0;

       // FIXME - should we count the xpay flops in the derived kernels
       // since some kernels require the xpay in the exterior (preconditiond clover)

       switch (arg.kernel_type) {
       case EXTERIOR_KERNEL_X:
       case EXTERIOR_KERNEL_Y:
       case EXTERIOR_KERNEL_Z:
       case EXTERIOR_KERNEL_T:
         flops_ = (ghost_flops + (arg.xpay ? xpay_flops : xpay_flops / 2)) * 2 * in.GhostFace()[arg.kernel_type];
         break;
       case EXTERIOR_KERNEL_ALL: {
         long long ghost_sites = 2 * (in.GhostFace()[0] + in.GhostFace()[1] + in.GhostFace()[2] + in.GhostFace()[3]);
         flops_ = (ghost_flops + (arg.xpay ? xpay_flops : xpay_flops / 2)) * ghost_sites;
         break;
       }
       case INTERIOR_KERNEL:
       case KERNEL_POLICY: {
         long long sites = in.Volume();
         flops_ = (num_dir * (in.Nspin() / 4) * in.Ncolor() * in.Nspin() + // spin project (=0 for staggered)
                   num_dir * num_mv_multiply * mv_flops +                  // SU(3) matrix-vector multiplies
                   ((num_dir - 1) * 2 * in.Ncolor() * in.Nspin()))
           * sites; // accumulation
         if (arg.xpay) flops_ += xpay_flops * sites;

         if (arg.kernel_type == KERNEL_POLICY) break;
         // now correct for flops done by exterior kernel
         long long ghost_sites = 0;
         for (int d = 0; d < 4; d++)
           if (arg.commDim[d]) ghost_sites += 2 * in.GhostFace()[d];
         flops_ -= ghost_flops * ghost_sites;

         break;
       }
       }

       return flops_;
     }

     virtual long long bytes() const
     {
       int gauge_bytes = arg.reconstruct * in.Precision();
       bool isFixed = (in.Precision() == sizeof(short) || in.Precision() == sizeof(char)) ? true : false;
       int spinor_bytes = 2 * in.Ncolor() * in.Nspin() * in.Precision() + (isFixed ? sizeof(float) : 0);
       int proj_spinor_bytes = in.Nspin() == 4 ? spinor_bytes / 2 : spinor_bytes;
       int ghost_bytes = (proj_spinor_bytes + gauge_bytes) + 2 * spinor_bytes; // 2 since we have to load the partial
       int num_dir = (arg.dir == 4 ? 2 * 4 : 2 * 3);                           // 3D or 4D operator

       long long bytes_ = 0;

       switch (arg.kernel_type) {
       case EXTERIOR_KERNEL_X:
       case EXTERIOR_KERNEL_Y:
       case EXTERIOR_KERNEL_Z:
       case EXTERIOR_KERNEL_T: bytes_ = ghost_bytes * 2 * in.GhostFace()[arg.kernel_type]; break;
       case EXTERIOR_KERNEL_ALL: {
         long long ghost_sites = 2 * (in.GhostFace()[0] + in.GhostFace()[1] + in.GhostFace()[2] + in.GhostFace()[3]);
         bytes_ = ghost_bytes * ghost_sites;
         break;
       }
       case INTERIOR_KERNEL:
       case KERNEL_POLICY: {
         long long sites = in.Volume();
         bytes_ = (num_dir * gauge_bytes + ((num_dir - 2) * spinor_bytes + 2 * proj_spinor_bytes) + spinor_bytes) * sites;
         if (arg.xpay) bytes_ += spinor_bytes;

         if (arg.kernel_type == KERNEL_POLICY) break;
         // now correct for bytes done by exterior kernel
         long long ghost_sites = 0;
         for (int d = 0; d < 4; d++)
           if (arg.commDim[d]) ghost_sites += 2 * in.GhostFace()[d];
         bytes_ -= ghost_bytes * ghost_sites;

         break;
       }
       }
       return bytes_;
     }

     TuneKey tuneKey() const
     {
       // add laplace transverse dir to the key
       char aux[TuneKey::aux_n];
       strcpy(aux, Dslash<Float>::aux[arg.kernel_type]);
       strcat(aux, ",laplace=");
       char laplace[32];
       u32toa(laplace, arg.dir);
       strcat(aux, laplace);
       return TuneKey(in.VolString(), typeid(*this).name(), aux);
     }
   };

   template <typename Float, int nColor, QudaReconstructType recon> struct LaplaceApply {

     inline LaplaceApply(ColorSpinorField &out, const ColorSpinorField &in, const GaugeField &U, int dir, double a,
                         const ColorSpinorField &x, int parity, bool dagger, const int *comm_override,
                         TimeProfile &profile)
     {

       constexpr int nDim = 4;
       LaplaceArg<Float, nColor, recon> arg(out, in, U, dir, a, x, parity, dagger, comm_override);
       Laplace<Float, nDim, nColor, LaplaceArg<Float, nColor, recon>> laplace(arg, out, in);

       dslash::DslashPolicyTune<decltype(laplace)> policy(
         laplace, const_cast<cudaColorSpinorField *>(static_cast<const cudaColorSpinorField *>(&in)), in.VolumeCB(),
         in.GhostFaceCB(), profile);
       policy.apply(0);

       checkCudaError();
     }
   };

   // Apply the Laplace operator
   // out(x) = M*in = - kappa*\sum_mu U_{-\mu}(x)in(x+mu) + U^\dagger_mu(x-mu)in(x-mu)
   // Uses the kappa normalization for the Wilson operator.
   // Omits direction 'dir' from the operator.
   void ApplyLaplace(ColorSpinorField &out, const ColorSpinorField &in, const GaugeField &U, int dir, double kappa,
                     const ColorSpinorField &x, int parity, bool dagger, const int *comm_override, TimeProfile &profile)
   {

     if (in.V() == out.V()) errorQuda("Aliasing pointers");
     if (in.FieldOrder() != out.FieldOrder())
       errorQuda("Field order mismatch in = %d, out = %d", in.FieldOrder(), out.FieldOrder());

     // check all precisions match
     checkPrecision(out, in, U);

     // check all locations match
     checkLocation(out, in, U);

     instantiate<LaplaceApply>(out, in, U, dir, kappa, x, parity, dagger, comm_override, profile);
   }
 } // namespace quda
quda::ColorSpinorField::Nspin
int Nspin() const
Definition: color_spinor_field.h:406

quda::Dslash::launch
void launch(T *f, const TuneParam &tp, Arg &arg, const cudaStream_t &stream)
Definition: dslash.h:101

quda::TuneParam
Definition: tune_quda.h:17

dslash_policy.cuh

worker.h

quda::LaplaceApply
Definition: laplace.cu:164

quda::LaplaceApply::LaplaceApply
LaplaceApply(ColorSpinorField &out, const ColorSpinorField &in, const GaugeField &U, int dir, double a, const ColorSpinorField &x, int parity, bool dagger, const int *comm_override, TimeProfile &profile)
Definition: laplace.cu:166

quda::EXTERIOR_KERNEL_ALL
Definition: index_helper.cuh:466

quda::Dslash::setParam
void setParam(Arg &arg)
Definition: dslash.h:66

quda::ColorSpinorField
Definition: color_spinor_field.h:311

quda::dslash::DslashPolicyTune::apply
void apply(const cudaStream_t &stream)
Definition: dslash_policy.cuh:2011

getVerbosity
QudaVerbosity getVerbosity()
Definition: util_quda.cpp:21

kappa
double kappa
Definition: test_util.cpp:1647

checkPrecision
#define checkPrecision(...)
Definition: lattice_field.h:695

errorQuda
#define errorQuda(...)
Definition: util_quda.h:121

quda::ColorSpinorField::VolumeCB
int VolumeCB() const
Definition: color_spinor_field.h:416

quda::stream
cudaStream_t * stream
Definition: cuda_color_spinor_field.cpp:897

quda::Laplace::in
const ColorSpinorField & in
Definition: laplace.cu:44

quda::Laplace
Definition: laplace.cu:39

quda::LatticeField::VolString
const char * VolString() const
Definition: lattice_field.h:624

quda::ApplyLaplace
void ApplyLaplace(ColorSpinorField &out, const ColorSpinorField &in, const GaugeField &U, int dir, double kappa, const ColorSpinorField &x, int parity, bool dagger, const int *comm_override, TimeProfile &profile)
Driver for applying the Laplace stencil.
Definition: laplace.cu:188

quda::EXTERIOR_KERNEL_T
Definition: index_helper.cuh:470

quda::Laplace::~Laplace
virtual ~Laplace()
Definition: laplace.cu:54

quda::LaplaceLaunch
This is a helper class that is used to instantiate the correct templated kernel for the dslash...
Definition: laplace.cu:27

quda::ColorSpinorField::Ncolor
int Ncolor() const
Definition: color_spinor_field.h:405

quda::ColorSpinorField::Volume
int Volume() const
Definition: color_spinor_field.h:415

quda::Laplace::bytes
virtual long long bytes() const
Definition: laplace.cu:111

quda
Definition: blas_cublas.h:5

quda::KERNEL_POLICY
Definition: index_helper.cuh:471

quda::Laplace::flops
long long flops() const
Definition: laplace.cu:63

quda::dslash::DslashPolicyTune
Definition: dslash_policy.cuh:1770

quda::EXTERIOR_KERNEL_X
Definition: index_helper.cuh:467

quda::Dslash
Definition: dslash.h:12

quda::LaplaceLaunch::launch
static void launch(Dslash &dslash, TuneParam &tp, Arg &arg, const cudaStream_t &stream)
Definition: laplace.cu:33

quda::EXTERIOR_KERNEL_Y
Definition: index_helper.cuh:468

quda::LaplaceArg
Parameter structure for driving the covariatnt derivative operator.
Definition: laplace.cuh:16

quda::INTERIOR_KERNEL
Definition: index_helper.cuh:465

quda::Laplace::tuneKey
TuneKey tuneKey() const
Definition: laplace.cu:151

laplace.cuh

in
cpuColorSpinorField * in
Definition: staggered_invert_test.cpp:98

quda::ColorSpinorField::GhostFaceCB
const int * GhostFaceCB() const
Definition: color_spinor_field.h:487

quda::tuneLaunch
TuneParam & tuneLaunch(Tunable &tunable, QudaTune enabled, QudaVerbosity verbosity)
Definition: tune.cpp:643

checkLocation
#define checkLocation(...)
Definition: lattice_field.h:664

dslash.h

gauge_field_order.h
Main header file for host and device accessors to GaugeFields.

dslash_helper.cuh

quda::EXTERIOR_KERNEL_Z
Definition: index_helper.cuh:469

quda::Arg
Definition: spinor_noise.cu:22

quda::Laplace::arg
Arg & arg
Definition: laplace.cu:43

quda::isFixed
Definition: register_traits.h:144

index_helper.cuh

quda::Laplace::Laplace
Laplace(Arg &arg, const ColorSpinorField &out, const ColorSpinorField &in)
Definition: laplace.cu:47

out
cpuColorSpinorField * out
Definition: staggered_invert_test.cpp:99

quda::u32toa
void u32toa(char *buffer, uint32_t value)
Definition: uint_to_char.h:45

color_spinor_field_order.h

quda::TuneKey::aux_n
static const int aux_n
Definition: tune_key.h:12

quda::arg
__host__ __device__ ValueType arg(const complex< ValueType > &z)
Returns the phase angle of z.
Definition: complex_quda.h:1076

quda::TimeProfile
Definition: timer.h:171

quda::ColorSpinorField::GhostFace
const int * GhostFace() const
Definition: color_spinor_field.h:486

quda::LaplaceLaunch::kernel
static constexpr const char * kernel
Definition: laplace.cu:30

quda::laplace
__device__ __host__ void laplace(Arg &arg, int idx, int parity)
Definition: laplace.cuh:132

checkCudaError
#define checkCudaError()
Definition: util_quda.h:161

uint_to_char.h

getTuning
QudaTune getTuning()
Query whether autotuning is enabled or not. Default is enabled but can be overridden by setting QUDA_...
Definition: util_quda.cpp:52

quda::LatticeField::Precision
QudaPrecision Precision() const
Definition: lattice_field.h:546

dagger
QudaDagType dagger
Definition: test_util.cpp:1620

quda::Laplace::apply
void apply(const cudaStream_t &stream)
Definition: laplace.cu:56

parity
QudaParity parity
Definition: covdev_test.cpp:54

quda::ColorSpinorField::FieldOrder
QudaFieldOrder FieldOrder() const
Definition: color_spinor_field.h:483

gauge_field.h

quda::TuneKey
Definition: tune_key.h:8

quda::ColorSpinorField::V
void * V()
Definition: color_spinor_field.h:424

color_spinor.h

quda::GaugeField
Definition: gauge_field.h:164