quda-ref/v1.0.0/gauge__stout_8cu_source.html

 #include <quda_internal.h>
 #include <tune_quda.h>
 #include <gauge_field.h>

 #define  DOUBLE_TOL 1e-15
 #define  SINGLE_TOL 2e-6

 #include <jitify_helper.cuh>
 #include <kernels/gauge_stout.cuh>

 namespace quda {

 #ifdef GPU_GAUGE_TOOLS

   template <typename Float, typename Arg> class GaugeSTOUT : TunableVectorYZ
   {
     Arg &arg;
     const GaugeField &meta;

 private:
     bool tuneGridDim() const { return false; } // Don't tune the grid dimensions.
     unsigned int minThreads() const { return arg.threads; }

 public:
     // (2,3): 2 for parity in the y thread dim, 3 corresponds to mapping direction to the z thread dim
     GaugeSTOUT(Arg &arg, const GaugeField &meta) : TunableVectorYZ(2, 3), arg(arg), meta(meta)
     {
 #ifdef JITIFY
       create_jitify_program("kernels/gauge_stout.cuh");
 #endif
     }
     virtual ~GaugeSTOUT() {}

     void apply(const cudaStream_t &stream)
     {
       if (meta.Location() == QUDA_CUDA_FIELD_LOCATION) {
         TuneParam tp = tuneLaunch(*this, getTuning(), getVerbosity());
 #ifdef JITIFY
         using namespace jitify::reflection;
         jitify_error = program->kernel("quda::computeSTOUTStep")
                            .instantiate(Type<Float>(), Type<Arg>())
                            .configure(tp.grid, tp.block, tp.shared_bytes, stream)
                            .launch(arg);
 #else
         computeSTOUTStep<Float><<<tp.grid, tp.block, tp.shared_bytes>>>(arg);
 #endif
       } else {
         errorQuda("CPU not supported yet\n");
         // computeSTOUTStepCPU(arg);
       }
     }

     TuneKey tuneKey() const
     {
       std::stringstream aux;
       aux << "threads=" << arg.threads << ",prec=" << sizeof(Float);
       return TuneKey(meta.VolString(), typeid(*this).name(), aux.str().c_str());
     }

     void preTune() { arg.dest.save(); } // defensive measure in case they alias
     void postTune() { arg.dest.load(); }

     long long flops() const { return 3 * (2 + 2 * 4) * 198ll * arg.threads; } // just counts matrix multiplication
     long long bytes() const { return 3 * ((1 + 2 * 6) * arg.origin.Bytes() + arg.dest.Bytes()) * arg.threads; }
   }; // GaugeSTOUT

   template<typename Float,typename GaugeOr, typename GaugeDs>
   void STOUTStep(GaugeOr origin, GaugeDs dest, const GaugeField& dataOr, Float rho) {
     GaugeSTOUTArg<Float,GaugeOr,GaugeDs> arg(origin, dest, dataOr, rho, dataOr.Precision() == QUDA_DOUBLE_PRECISION ? DOUBLE_TOL : SINGLE_TOL);
     GaugeSTOUT<Float, GaugeSTOUTArg<Float, GaugeOr, GaugeDs>> gaugeSTOUT(arg, dataOr);
     gaugeSTOUT.apply(0);
     qudaDeviceSynchronize();
   }

   template<typename Float>
   void STOUTStep(GaugeField &dataDs, const GaugeField& dataOr, Float rho) {

     if(dataDs.Reconstruct() == QUDA_RECONSTRUCT_NO) {
       typedef typename gauge_mapper<Float,QUDA_RECONSTRUCT_NO>::type GDs;

       if(dataOr.Reconstruct() == QUDA_RECONSTRUCT_NO) {
   typedef typename gauge_mapper<Float,QUDA_RECONSTRUCT_NO>::type GOr;
   STOUTStep(GOr(dataOr), GDs(dataDs), dataOr, rho);
       }else if(dataOr.Reconstruct() == QUDA_RECONSTRUCT_12){
   typedef typename gauge_mapper<Float,QUDA_RECONSTRUCT_12>::type GOr;
   STOUTStep(GOr(dataOr), GDs(dataDs), dataOr, rho);
       }else if(dataOr.Reconstruct() == QUDA_RECONSTRUCT_8){
   typedef typename gauge_mapper<Float,QUDA_RECONSTRUCT_8>::type GOr;
   STOUTStep(GOr(dataOr), GDs(dataDs), dataOr, rho);
       }else{
   errorQuda("Reconstruction type %d of origin gauge field not supported", dataOr.Reconstruct());
       }
     } else if(dataDs.Reconstruct() == QUDA_RECONSTRUCT_12){
       typedef typename gauge_mapper<Float,QUDA_RECONSTRUCT_12>::type GDs;
       if(dataOr.Reconstruct() == QUDA_RECONSTRUCT_NO){
   typedef typename gauge_mapper<Float,QUDA_RECONSTRUCT_NO>::type GOr;
   STOUTStep(GOr(dataOr), GDs(dataDs), dataOr, rho);
       }else if(dataOr.Reconstruct() == QUDA_RECONSTRUCT_12){
   typedef typename gauge_mapper<Float,QUDA_RECONSTRUCT_12>::type GOr;
   STOUTStep(GOr(dataOr), GDs(dataDs), dataOr, rho);
       }else if(dataOr.Reconstruct() == QUDA_RECONSTRUCT_8){
   typedef typename gauge_mapper<Float,QUDA_RECONSTRUCT_8>::type GOr;
   STOUTStep(GOr(dataOr), GDs(dataDs), dataOr, rho);
       }else{
   errorQuda("Reconstruction type %d of origin gauge field not supported", dataOr.Reconstruct());
       }
     } else if(dataDs.Reconstruct() == QUDA_RECONSTRUCT_8){
       typedef typename gauge_mapper<Float,QUDA_RECONSTRUCT_8>::type GDs;
       if(dataOr.Reconstruct() == QUDA_RECONSTRUCT_NO){
   typedef typename gauge_mapper<Float,QUDA_RECONSTRUCT_NO>::type GOr;
   STOUTStep(GOr(dataOr), GDs(dataDs), dataOr, rho);
       }else if(dataOr.Reconstruct() == QUDA_RECONSTRUCT_12){
   typedef typename gauge_mapper<Float,QUDA_RECONSTRUCT_12>::type GOr;
   STOUTStep(GOr(dataOr), GDs(dataDs), dataOr, rho);
       }else if(dataOr.Reconstruct() == QUDA_RECONSTRUCT_8){
   typedef typename gauge_mapper<Float,QUDA_RECONSTRUCT_8>::type GOr;
   STOUTStep(GOr(dataOr), GDs(dataDs), dataOr, rho);
       }else{
   errorQuda("Reconstruction type %d of origin gauge field not supported", dataOr.Reconstruct());
             }
     } else {
       errorQuda("Reconstruction type %d of destination gauge field not supported", dataDs.Reconstruct());
     }

   }

 #endif

   void STOUTStep(GaugeField &dataDs, const GaugeField& dataOr, double rho) {

 #ifdef GPU_GAUGE_TOOLS

     if(dataOr.Precision() != dataDs.Precision()) {
       errorQuda("Origin and destination fields must have the same precision\n");
     }

     if(dataDs.Precision() == QUDA_HALF_PRECISION){
       errorQuda("Half precision not supported\n");
     }

     if (!dataOr.isNative())
       errorQuda("Order %d with %d reconstruct not supported", dataOr.Order(), dataOr.Reconstruct());

     if (!dataDs.isNative())
       errorQuda("Order %d with %d reconstruct not supported", dataDs.Order(), dataDs.Reconstruct());

     if (dataDs.Precision() == QUDA_SINGLE_PRECISION){
       STOUTStep<float>(dataDs, dataOr, (float) rho);
     } else if(dataDs.Precision() == QUDA_DOUBLE_PRECISION) {
       STOUTStep<double>(dataDs, dataOr, rho);
     } else {
       errorQuda("Precision %d not supported", dataDs.Precision());
     }
     return;
 #else
     errorQuda("Gauge tools are not built");
 #endif
   }

   template <typename Float, typename Arg> class GaugeOvrImpSTOUT : TunableVectorYZ
   {
     Arg &arg;
     const GaugeField &meta;

 private:
     bool tuneGridDim() const { return false; } // Don't tune the grid dimensions.
     unsigned int minThreads() const { return arg.threads; }

 public:
     // (2,3): 2 for parity in the y thread dim, 3 corresponds to mapping direction to the z thread dim
     GaugeOvrImpSTOUT(Arg &arg, const GaugeField &meta) : TunableVectorYZ(2, 3), arg(arg), meta(meta) {}
     virtual ~GaugeOvrImpSTOUT() {}

     void apply(const cudaStream_t &stream)
     {
       if (meta.Location() == QUDA_CUDA_FIELD_LOCATION) {
         TuneParam tp = tuneLaunch(*this, getTuning(), getVerbosity());
 #ifdef JITIFY
         using namespace jitify::reflection;
         jitify_error = program->kernel("quda::computeOvrImpSTOUTStep")
                            .instantiate(Type<Float>(), Type<Arg>())
                            .configure(tp.grid, tp.block, tp.shared_bytes, stream)
                            .launch(arg);
 #else
         computeOvrImpSTOUTStep<Float><<<tp.grid, tp.block, tp.shared_bytes>>>(arg);
 #endif
       } else {
         errorQuda("CPU not supported yet\n");
         // computeOvrImpSTOUTStepCPU(arg);
       }
     }

     TuneKey tuneKey() const
     {
       std::stringstream aux;
       aux << "threads=" << arg.threads << ",prec=" << sizeof(Float);
       return TuneKey(meta.VolString(), typeid(*this).name(), aux.str().c_str());
     }

     void preTune() { arg.dest.save(); } // defensive measure in case they alias
     void postTune() { arg.dest.load(); }

     long long flops() const { return 4*(18+2+2*4)*198ll*arg.threads; } // just counts matrix multiplication
     long long bytes() const { return 4*((1+2*12)*arg.origin.Bytes()+arg.dest.Bytes())*arg.threads; }
   }; // GaugeOvrImpSTOUT

   template<typename Float,typename GaugeOr, typename GaugeDs>
   void OvrImpSTOUTStep(GaugeOr origin, GaugeDs dest, const GaugeField& dataOr, Float rho, Float epsilon) {
     GaugeOvrImpSTOUTArg<Float, GaugeOr, GaugeDs> arg(
         origin, dest, dataOr, rho, epsilon, dataOr.Precision() == QUDA_DOUBLE_PRECISION ? DOUBLE_TOL : SINGLE_TOL);
     GaugeOvrImpSTOUT<Float, GaugeOvrImpSTOUTArg<Float, GaugeOr, GaugeDs>> gaugeOvrImpSTOUT(arg, dataOr);
     gaugeOvrImpSTOUT.apply(0);
     qudaDeviceSynchronize();
   }

   template<typename Float>
   void OvrImpSTOUTStep(GaugeField &dataDs, const GaugeField& dataOr, Float rho, Float epsilon) {

     if(dataDs.Reconstruct() == QUDA_RECONSTRUCT_NO) {
       typedef typename gauge_mapper<Float,QUDA_RECONSTRUCT_NO>::type GDs;

       if(dataOr.Reconstruct() == QUDA_RECONSTRUCT_NO) {
   typedef typename gauge_mapper<Float,QUDA_RECONSTRUCT_NO>::type GOr;
   OvrImpSTOUTStep(GOr(dataOr), GDs(dataDs), dataOr, rho, epsilon);
       }else if(dataOr.Reconstruct() == QUDA_RECONSTRUCT_12){
   typedef typename gauge_mapper<Float,QUDA_RECONSTRUCT_12>::type GOr;
   OvrImpSTOUTStep(GOr(dataOr), GDs(dataDs), dataOr, rho, epsilon);
       }else if(dataOr.Reconstruct() == QUDA_RECONSTRUCT_8){
   typedef typename gauge_mapper<Float,QUDA_RECONSTRUCT_8>::type GOr;
   OvrImpSTOUTStep(GOr(dataOr), GDs(dataDs), dataOr, rho, epsilon);
       }else{
   errorQuda("Reconstruction type %d of origin gauge field not supported", dataOr.Reconstruct());
       }
     } else if(dataDs.Reconstruct() == QUDA_RECONSTRUCT_12){
       typedef typename gauge_mapper<Float,QUDA_RECONSTRUCT_12>::type GDs;
       if(dataOr.Reconstruct() == QUDA_RECONSTRUCT_NO){
   typedef typename gauge_mapper<Float,QUDA_RECONSTRUCT_NO>::type GOr;
   OvrImpSTOUTStep(GOr(dataOr), GDs(dataDs), dataOr, rho, epsilon);
       }else if(dataOr.Reconstruct() == QUDA_RECONSTRUCT_12){
   typedef typename gauge_mapper<Float,QUDA_RECONSTRUCT_12>::type GOr;
   OvrImpSTOUTStep(GOr(dataOr), GDs(dataDs), dataOr, rho, epsilon);
       }else if(dataOr.Reconstruct() == QUDA_RECONSTRUCT_8){
   typedef typename gauge_mapper<Float,QUDA_RECONSTRUCT_8>::type GOr;
   OvrImpSTOUTStep(GOr(dataOr), GDs(dataDs), dataOr, rho, epsilon);
       }else{
   errorQuda("Reconstruction type %d of origin gauge field not supported", dataOr.Reconstruct());
       }
     } else if(dataDs.Reconstruct() == QUDA_RECONSTRUCT_8){
       typedef typename gauge_mapper<Float,QUDA_RECONSTRUCT_8>::type GDs;
       if(dataOr.Reconstruct() == QUDA_RECONSTRUCT_NO){
   typedef typename gauge_mapper<Float,QUDA_RECONSTRUCT_NO>::type GOr;
   OvrImpSTOUTStep(GOr(dataOr), GDs(dataDs), dataOr, rho, epsilon);
       }else if(dataOr.Reconstruct() == QUDA_RECONSTRUCT_12){
   typedef typename gauge_mapper<Float,QUDA_RECONSTRUCT_12>::type GOr;
   OvrImpSTOUTStep(GOr(dataOr), GDs(dataDs), dataOr, rho, epsilon);
       }else if(dataOr.Reconstruct() == QUDA_RECONSTRUCT_8){
   typedef typename gauge_mapper<Float,QUDA_RECONSTRUCT_8>::type GOr;
   OvrImpSTOUTStep(GOr(dataOr), GDs(dataDs), dataOr, rho, epsilon);
       }else{
   errorQuda("Reconstruction type %d of origin gauge field not supported", dataOr.Reconstruct());
             }
     } else {
       errorQuda("Reconstruction type %d of destination gauge field not supported", dataDs.Reconstruct());
     }

   }


   void OvrImpSTOUTStep(GaugeField &dataDs, const GaugeField& dataOr, double rho, double epsilon) {

 #ifdef GPU_GAUGE_TOOLS

     if(dataOr.Precision() != dataDs.Precision()) {
       errorQuda("Origin and destination fields must have the same precision\n");
     }

     if(dataDs.Precision() == QUDA_HALF_PRECISION){
       errorQuda("Half precision not supported\n");
     }

     if (!dataOr.isNative())
       errorQuda("Order %d with %d reconstruct not supported", dataOr.Order(), dataOr.Reconstruct());

     if (!dataDs.isNative())
       errorQuda("Order %d with %d reconstruct not supported", dataDs.Order(), dataDs.Reconstruct());

     if (dataDs.Precision() == QUDA_SINGLE_PRECISION){
       OvrImpSTOUTStep<float>(dataDs, dataOr, (float) rho, epsilon);
     } else if(dataDs.Precision() == QUDA_DOUBLE_PRECISION) {
       OvrImpSTOUTStep<double>(dataDs, dataOr, rho, epsilon);
     } else {
       errorQuda("Precision %d not supported", dataDs.Precision());
     }
     return;
 #else
     errorQuda("Gauge tools are not built");
 #endif
   }
 }
QUDA_RECONSTRUCT_NO
Definition: enum_quda.h:67

quda::TuneParam
Definition: tune_quda.h:17

quda::GaugeOvrImpSTOUT::GaugeOvrImpSTOUT
GaugeOvrImpSTOUT(Arg &arg, const GaugeField &meta)
Definition: gauge_stout.cu:171

getVerbosity
QudaVerbosity getVerbosity()
Definition: util_quda.cpp:21

errorQuda
#define errorQuda(...)
Definition: util_quda.h:121

QUDA_CUDA_FIELD_LOCATION
Definition: enum_quda.h:326

jitify_helper.cuh
Helper file when using jitify run-time compilation. This file should be included in source code...

quda::GaugeOvrImpSTOUT::~GaugeOvrImpSTOUT
virtual ~GaugeOvrImpSTOUT()
Definition: gauge_stout.cu:172

QUDA_HALF_PRECISION
Definition: enum_quda.h:60

quda::GaugeOvrImpSTOUT::tuneKey
TuneKey tuneKey() const
Definition: gauge_stout.cu:193

quda::STOUTStep
void STOUTStep(GaugeField &dataDs, const GaugeField &dataOr, double rho)
Apply STOUT smearing to the gauge field.
Definition: gauge_stout.cu:129

epsilon
double epsilon
Definition: test_util.cpp:1649

quda::stream
cudaStream_t * stream
Definition: cuda_color_spinor_field.cpp:897

quda::GaugeOvrImpSTOUT::meta
const GaugeField & meta
Definition: gauge_stout.cu:163

quda::LatticeField::VolString
const char * VolString() const
Definition: lattice_field.h:624

quda::TuneParam::shared_bytes
int shared_bytes
Definition: tune_quda.h:22

quda::GaugeOvrImpSTOUT::bytes
long long bytes() const
Definition: gauge_stout.cu:204

quda::TuneParam::grid
dim3 grid
Definition: tune_quda.h:21

quda
Definition: blas_cublas.h:5

quda::GaugeOvrImpSTOUT::postTune
void postTune()
Definition: gauge_stout.cu:201

quda::GaugeOvrImpSTOUT::arg
Arg & arg
Definition: gauge_stout.cu:162

qudaDeviceSynchronize
#define qudaDeviceSynchronize()
Definition: quda_cuda_api.h:145

SINGLE_TOL
#define SINGLE_TOL
Definition: gauge_stout.cu:6

QUDA_RECONSTRUCT_12
Definition: enum_quda.h:68

quda::GaugeOvrImpSTOUT::preTune
void preTune()
Definition: gauge_stout.cu:200

quda::GaugeOvrImpSTOUT
Definition: gauge_stout.cu:160

quda::TuneParam::block
dim3 block
Definition: tune_quda.h:20

quda::tuneLaunch
TuneParam & tuneLaunch(Tunable &tunable, QudaTune enabled, QudaVerbosity verbosity)
Definition: tune.cpp:643

quda::OvrImpSTOUTStep
void OvrImpSTOUTStep(GaugeField &dataDs, const GaugeField &dataOr, double rho, double epsilon)
Apply Over Improved STOUT smearing to the gauge field.
Definition: gauge_stout.cu:269

quda::GaugeOvrImpSTOUTArg
Definition: gauge_stout.cuh:202

tune_quda.h

quda::Arg
Definition: spinor_noise.cu:22

quda::LatticeField::Location
QudaFieldLocation Location() const
Definition: lattice_field.cpp:660

quda::GaugeOvrImpSTOUT::flops
long long flops() const
Definition: gauge_stout.cu:203

QUDA_RECONSTRUCT_8
Definition: enum_quda.h:69

QUDA_DOUBLE_PRECISION
Definition: enum_quda.h:62

DOUBLE_TOL
#define DOUBLE_TOL
Definition: gauge_stout.cu:5

QUDA_SINGLE_PRECISION
Definition: enum_quda.h:61

quda::TunableVectorYZ
Definition: tune_quda.h:485

quda::gauge_mapper
Definition: gauge_field_order.h:3012

quda::blas::flops
unsigned long long flops
Definition: blas_quda.cu:22

quda::GaugeOvrImpSTOUT::minThreads
unsigned int minThreads() const
Definition: gauge_stout.cu:167

quda::arg
__host__ __device__ ValueType arg(const complex< ValueType > &z)
Returns the phase angle of z.
Definition: complex_quda.h:1076

quda::GaugeOvrImpSTOUT::tuneGridDim
bool tuneGridDim() const
Definition: gauge_stout.cu:166

quda::GaugeField::Reconstruct
QudaReconstructType Reconstruct() const
Definition: gauge_field.h:250

quda::GaugeField::Order
QudaGaugeFieldOrder Order() const
Definition: gauge_field.h:251

getTuning
QudaTune getTuning()
Query whether autotuning is enabled or not. Default is enabled but can be overridden by setting QUDA_...
Definition: util_quda.cpp:52

quda::LatticeField::Precision
QudaPrecision Precision() const
Definition: lattice_field.h:546

quda::GaugeField::isNative
bool isNative() const
Definition: gauge_field.cpp:167

gauge_field.h

quda::TuneKey
Definition: tune_key.h:8

quda::blas::bytes
unsigned long long bytes
Definition: blas_quda.cu:23

gauge_stout.cuh

quda::GaugeOvrImpSTOUT::apply
void apply(const cudaStream_t &stream)
Definition: gauge_stout.cu:174

quda_internal.h

quda::GaugeField
Definition: gauge_field.h:164