v0.9.0/doc/copy__gauge__helper_8cuh_source.html

 #include <gauge_field_order.h>

 namespace quda {

   using namespace gauge;

   template <typename OutOrder, typename InOrder>
   struct CopyGaugeArg {
     OutOrder out;
     const InOrder in;
     int volume;
     int faceVolumeCB[QUDA_MAX_DIM];
     int nDim;
     int geometry;
     int out_offset;
     int in_offset;
     CopyGaugeArg(const OutOrder &out, const InOrder &in, int volume,
      const int *faceVolumeCB, int nDim, int geometry)
       : out(out), in(in), volume(volume), nDim(nDim), geometry(geometry),
   out_offset(0), in_offset(0) {
       for (int d=0; d<nDim; d++) this->faceVolumeCB[d] = faceVolumeCB[d];
     }
   };

   template <typename FloatOut, typename FloatIn, int length, typename OutOrder, typename InOrder>
   void copyGauge(CopyGaugeArg<OutOrder,InOrder> arg) {
     typedef typename mapper<FloatIn>::type RegTypeIn;
     typedef typename mapper<FloatOut>::type RegTypeOut;

     for (int parity=0; parity<2; parity++) {

       for (int d=0; d<arg.geometry; d++) {
   for (int x=0; x<arg.volume/2; x++) {
 #ifdef FINE_GRAINED_ACCESS
     for (int i=0; i<Ncolor(length); i++)
       for (int j=0; j<Ncolor(length); j++) {
         arg.out(d, parity, x, i, j) = arg.in(d, parity, x, i, j);
       }
 #else
     RegTypeIn in[length];
     RegTypeOut out[length];
     arg.in.load(in, x, d, parity);
     for (int i=0; i<length; i++) out[i] = in[i];
     arg.out.save(out, x, d, parity);
 #endif
   }
       }

     }
   }

   template <typename Float, int length, typename Arg>
   void checkNan(Arg arg) {
     typedef typename mapper<Float>::type RegType;

     for (int parity=0; parity<2; parity++) {

       for (int d=0; d<arg.geometry; d++) {
   for (int x=0; x<arg.volume/2; x++) {
 #ifdef FINE_GRAINED_ACCESS
     for (int i=0; i<Ncolor(length); i++)
       for (int j=0; j<Ncolor(length); j++) {
               complex<Float> u = arg.in(d, parity, x, i, j);
         if (isnan(u.real()))
           errorQuda("Nan detected at parity=%d, dir=%d, x=%d, i=%d", parity, d, x, 2*(i*Ncolor(length)+j));
         if (isnan(u.imag()))
     errorQuda("Nan detected at parity=%d, dir=%d, x=%d, i=%d", parity, d, x, 2*(i*Ncolor(length)+j+1));
   }
 #else
     RegType u[length];
     arg.in.load(u, x, d, parity);
     for (int i=0; i<length; i++)
       if (isnan(u[i]))
         errorQuda("Nan detected at parity=%d, dir=%d, x=%d, i=%d", parity, d, x, i);
 #endif
   }
       }

     }
   }

   template <typename FloatOut, typename FloatIn, int length, typename OutOrder, typename InOrder>
   __global__ void copyGaugeKernel(CopyGaugeArg<OutOrder,InOrder> arg) {
     typedef typename mapper<FloatIn>::type RegTypeIn;
     typedef typename mapper<FloatOut>::type RegTypeOut;

     for (int parity=0; parity<2; parity++) {
       int x = blockIdx.x * blockDim.x + threadIdx.x;
       int d = blockIdx.y * blockDim.y + threadIdx.y;
       if (x >= arg.volume/2) return;
       if (d >= arg.geometry) return;

 #ifdef FINE_GRAINED_ACCESS
       for (int i=0; i<Ncolor(length); i++)
   for (int j=0; j<Ncolor(length); j++)
     arg.out(d, parity, x, i, j) = arg.in(d, parity, x, i, j);
 #else
       RegTypeIn in[length];
       RegTypeOut out[length];
       arg.in.load(in, x, d, parity);
       for (int i=0; i<length; i++) out[i] = in[i];
       arg.out.save(out, x, d, parity);
 #endif
     }
   }

   template <typename FloatOut, typename FloatIn, int length, typename OutOrder, typename InOrder>
     void copyGhost(CopyGaugeArg<OutOrder,InOrder> arg) {
     typedef typename mapper<FloatIn>::type RegTypeIn;
     typedef typename mapper<FloatOut>::type RegTypeOut;

     for (int parity=0; parity<2; parity++) {

       for (int d=0; d<arg.nDim; d++) {
   for (int x=0; x<arg.faceVolumeCB[d]; x++) {
 #ifdef FINE_GRAINED_ACCESS
     for (int i=0; i<Ncolor(length); i++)
       for (int j=0; j<Ncolor(length); j++)
         arg.out.Ghost(d+arg.out_offset, parity, x, i, j) = arg.in.Ghost(d+arg.in_offset, parity, x, i, j);
 #else
     RegTypeIn in[length];
     RegTypeOut out[length];
     arg.in.loadGhost(in, x, d+arg.in_offset, parity); // assumes we are loading
     for (int i=0; i<length; i++) out[i] = in[i];
     arg.out.saveGhost(out, x, d+arg.out_offset, parity);
 #endif
   }
       }

     }
   }

   template <typename FloatOut, typename FloatIn, int length, typename OutOrder, typename InOrder>
   __global__ void copyGhostKernel(CopyGaugeArg<OutOrder,InOrder> arg) {
     typedef typename mapper<FloatIn>::type RegTypeIn;
     typedef typename mapper<FloatOut>::type RegTypeOut;

     int x = blockIdx.x * blockDim.x + threadIdx.x;

     for (int parity=0; parity<2; parity++) {
       for (int d=0; d<arg.nDim; d++) {
   if (x < arg.faceVolumeCB[d]) {
 #ifdef FINE_GRAINED_ACCESS
     for (int i=0; i<Ncolor(length); i++)
       for (int j=0; j<Ncolor(length); j++)
         arg.out.Ghost(d+arg.out_offset, parity, x, i, j) = arg.in.Ghost(d+arg.in_offset, parity, x, i, j);
 #else
     RegTypeIn in[length];
     RegTypeOut out[length];
     arg.in.loadGhost(in, x, d+arg.in_offset, parity); // assumes we are loading
     for (int i=0; i<length; i++) out[i] = in[i];
     arg.out.saveGhost(out, x, d+arg.out_offset, parity);
 #endif
   }
       }

     }
   }

   template <typename FloatOut, typename FloatIn, int length, typename OutOrder, typename InOrder, bool isGhost>
   class CopyGauge : TunableVectorY {
     CopyGaugeArg<OutOrder,InOrder> arg;
     int size;
     const GaugeField &meta;

   private:
     unsigned int sharedBytesPerThread() const { return 0; }
     unsigned int sharedBytesPerBlock(const TuneParam &param) const { return 0 ;}

     bool tuneGridDim() const { return false; } // Don't tune the grid dimensions.
     unsigned int minThreads() const { return size; }

   public:
     CopyGauge(CopyGaugeArg<OutOrder,InOrder> &arg, const GaugeField &out, const GaugeField &in)
       : TunableVectorY(arg.in.geometry), arg(arg), meta(out) {
       int faceMax = 0;
       for (int d=0; d<arg.nDim; d++) {
   faceMax = (arg.faceVolumeCB[d] > faceMax ) ? arg.faceVolumeCB[d] : faceMax;
       }
       size = isGhost ? faceMax : arg.volume/2;
       if (size == 0 && isGhost) {
   errorQuda("Cannot copy zero-sized ghost zone.  Check nFace parameter is non-zero for both input and output gauge fields");
       }

 #ifndef FINE_GRAINED_ACCESS
       int n = writeAuxString("out_stride=%d,in_stride=%d,geometry=%d",arg.out.stride, arg.in.stride, arg.in.geometry);
       if (out.Order() == QUDA_MILC_SITE_GAUGE_ORDER) {
   n = snprintf(aux+n,TuneKey::aux_n,",in_siteoffset=%lu,out_sitesize=%lu",out.SiteOffset(),out.SiteSize());
   if (n < 0 || n >=TuneKey::aux_n) errorQuda("Error writing auxiliary string");
       }
       if (in.Order() == QUDA_MILC_SITE_GAUGE_ORDER) {
   n = snprintf(aux+n,TuneKey::aux_n,",in_siteoffset=%lu,in_sitesize=%lu",in.SiteOffset(),in.SiteSize());
   if (n < 0 || n >=TuneKey::aux_n) errorQuda("Error writing auxiliary string");
       }
 #else
       writeAuxString("fine-grained,geometry=%d", arg.in.geometry);
 #endif
     }

     virtual ~CopyGauge() { ; }

     void apply(const cudaStream_t &stream) {
       TuneParam tp = tuneLaunch(*this, getTuning(), getVerbosity());
       if (!isGhost) {
   copyGaugeKernel<FloatOut, FloatIn, length, OutOrder, InOrder>
     <<<tp.grid, tp.block, tp.shared_bytes, stream>>>(arg);
       } else {
   copyGhostKernel<FloatOut, FloatIn, length, OutOrder, InOrder>
     <<<tp.grid, tp.block, tp.shared_bytes, stream>>>(arg);
       }
     }

     TuneKey tuneKey() const { return TuneKey(meta.VolString(), typeid(*this).name(), aux); }

     long long flops() const { return 0; }
     long long bytes() const {
       int sites = 4*arg.volume/2;
       if (isGhost) {
   sites = 0;
   for (int d=0; d<4; d++) sites += arg.faceVolumeCB[d];
       }
 #ifndef FINE_GRAINED_ACCESS
       return 2 * sites * (  arg.in.Bytes() + arg.in.hasPhase*sizeof(FloatIn)
           + arg.out.Bytes() + arg.out.hasPhase*sizeof(FloatOut) );
 #else
       return 2 * sites * (  arg.in.Bytes() + arg.out.Bytes() );
 #endif
     }
   };


   template <typename FloatOut, typename FloatIn, int length, typename OutOrder, typename InOrder>
     void copyGauge(OutOrder &&outOrder, const InOrder &inOrder, int volume, const int *faceVolumeCB,
        int nDim, int geometry, const GaugeField &out, const GaugeField &in,
        QudaFieldLocation location, int type) {

     CopyGaugeArg<OutOrder,InOrder> arg(outOrder, inOrder, volume, faceVolumeCB, nDim, geometry);

     if (location == QUDA_CPU_FIELD_LOCATION) {
 #ifdef HOST_DEBUG
       checkNan<FloatIn, length>(arg);
 #endif

       if (type == 0 || type == 2) {
   copyGauge<FloatOut, FloatIn, length>(arg);
       }
 #ifdef MULTI_GPU // only copy the ghost zone if doing multi-gpu
       if (type == 0 || type == 1) {
   if (geometry == QUDA_VECTOR_GEOMETRY || geometry == QUDA_COARSE_GEOMETRY) copyGhost<FloatOut, FloatIn, length>(arg);
   //else warningQuda("Cannot copy for %d geometry gauge field", geometry);
       }

       // special copy that only copies the second set of links in the ghost zone for bi-directional link fields
       if (type == 3) {
         if (geometry != QUDA_COARSE_GEOMETRY) errorQuda("Cannot request copy type %d on non-coarse link fields", geometry);
   arg.out_offset = nDim;
   copyGhost<FloatOut, FloatIn, length>(arg);
       }
 #endif
     } else if (location == QUDA_CUDA_FIELD_LOCATION) {
       // first copy body
       if (type == 0 || type == 2) {
   CopyGauge<FloatOut, FloatIn, length, OutOrder, InOrder, 0> gaugeCopier(arg, out, in);
   gaugeCopier.apply(0);
       }
 #ifdef MULTI_GPU
       if (type == 0 || type == 1) {
   if (geometry == QUDA_VECTOR_GEOMETRY || geometry == QUDA_COARSE_GEOMETRY) {
     // now copy ghost
     CopyGauge<FloatOut, FloatIn, length, OutOrder, InOrder, 1> ghostCopier(arg, out, in);
     ghostCopier.apply(0);
   } else {
     //warningQuda("Cannot copy for %d geometry gauge field", geometry);
   }
       }

       // special copy that only copies the second set of links in the ghost zone for bi-directional link fields
       if (type == 3) {
         if (geometry != QUDA_COARSE_GEOMETRY) errorQuda("Cannot request copy type %d on non-coarse link fields", geometry);
   arg.out_offset = nDim;
   CopyGauge<FloatOut, FloatIn, length, OutOrder, InOrder, 1> ghostCopier(arg, out, in);
   ghostCopier.apply(0);
       }
 #endif
     } else {
       errorQuda("Undefined field location %d for copyGauge", location);
     }

   }

 } // namespace quda
quda::CopyGauge::size
int size
Definition: copy_gauge_helper.cuh:183

quda::gauge::Ncolor
__host__ __device__ constexpr int Ncolor(int length)
Return the number of colors of the accessor based on the length of the field.
Definition: gauge_field_order.h:943

quda::TuneParam
Definition: tune_quda.h:17

blockDim
dim3 dim3 blockDim
Definition: CMakeCUDACompilerId.cpp1.ii:2471

quda::CopyGaugeArg::out
OutOrder out
Definition: copy_gauge_helper.cuh:12

quda::CopyGauge::meta
const GaugeField & meta
Definition: copy_gauge_helper.cuh:184

quda::CopyGaugeArg::geometry
int geometry
Definition: copy_gauge_helper.cuh:17

quda::CopyGauge::apply
void apply(const cudaStream_t &stream)
Definition: copy_gauge_helper.cuh:222

snprintf
int snprintf(char *__str, size_t __size, const char *__format,...) __attribute__((__format__(__printf__

quda::CopyGauge::CopyGauge
CopyGauge(CopyGaugeArg< OutOrder, InOrder > &arg, const GaugeField &out, const GaugeField &in)
Definition: copy_gauge_helper.cuh:194

getVerbosity
QudaVerbosity getVerbosity()
Definition: util_quda.cpp:20

quda::copyGauge
void copyGauge(CopyGaugeArg< OutOrder, InOrder > arg)
Definition: copy_gauge_helper.cuh:32

errorQuda
#define errorQuda(...)
Definition: util_quda.h:90

QUDA_CUDA_FIELD_LOCATION
Definition: enum_quda.h:297

quda::stream
cudaStream_t * stream
Definition: cuda_color_spinor_field.cu:898

quda::LatticeField::VolString
const char * VolString() const
Definition: lattice_field.h:524

quda::TuneParam::shared_bytes
int shared_bytes
Definition: tune_quda.h:22

QUDA_MILC_SITE_GAUGE_ORDER
Definition: enum_quda.h:45

quda::CopyGauge::flops
long long flops() const
Definition: copy_gauge_helper.cuh:235

quda::CopyGauge::tuneGridDim
bool tuneGridDim() const
Definition: copy_gauge_helper.cuh:190

quda::TuneParam::grid
dim3 grid
Definition: tune_quda.h:21

quda::CopyGauge::~CopyGauge
virtual ~CopyGauge()
Definition: copy_gauge_helper.cuh:220

quda
Definition: blas_cublas.h:6

quda::copyGhostKernel
__global__ void copyGhostKernel(CopyGaugeArg< OutOrder, InOrder > arg)
Definition: copy_gauge_helper.cuh:154

param
QudaGaugeParam param
Definition: pack_test.cpp:17

x
p x
Definition: CMakeCUDACompilerId.cpp1.ii:3011

quda::CopyGauge
Definition: copy_gauge_helper.cuh:181

quda::CopyGauge::minThreads
unsigned int minThreads() const
Definition: copy_gauge_helper.cuh:191

quda::CopyGaugeArg
Definition: copy_gauge_helper.cuh:11

quda::TuneParam::block
dim3 block
Definition: tune_quda.h:20

quda::CopyGaugeArg::out_offset
int out_offset
Definition: copy_gauge_helper.cuh:18

quda::TunableVectorY
Definition: tune_quda.h:346

in
cpuColorSpinorField * in
Definition: staggered_invert_test.cpp:44

quda::tuneLaunch
TuneParam & tuneLaunch(Tunable &tunable, QudaTune enabled, QudaVerbosity verbosity)
Definition: tune.cpp:603

fused_exterior_ndeg_tm_dslash_cuda_gen.i
int i
start here
Definition: fused_exterior_ndeg_tm_dslash_cuda_gen.py:816

quda::CopyGauge::sharedBytesPerThread
unsigned int sharedBytesPerThread() const
Definition: copy_gauge_helper.cuh:187

gauge_field_order.h
Main header file for host and device accessors to GaugeFields.

quda::copyGaugeKernel
__global__ void copyGaugeKernel(CopyGaugeArg< OutOrder, InOrder > arg)
Definition: copy_gauge_helper.cuh:96

quda::CopyGaugeArg::in
const InOrder in
Definition: copy_gauge_helper.cuh:13

QUDA_VECTOR_GEOMETRY
Definition: enum_quda.h:427

quda::CopyGauge::bytes
long long bytes() const
Definition: copy_gauge_helper.cuh:236

quda::CopyGaugeArg::nDim
int nDim
Definition: copy_gauge_helper.cuh:16

QudaFieldLocation
enum QudaFieldLocation_s QudaFieldLocation

out
cpuColorSpinorField * out
Definition: staggered_invert_test.cpp:45

quda::CopyGaugeArg::CopyGaugeArg
CopyGaugeArg(const OutOrder &out, const InOrder &in, int volume, const int *faceVolumeCB, int nDim, int geometry)
Definition: copy_gauge_helper.cuh:20

quda::mapper
Definition: register_traits.h:41

quda::TuneKey::aux_n
static const int aux_n
Definition: tune_key.h:12

n
int n
Definition: CMakeCUDACompilerId.cpp1.ii:8086

quda::checkNan
void checkNan(Arg arg)
Definition: copy_gauge_helper.cuh:62

quda::CopyGauge::sharedBytesPerBlock
unsigned int sharedBytesPerBlock(const TuneParam &param) const
Definition: copy_gauge_helper.cuh:188

size
size_t size
Definition: CMakeCUDACompilerId.cpp1.ii:2289

quda::CopyGaugeArg::volume
int volume
Definition: copy_gauge_helper.cuh:14

quda::arg
__host__ __device__ ValueType arg(const complex< ValueType > &z)
Returns the phase angle of z.
Definition: complex_quda.h:880

length
void size_t length
Definition: CMakeCUDACompilerId.cpp1.ii:2433

QUDA_COARSE_GEOMETRY
Definition: enum_quda.h:429

QUDA_MAX_DIM
#define QUDA_MAX_DIM
Maximum number of dimensions supported by QUDA. In practice, no routines make use of more than 5...
Definition: quda_constants.h:17

getTuning
QudaTune getTuning()
Query whether autotuning is enabled or not. Default is enabled but can be overridden by setting QUDA_...
Definition: util_quda.cpp:51

d
static __inline__ size_t size_t d
Definition: CMakeCUDACompilerId.cpp1.ii:3019

parity
QudaParity parity
Definition: covdev_test.cpp:53

QUDA_CPU_FIELD_LOCATION
Definition: enum_quda.h:296

quda::TuneKey
Definition: tune_key.h:8

quda::CopyGaugeArg::in_offset
int in_offset
Definition: copy_gauge_helper.cuh:19

quda::copyGhost
void copyGhost(CopyGaugeArg< OutOrder, InOrder > arg)
Definition: copy_gauge_helper.cuh:124

quda::CopyGauge::arg
CopyGaugeArg< OutOrder, InOrder > arg
Definition: copy_gauge_helper.cuh:182

quda::GaugeField
Definition: gauge_field.h:123

quda::CopyGauge::tuneKey
TuneKey tuneKey() const
Definition: copy_gauge_helper.cuh:233