v0.9.0/doc/color__spinor__pack_8cu_source.html

 #include <color_spinor_field.h>
 #include <color_spinor_field_order.h>
 #include <index_helper.cuh>
 #include <tune_quda.h>
 #include <fast_intdiv.h>

 namespace quda {

   template <typename Field>
   struct PackGhostArg {

     Field field;
     void **ghost;
     const void *v;
     int_fastdiv X[QUDA_MAX_DIM];
     const int volumeCB;
     const int nDim;
     const int nFace;
     const int parity;
     const int nParity;
     const int dagger;
     const QudaDWFPCType pc_type;
     int commDim[4]; // whether a given dimension is partitioned or not

     PackGhostArg(Field field, void **ghost, const ColorSpinorField &a, int parity, int nFace, int dagger)
       : field(field),
   ghost(ghost),
   v(a.V()),
   volumeCB(a.VolumeCB()),
   nDim(a.Ndim()),
   nFace(nFace),
   parity(parity),
   nParity(a.SiteSubset()),
   dagger(dagger),
   pc_type(a.DWFPCtype())
     {
       X[0] = ((nParity == 1) ? 2 : 1) * a.X(0); // set to full lattice dimensions
       for (int d=1; d<nDim; d++) X[d] = a.X(d);
       X[4] = (nDim == 5) ? a.X(4) : 1; // set fifth dimension correctly
       for (int i=0; i<4; i++) {
   commDim[i] = comm_dim_partitioned(i);
       }
     }
   };

   template <typename Float, int Ns, int Ms, int Nc, int Mc, int nDim, typename Arg>
   __device__ __host__ inline void packGhost(Arg &arg, int cb_idx, int parity, int spinor_parity, int spin_block, int color_block) {
     typedef typename mapper<Float>::type RegType;

     int x[5] = { };
     if (nDim == 5) getCoords5(x, cb_idx, arg.X, parity, arg.pc_type);
     else getCoords(x, cb_idx, arg.X, parity);

 #pragma unroll
     for (int dim=0; dim<4; dim++) {
       if (arg.commDim[dim] && x[dim] < arg.nFace){
   for (int spin_local=0; spin_local<Ms; spin_local++) {
     int s = spin_block + spin_local;
     for (int color_local=0; color_local<Mc; color_local++) {
       int c = color_block + color_local;
       arg.field.Ghost(dim, 0, spinor_parity, ghostFaceIndex<0>(x,arg.X,dim,arg.nFace), s, c)
         = arg.field(spinor_parity, cb_idx, s, c);
     }
   }
       }

       if (arg.commDim[dim] && x[dim] >= arg.X[dim] - arg.nFace){
   for (int spin_local=0; spin_local<Ms; spin_local++) {
     int s = spin_block + spin_local;
     for (int color_local=0; color_local<Mc; color_local++) {
       int c = color_block + color_local;
       arg.field.Ghost(dim, 1, spinor_parity, ghostFaceIndex<1>(x,arg.X,dim,arg.nFace), s, c)
         = arg.field(spinor_parity, cb_idx, s, c);
     }
   }
       }
     }
   }

   template <typename Float, int Ns, int Ms, int Nc, int Mc, int nDim, typename Arg>
   void GenericPackGhost(Arg &arg) {
     for (int parity=0; parity<arg.nParity; parity++) {
       parity = (arg.nParity == 2) ? parity : arg.parity;
       const int spinor_parity = (arg.nParity == 2) ? parity : 0;
       for (int i=0; i<arg.volumeCB; i++)
   for (int spin_block=0; spin_block<Ns; spin_block+=Ms)
     for (int color_block=0; color_block<Nc; color_block+=Mc)
       packGhost<Float,Ns,Ms,Nc,Mc,nDim>(arg, i, parity, spinor_parity, spin_block, color_block);
     }
   }

   template <typename Float, int Ns, int Ms, int Nc, int Mc, int nDim, typename Arg>
   __global__ void GenericPackGhostKernel(Arg arg) {
     int x_cb = blockIdx.x*blockDim.x + threadIdx.x;
     if (x_cb >= arg.volumeCB) return;

     const int parity = (arg.nParity == 2) ? blockDim.z*blockIdx.z + threadIdx.z : arg.parity;
     const int spinor_parity = (arg.nParity == 2) ? parity : 0;
     const int spin_color_block = blockDim.y*blockIdx.y + threadIdx.y;
     if (spin_color_block >= (Ns/Ms)*(Nc/Mc)) return; // ensure only valid threads
     const int spin_block = (spin_color_block / (Nc / Mc)) * Ms;
     const int color_block = (spin_color_block % (Nc / Mc)) * Mc;
     packGhost<Float,Ns,Ms,Nc,Mc,nDim>(arg, x_cb, parity, spinor_parity, spin_block, color_block);
   }

   template <typename Float, int Ns, int Ms, int Nc, int Mc, typename Arg>
   class GenericPackGhostLauncher : public TunableVectorYZ {
     Arg &arg;
     const ColorSpinorField &meta;
     unsigned int minThreads() const { return arg.volumeCB; }
     bool tuneGridDim() const { return false; }

   public:
     inline GenericPackGhostLauncher(Arg &arg, const ColorSpinorField &meta, MemoryLocation *destination)
       : TunableVectorYZ((Ns/Ms)*(Nc/Mc), arg.nParity), arg(arg), meta(meta) {
       strcpy(aux, meta.AuxString());
       strcat(aux,comm_dim_partitioned_string());

       // record the location of where each pack buffer is in [2*dim+dir] ordering
       // 0 - no packing
       // 1 - pack to local GPU memory
       // 2 - pack to local mapped CPU memory
       // 3 - pack to remote mapped GPU memory
       char label[15] = ",dest=";
       for (int dim=0; dim<4; dim++) {
   for (int dir=0; dir<2; dir++) {
     label[2*dim+dir+6] = !comm_dim_partitioned(dim) ? '0' : destination[2*dim+dir] == Device ? '1' : destination[2*dim+dir] == Host ? '2' : '3';
   }
       }
       label[14] = '\0';
       strcat(aux,label);
     }

     virtual ~GenericPackGhostLauncher() { }

     inline void apply(const cudaStream_t &stream) {
       if (meta.Location() == QUDA_CPU_FIELD_LOCATION) {
   if (arg.nDim == 5) GenericPackGhost<Float,Ns,Ms,Nc,Mc,5,Arg>(arg);
   else GenericPackGhost<Float,Ns,Ms,Nc,Mc,4,Arg>(arg);
       } else {
   const TuneParam &tp = tuneLaunch(*this, getTuning(), getVerbosity());
   if (arg.nDim == 5) GenericPackGhostKernel<Float,Ns,Ms,Nc,Mc,5,Arg> <<<tp.grid,tp.block,tp.shared_bytes,stream>>>(arg);
   else GenericPackGhostKernel<Float,Ns,Ms,Nc,Mc,4,Arg> <<<tp.grid,tp.block,tp.shared_bytes,stream>>>(arg);
       }
     }

     TuneKey tuneKey() const {
       return TuneKey(meta.VolString(), typeid(*this).name(), aux);
     }

     long long flops() const { return 0; }
     long long bytes() const {
       size_t totalBytes = 0;
       for (int d=0; d<4; d++) {
   if (!comm_dim_partitioned(d)) continue;
   totalBytes += 2*arg.nFace*2*Ns*Nc*meta.SurfaceCB(d)*meta.Precision();
       }
       return totalBytes;
     }
   };

   template <typename Float, QudaFieldOrder order, int Ns, int Nc>
   inline void genericPackGhost(void **ghost, const ColorSpinorField &a, QudaParity parity,
              int nFace, int dagger, MemoryLocation *destination) {

     typedef typename colorspinor::FieldOrderCB<Float,Ns,Nc,1,order> Q;
     Q field(a, nFace, 0, ghost);

     constexpr int spins_per_thread = 1; // make this autotunable
     constexpr int colors_per_thread = 1;
     PackGhostArg<Q> arg(field, ghost, a, parity, nFace, dagger);
     GenericPackGhostLauncher<Float,Ns,spins_per_thread,Nc,colors_per_thread,PackGhostArg<Q> >
       launch(arg, a, destination);
     launch.apply(0);
   }

   template <typename Float, QudaFieldOrder order, int Ns>
   inline void genericPackGhost(void **ghost, const ColorSpinorField &a, QudaParity parity,
              int nFace, int dagger, MemoryLocation *destination) {

     if (a.Ncolor() == 2) {
       genericPackGhost<Float,order,Ns,2>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 3) {
       genericPackGhost<Float,order,Ns,3>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 4) {
       genericPackGhost<Float,order,Ns,4>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 6) {
       genericPackGhost<Float,order,Ns,6>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 8) {
       genericPackGhost<Float,order,Ns,8>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 12) {
       genericPackGhost<Float,order,Ns,12>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 16) {
       genericPackGhost<Float,order,Ns,16>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 20) {
       genericPackGhost<Float,order,Ns,20>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 24) {
       genericPackGhost<Float,order,Ns,24>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 28) {
       genericPackGhost<Float,order,Ns,28>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 32) {
       genericPackGhost<Float,order,Ns,32>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 48) {
       genericPackGhost<Float,order,Ns,48>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 72) {
       genericPackGhost<Float,order,Ns,72>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 96) {
       genericPackGhost<Float,order,Ns,96>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 256) {
       genericPackGhost<Float,order,Ns,256>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 576) {
       genericPackGhost<Float,order,Ns,576>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 768) {
       genericPackGhost<Float,order,Ns,768>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 1024) {
       genericPackGhost<Float,order,Ns,1024>(ghost, a, parity, nFace, dagger, destination);
     } else {
       errorQuda("Unsupported nColor = %d", a.Ncolor());
     }

   }

   template <typename Float, QudaFieldOrder order>
   inline void genericPackGhost(void **ghost, const ColorSpinorField &a, QudaParity parity,
              int nFace, int dagger, MemoryLocation *destination) {

     if (a.Nspin() == 4) {
       genericPackGhost<Float,order,4>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Nspin() == 2) {
       genericPackGhost<Float,order,2>(ghost, a, parity, nFace, dagger, destination);
 #ifdef GPU_STAGGERED_DIRAC
     } else if (a.Nspin() == 1) {
       genericPackGhost<Float,order,1>(ghost, a, parity, nFace, dagger, destination);
 #endif
     } else {
       errorQuda("Unsupported nSpin = %d", a.Nspin());
     }

   }

   template <typename Float>
   inline void genericPackGhost(void **ghost, const ColorSpinorField &a, QudaParity parity,
              int nFace, int dagger, MemoryLocation *destination) {

     if (a.FieldOrder() == QUDA_FLOAT2_FIELD_ORDER) {
       genericPackGhost<Float,QUDA_FLOAT2_FIELD_ORDER>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.FieldOrder() == QUDA_FLOAT4_FIELD_ORDER) {
       genericPackGhost<Float,QUDA_FLOAT4_FIELD_ORDER>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.FieldOrder() == QUDA_SPACE_SPIN_COLOR_FIELD_ORDER) {
       genericPackGhost<Float,QUDA_SPACE_SPIN_COLOR_FIELD_ORDER>(ghost, a, parity, nFace, dagger, destination);
     } else {
       errorQuda("Unsupported field order = %d", a.FieldOrder());
     }

   }

   void genericPackGhost(void **ghost, const ColorSpinorField &a, QudaParity parity,
       int nFace, int dagger, MemoryLocation *destination_) {

     if (a.FieldOrder() == QUDA_QOP_DOMAIN_WALL_FIELD_ORDER) {
       errorQuda("Field order %d not supported", a.FieldOrder());
     }

     // set default location to match field type
     MemoryLocation destination[2*QUDA_MAX_DIM];
     for (int i=0; i<4*2; i++) {
       destination[i] = destination_ ? destination_[i] : a.Location() == QUDA_CUDA_FIELD_LOCATION ? Device : Host;
     }

     // only do packing if one of the dimensions is partitioned
     bool partitioned = false;
     for (int d=0; d<4; d++)
       if (comm_dim_partitioned(d)) partitioned = true;
     if (!partitioned) return;

     if (a.Precision() == QUDA_DOUBLE_PRECISION) {
       genericPackGhost<double>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Precision() == QUDA_SINGLE_PRECISION) {
       genericPackGhost<float>(ghost, a, parity, nFace, dagger, destination);
     } else {
       errorQuda("Unsupported precision %d", a.Precision());
     }

   }

 } // namespace quda
quda::GenericPackGhostLauncher::flops
long long flops() const
Definition: color_spinor_pack.cu:151

quda::Device
Definition: color_spinor_field.h:15

fast_intdiv.h

quda::TuneParam
Definition: tune_quda.h:17

blockDim
dim3 dim3 blockDim
Definition: CMakeCUDACompilerId.cpp1.ii:2471

quda::packGhost
__device__ __host__ void packGhost(Arg &arg, int cb_idx, int parity, int spinor_parity, int spin_block, int color_block)
Definition: color_spinor_pack.cu:47

quda::ColorSpinorField
Definition: color_spinor_field.h:271

comm_dim_partitioned_string
const char * comm_dim_partitioned_string()
Return a string that defines the comm partitioning (used as a tuneKey)
Definition: comm_mpi.cpp:342

quda::ColorSpinorField::AuxString
const char * AuxString() const
Definition: color_spinor_field.h:378

getVerbosity
QudaVerbosity getVerbosity()
Definition: util_quda.cpp:20

quda::PackGhostArg::pc_type
const QudaDWFPCType pc_type
Definition: color_spinor_pack.cu:22

errorQuda
#define errorQuda(...)
Definition: util_quda.h:90

color_spinor_field.h

QUDA_CUDA_FIELD_LOCATION
Definition: enum_quda.h:297

QUDA_SPACE_SPIN_COLOR_FIELD_ORDER
Definition: enum_quda.h:321

quda::getCoords5
static __device__ __host__ void getCoords5(int x[5], int cb_index, const I X[5], int parity, QudaDWFPCType pc_type)
Definition: index_helper.cuh:181

quda::GenericPackGhostLauncher::tuneGridDim
bool tuneGridDim() const
Definition: color_spinor_pack.cu:111

quda::stream
cudaStream_t * stream
Definition: cuda_color_spinor_field.cu:898

dim
static __inline__ dim3 dim3 void size_t cudaStream_t int dim
Definition: CMakeCUDACompilerId.cpp1.ii:15687

quda::PackGhostArg::parity
const int parity
Definition: color_spinor_pack.cu:19

quda::GenericPackGhostLauncher::minThreads
unsigned int minThreads() const
Definition: color_spinor_pack.cu:110

quda::GenericPackGhostLauncher::bytes
long long bytes() const
Definition: color_spinor_pack.cu:152

strcpy
char * strcpy(char *__dst, const char *__src)

quda::LatticeField::VolString
const char * VolString() const
Definition: lattice_field.h:524

quda::TuneParam::shared_bytes
int shared_bytes
Definition: tune_quda.h:22

strcat
char * strcat(char *__s1, const char *__s2)

quda::colorspinor::FieldOrderCB
Definition: color_spinor_field_order.h:261

quda::LatticeField::SurfaceCB
const int * SurfaceCB() const
Definition: lattice_field.h:431

quda::PackGhostArg::nParity
const int nParity
Definition: color_spinor_pack.cu:20

int_fastdiv
Definition: fast_intdiv.h:20

quda::TuneParam::grid
dim3 grid
Definition: tune_quda.h:21

quda
Definition: blas_cublas.h:6

quda::PackGhostArg
Definition: color_spinor_pack.cu:10

quda::PackGhostArg::field
Field field
Definition: color_spinor_pack.cu:12

quda::PackGhostArg::ghost
void ** ghost
Definition: color_spinor_pack.cu:13

x
p x
Definition: CMakeCUDACompilerId.cpp1.ii:3011

quda::genericPackGhost
void genericPackGhost(void **ghost, const ColorSpinorField &a, QudaParity parity, int nFace, int dagger, MemoryLocation *destination=nullptr)
Generic ghost packing routine.
Definition: color_spinor_pack.cu:163

QudaDWFPCType
enum QudaDWFPCType_s QudaDWFPCType

quda::GenericPackGhostLauncher::tuneKey
TuneKey tuneKey() const
Definition: color_spinor_pack.cu:147

deg_tm_dslash_cuda_gen.dagger
bool dagger
Definition: deg_tm_dslash_cuda_gen.py:960

QUDA_QOP_DOMAIN_WALL_FIELD_ORDER
Definition: enum_quda.h:324

quda::TuneParam::block
dim3 block
Definition: tune_quda.h:20

V
int V
Definition: test_util.cpp:28

quda::tuneLaunch
TuneParam & tuneLaunch(Tunable &tunable, QudaTune enabled, QudaVerbosity verbosity)
Definition: tune.cpp:603

fused_exterior_ndeg_tm_dslash_cuda_gen.i
int i
start here
Definition: fused_exterior_ndeg_tm_dslash_cuda_gen.py:816

quda::PackGhostArg::commDim
int commDim[4]
Definition: color_spinor_pack.cu:23

quda::GenericPackGhostLauncher::arg
Arg & arg
Definition: color_spinor_pack.cu:108

QUDA_FLOAT2_FIELD_ORDER
Definition: enum_quda.h:319

QudaParity
enum QudaParity_s QudaParity

quda::Host
Definition: color_spinor_field.h:15

tune_quda.h

quda::GenericPackGhostKernel
__global__ void GenericPackGhostKernel(Arg arg)
Definition: color_spinor_pack.cu:93

quda::LatticeField::Location
QudaFieldLocation Location() const
Definition: lattice_field.cpp:522

quda::PackGhostArg::nFace
const int nFace
Definition: color_spinor_pack.cu:18

quda::GenericPackGhost
void GenericPackGhost(Arg &arg)
Definition: color_spinor_pack.cu:81

quda::PackGhostArg::dagger
const int dagger
Definition: color_spinor_pack.cu:21

QUDA_DOUBLE_PRECISION
Definition: enum_quda.h:61

quda::PackGhostArg::X
int_fastdiv X[QUDA_MAX_DIM]
Definition: color_spinor_pack.cu:15

index_helper.cuh

quda::PackGhostArg::v
const void * v
Definition: color_spinor_pack.cu:14

quda::GenericPackGhostLauncher::meta
const ColorSpinorField & meta
Definition: color_spinor_pack.cu:109

QUDA_SINGLE_PRECISION
Definition: enum_quda.h:60

quda::mapper
Definition: register_traits.h:41

quda::TunableVectorYZ
Definition: tune_quda.h:400

color_spinor_field_order.h

quda::PackGhostArg::nDim
const int nDim
Definition: color_spinor_pack.cu:17

s
size_t s
Definition: CMakeCUDACompilerId.cpp1.ii:2229

quda::PackGhostArg::PackGhostArg
PackGhostArg(Field field, void **ghost, const ColorSpinorField &a, int parity, int nFace, int dagger)
Definition: color_spinor_pack.cu:25

quda::arg
__host__ __device__ ValueType arg(const complex< ValueType > &z)
Returns the phase angle of z.
Definition: complex_quda.h:880

quda::GenericPackGhostLauncher::apply
void apply(const cudaStream_t &stream)
Definition: color_spinor_pack.cu:136

c
const void * c
Definition: CMakeCUDACompilerId.cpp1.ii:2234

QUDA_MAX_DIM
#define QUDA_MAX_DIM
Maximum number of dimensions supported by QUDA. In practice, no routines make use of more than 5...
Definition: quda_constants.h:17

quda::PackGhostArg::volumeCB
const int volumeCB
Definition: color_spinor_pack.cu:16

QUDA_FLOAT4_FIELD_ORDER
Definition: enum_quda.h:320

getTuning
QudaTune getTuning()
Query whether autotuning is enabled or not. Default is enabled but can be overridden by setting QUDA_...
Definition: util_quda.cpp:51

d
static __inline__ size_t size_t d
Definition: CMakeCUDACompilerId.cpp1.ii:3019

quda::LatticeField::Precision
QudaPrecision Precision() const
Definition: lattice_field.h:462

parity
QudaParity parity
Definition: covdev_test.cpp:53

quda::GenericPackGhostLauncher::~GenericPackGhostLauncher
virtual ~GenericPackGhostLauncher()
Definition: color_spinor_pack.cu:134

QUDA_CPU_FIELD_LOCATION
Definition: enum_quda.h:296

a
#define a
Definition: dw_dslash4_core.h:82

quda::MemoryLocation
MemoryLocation
Definition: color_spinor_field.h:15

quda::GenericPackGhostLauncher
Definition: color_spinor_pack.cu:107

quda::Tunable::aux
char aux[TuneKey::aux_n]
Definition: tune_quda.h:189

quda::TuneKey
Definition: tune_key.h:8

comm_dim_partitioned
int comm_dim_partitioned(int dim)
Definition: comm_common.cpp:597

quda::GenericPackGhostLauncher::GenericPackGhostLauncher
GenericPackGhostLauncher(Arg &arg, const ColorSpinorField &meta, MemoryLocation *destination)
Definition: color_spinor_pack.cu:114

quda::getCoords
static __device__ __host__ void getCoords(int x[], int cb_index, const I X[], int parity)
Definition: index_helper.cuh:129