quda-ref/v1.0.0/color__spinor__pack_8cu_source.html

 #include <color_spinor_field.h>
 #include <tune_quda.h>

 #include <jitify_helper.cuh>
 #include <kernels/color_spinor_pack.cuh>

 namespace quda {

   template <typename Float, bool block_float, int Ns, int Ms, int Nc, int Mc, typename Arg>
   class GenericPackGhostLauncher : public TunableVectorYZ {
     Arg &arg;
     const ColorSpinorField &meta;
     unsigned int minThreads() const { return arg.volumeCB; }
     bool tuneGridDim() const { return false; }
     bool tuneAuxDim() const { return true; }

   public:
     inline GenericPackGhostLauncher(Arg &arg, const ColorSpinorField &meta, MemoryLocation *destination)
       : TunableVectorYZ((Ns/Ms)*(Nc/Mc), 2*arg.nParity), arg(arg), meta(meta) {

       if (meta.Location() == QUDA_CUDA_FIELD_LOCATION) {
 #ifdef JITIFY
         create_jitify_program("kernels/color_spinor_pack.cuh");
 #endif
       }

       strcpy(aux,compile_type_str(meta));
       strcat(aux,meta.AuxString());
       strcat(aux,comm_dim_partitioned_string());
       strcat(aux,comm_dim_topology_string());

       // record the location of where each pack buffer is in [2*dim+dir] ordering
       // 0 - no packing
       // 1 - pack to local GPU memory
       // 2 - pack to local mapped CPU memory
       // 3 - pack to remote mapped GPU memory
       char label[15] = ",dest=";
       for (int dim=0; dim<4; dim++) {
   for (int dir=0; dir<2; dir++) {
     label[2*dim+dir+6] = !comm_dim_partitioned(dim) ? '0' : destination[2*dim+dir] == Device ? '1' : destination[2*dim+dir] == Host ? '2' : '3';
   }
       }
       label[14] = '\0';
       strcat(aux,label);
     }

     virtual ~GenericPackGhostLauncher() { }

     inline void apply(const cudaStream_t &stream) {
       if (meta.Location() == QUDA_CPU_FIELD_LOCATION) {
   if (arg.nDim == 5) GenericPackGhost<Float,block_float,Ns,Ms,Nc,Mc,5,Arg>(arg);
   else GenericPackGhost<Float,block_float,Ns,Ms,Nc,Mc,4,Arg>(arg);
       } else {
   const TuneParam &tp = tuneLaunch(*this, getTuning(), getVerbosity());
   arg.nParity2dim_threads = arg.nParity*2*tp.aux.x;
 #ifdef JITIFY
         using namespace jitify::reflection;
         jitify_error = program->kernel("quda::GenericPackGhostKernel")
           .instantiate(Type<Float>(),block_float,Ns,Ms,Nc,Mc,arg.nDim,(int)tp.aux.x,Type<Arg>())
           .configure(tp.grid,tp.block,tp.shared_bytes,stream).launch(arg);
 #else
         switch(tp.aux.x) {
         case 1:
     if (arg.nDim == 5) GenericPackGhostKernel<Float,block_float,Ns,Ms,Nc,Mc,5,1,Arg> <<<tp.grid,tp.block,tp.shared_bytes,stream>>>(arg);
     else GenericPackGhostKernel<Float,block_float,Ns,Ms,Nc,Mc,4,1,Arg> <<<tp.grid,tp.block,tp.shared_bytes,stream>>>(arg);
     break;
   case 2:
     if (arg.nDim == 5) GenericPackGhostKernel<Float,block_float,Ns,Ms,Nc,Mc,5,2,Arg> <<<tp.grid,tp.block,tp.shared_bytes,stream>>>(arg);
     else GenericPackGhostKernel<Float,block_float,Ns,Ms,Nc,Mc,4,2,Arg> <<<tp.grid,tp.block,tp.shared_bytes,stream>>>(arg);
     break;
   case 4:
     if (arg.nDim == 5) GenericPackGhostKernel<Float,block_float,Ns,Ms,Nc,Mc,5,4,Arg> <<<tp.grid,tp.block,tp.shared_bytes,stream>>>(arg);
     else GenericPackGhostKernel<Float,block_float,Ns,Ms,Nc,Mc,4,4,Arg> <<<tp.grid,tp.block,tp.shared_bytes,stream>>>(arg);
     break;
         }
 #endif
       }
     }

     // if doing block float then all spin-color components must be within the same block
     void setColorSpinBlock(TuneParam &param) const {
       param.block.y = (Ns/Ms)*(Nc/Mc);
       param.grid.y = 1;
       param.block.z = 1;
       param.grid.z = arg.nParity*2*param.aux.x;
     }

     bool advanceBlockDim(TuneParam &param) const {
       if (!block_float) {
   return TunableVectorYZ::advanceBlockDim(param);
       } else {
   bool advance = Tunable::advanceBlockDim(param);
   setColorSpinBlock(param); // if doing block float then all spin-color components must be within the same block
   return advance;
       }
     }

     int blockStep() const { return block_float ? 2 : TunableVectorYZ::blockStep(); }
     int blockMin() const { return block_float ? 2 : TunableVectorYZ::blockMin(); }

     bool advanceAux(TuneParam &param) const {
       if (param.aux.x < 4) {
   param.aux.x *= 2;
   const_cast<GenericPackGhostLauncher*>(this)->resizeVector((Ns/Ms)*(Nc/Mc), arg.nParity*2*param.aux.x);
   TunableVectorYZ::initTuneParam(param);
   if (block_float) setColorSpinBlock(param);
   return true;
       }
       param.aux.x = 1;
       const_cast<GenericPackGhostLauncher*>(this)->resizeVector((Ns/Ms)*(Nc/Mc), arg.nParity*2*param.aux.x);
       TunableVectorYZ::initTuneParam(param);
       if (block_float) setColorSpinBlock(param);
       return false;
     }

     TuneKey tuneKey() const {
       return TuneKey(meta.VolString(), typeid(*this).name(), aux);
     }

     virtual void initTuneParam(TuneParam &param) const {
       TunableVectorYZ::initTuneParam(param);
       param.aux = make_int4(1,1,1,1);
       if (block_float) setColorSpinBlock(param);
     }

     virtual void defaultTuneParam(TuneParam &param) const {
       TunableVectorYZ::defaultTuneParam(param);
       param.aux = make_int4(1,1,1,1);
       if (block_float) setColorSpinBlock(param);
     }

     long long flops() const { return 0; }
     long long bytes() const {
       size_t totalBytes = 0;
       for (int d=0; d<4; d++) {
   if (!comm_dim_partitioned(d)) continue;
   totalBytes += arg.nFace*2*Ns*Nc*meta.SurfaceCB(d)*(meta.Precision() + meta.GhostPrecision());
       }
       return totalBytes;
     }
   };

   template <typename Float, typename ghostFloat, QudaFieldOrder order, int Ns, int Nc>
   inline void genericPackGhost(void **ghost, const ColorSpinorField &a, QudaParity parity,
              int nFace, int dagger, MemoryLocation *destination) {

     typedef typename mapper<Float>::type RegFloat;
     typedef typename colorspinor::FieldOrderCB<RegFloat,Ns,Nc,1,order,Float,ghostFloat> Q;
     Q field(a, nFace, 0, ghost);

     constexpr int spins_per_thread = Ns == 1 ? 1 : 2; // make this autotunable?
     constexpr int colors_per_thread = Nc%2 == 0 ? 2 : 1;
     PackGhostArg<Q> arg(field, a, parity, nFace, dagger);

     // if we only have short precision for the ghost then this means we have block-float
     constexpr bool block_float = (sizeof(Float) == QUDA_SINGLE_PRECISION &&
           (sizeof(ghostFloat) == QUDA_HALF_PRECISION || sizeof(ghostFloat) == QUDA_QUARTER_PRECISION)
                                   && Nc <= MAX_BLOCK_FLOAT_NC) ? true : false;

     // ensure we only compile supported block-float kernels
     constexpr int Nc_ = (sizeof(Float) == QUDA_SINGLE_PRECISION &&
                          (sizeof(ghostFloat) == QUDA_HALF_PRECISION || sizeof(ghostFloat) == QUDA_QUARTER_PRECISION) &&
                          Nc > MAX_BLOCK_FLOAT_NC) ? MAX_BLOCK_FLOAT_NC : Nc;

     if (sizeof(Float) == QUDA_SINGLE_PRECISION &&
         (sizeof(ghostFloat) == QUDA_HALF_PRECISION || sizeof(ghostFloat) == QUDA_QUARTER_PRECISION) && Nc > MAX_BLOCK_FLOAT_NC)
       errorQuda("Block-float format not supported for Nc = %d", Nc);

     GenericPackGhostLauncher<RegFloat,block_float,Ns,spins_per_thread,Nc_,colors_per_thread,PackGhostArg<Q> >
       launch(arg, a, destination);

     launch.apply(0);
   }

   // traits used to ensure we only instantiate arbitrary colors for nSpin=2,4 fields, and only 3 colors otherwise
   template<typename T, typename G, int nSpin, int nColor_> struct precision_spin_color_mapper { static constexpr int nColor = nColor_; };
   template<typename T, typename G, int nColor_> struct precision_spin_color_mapper<T,G,1,nColor_> { static constexpr int nColor = 3; };

   // never need block-float format with nSpin=4 fields for arbitrary colors
   template<int nColor_> struct precision_spin_color_mapper<float,short,4,nColor_> { static constexpr int nColor = 3; };
   template<int nColor_> struct precision_spin_color_mapper<float,char,4,nColor_> { static constexpr int nColor = 3; };

 #ifndef GPU_MULTIGRID_DOUBLE
   template<int nColor_> struct precision_spin_color_mapper<double,double,1,nColor_> { static constexpr int nColor = 3; };
   template<int nColor_> struct precision_spin_color_mapper<double,double,2,nColor_> { static constexpr int nColor = 3; };
   template<int nColor_> struct precision_spin_color_mapper<double,double,4,nColor_> { static constexpr int nColor = 3; };
 #endif

   template <typename Float, typename ghostFloat, QudaFieldOrder order, int Ns>
   inline void genericPackGhost(void **ghost, const ColorSpinorField &a, QudaParity parity,
              int nFace, int dagger, MemoryLocation *destination) {

     if (a.Ncolor() != 3 && a.Nspin() == 1)
       errorQuda("Ncolor = %d not supported for Nspin = %d fields", a.Ncolor(), a.Nspin());
     if (a.Ncolor() != 3 && a.Nspin() == 4 && a.Precision() == QUDA_SINGLE_PRECISION &&
         (a.GhostPrecision() == QUDA_HALF_PRECISION || a.GhostPrecision() == QUDA_QUARTER_PRECISION) )
       errorQuda("Ncolor = %d not supported for Nspin = %d fields with precision = %d and ghost_precision = %d",
                 a.Ncolor(), a.Nspin(), a.Precision(), a.GhostPrecision());
 #ifndef GPU_MULTIGRID_DOUBLE
     if ( a.Ncolor() != 3 && a.Precision() == QUDA_DOUBLE_PRECISION)
       errorQuda("Ncolor = %d not supported for double precision fields", a.Ncolor());
 #endif

     if (a.Ncolor() == 2) {
       genericPackGhost<Float,ghostFloat,order,Ns,precision_spin_color_mapper<Float,ghostFloat,Ns,2>::nColor>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 3) {
       genericPackGhost<Float,ghostFloat,order,Ns,precision_spin_color_mapper<Float,ghostFloat,Ns,3>::nColor>(ghost, a, parity, nFace, dagger, destination);
 #ifdef GPU_MULTIGRID
     } else if (a.Ncolor() == 4) {
       genericPackGhost<Float,ghostFloat,order,Ns,precision_spin_color_mapper<Float,ghostFloat,Ns,4>::nColor>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 6) {
       genericPackGhost<Float,ghostFloat,order,Ns,precision_spin_color_mapper<Float,ghostFloat,Ns,6>::nColor>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 8) {
       genericPackGhost<Float,ghostFloat,order,Ns,precision_spin_color_mapper<Float,ghostFloat,Ns,8>::nColor>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 12) {
       genericPackGhost<Float,ghostFloat,order,Ns,precision_spin_color_mapper<Float,ghostFloat,Ns,12>::nColor>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 16) {
       genericPackGhost<Float,ghostFloat,order,Ns,precision_spin_color_mapper<Float,ghostFloat,Ns,16>::nColor>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 18) { // Needed for two level free field Wilson
       genericPackGhost<Float,ghostFloat,order,Ns,precision_spin_color_mapper<Float,ghostFloat,Ns,18>::nColor>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 20) {
       genericPackGhost<Float,ghostFloat,order,Ns,precision_spin_color_mapper<Float,ghostFloat,Ns,20>::nColor>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 24) {
       genericPackGhost<Float,ghostFloat,order,Ns,precision_spin_color_mapper<Float,ghostFloat,Ns,24>::nColor>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 28) {
       genericPackGhost<Float,ghostFloat,order,Ns,precision_spin_color_mapper<Float,ghostFloat,Ns,28>::nColor>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 32) {
       genericPackGhost<Float,ghostFloat,order,Ns,precision_spin_color_mapper<Float,ghostFloat,Ns,32>::nColor>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 36) { // Needed for three level free field Wilson
       genericPackGhost<Float,ghostFloat,order,Ns,precision_spin_color_mapper<Float,ghostFloat,Ns,36>::nColor>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 48) {
       genericPackGhost<Float,ghostFloat,order,Ns,precision_spin_color_mapper<Float,ghostFloat,Ns,48>::nColor>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 72) {
       genericPackGhost<Float,ghostFloat,order,Ns,precision_spin_color_mapper<Float,ghostFloat,Ns,72>::nColor>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 96) {
       genericPackGhost<Float,ghostFloat,order,Ns,precision_spin_color_mapper<Float,ghostFloat,Ns,96>::nColor>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 256) {
       genericPackGhost<Float,ghostFloat,order,Ns,precision_spin_color_mapper<Float,ghostFloat,Ns,256>::nColor>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 576) {
       genericPackGhost<Float,ghostFloat,order,Ns,precision_spin_color_mapper<Float,ghostFloat,Ns,576>::nColor>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 768) {
       genericPackGhost<Float,ghostFloat,order,Ns,precision_spin_color_mapper<Float,ghostFloat,Ns,768>::nColor>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Ncolor() == 1024) {
       genericPackGhost<Float,ghostFloat,order,Ns,precision_spin_color_mapper<Float,ghostFloat,Ns,1024>::nColor>(ghost, a, parity, nFace, dagger, destination);
 #endif // GPU_MULTIGRID
     } else {
       errorQuda("Unsupported nColor = %d", a.Ncolor());
     }

   }

   // traits used to ensure we only instantiate float4 for spin=4 fields
   template<int nSpin,QudaFieldOrder order_> struct spin_order_mapper { static constexpr QudaFieldOrder order = order_; };
   template<> struct spin_order_mapper<2,QUDA_FLOAT4_FIELD_ORDER> { static constexpr QudaFieldOrder order = QUDA_FLOAT2_FIELD_ORDER; };
   template<> struct spin_order_mapper<1,QUDA_FLOAT4_FIELD_ORDER> { static constexpr QudaFieldOrder order = QUDA_FLOAT2_FIELD_ORDER; };

   template <typename Float, typename ghostFloat, QudaFieldOrder order>
   inline void genericPackGhost(void **ghost, const ColorSpinorField &a, QudaParity parity,
              int nFace, int dagger, MemoryLocation *destination) {

     if (a.Nspin() == 4) {
       genericPackGhost<Float,ghostFloat,order,4>(ghost, a, parity, nFace, dagger, destination);
     } else if (a.Nspin() == 2) {
       if (order == QUDA_FLOAT4_FIELD_ORDER) errorQuda("Field order %d with nSpin = %d not supported", order, a.Nspin());
       genericPackGhost<Float,ghostFloat,spin_order_mapper<2,order>::order,2>(ghost, a, parity, nFace, dagger, destination);
 #ifdef GPU_STAGGERED_DIRAC
     } else if (a.Nspin() == 1) {
       if (order == QUDA_FLOAT4_FIELD_ORDER) errorQuda("Field order %d with nSpin = %d not supported", order, a.Nspin());
       genericPackGhost<Float,ghostFloat,spin_order_mapper<1,order>::order,1>(ghost, a, parity, nFace, dagger, destination);
 #endif
     } else {
       errorQuda("Unsupported nSpin = %d", a.Nspin());
     }

   }

   // traits used to ensure we only instantiate double and float templates for non-native fields
   template<typename> struct non_native_precision_mapper { };
   template<> struct non_native_precision_mapper<double> { typedef double type; };
   template<> struct non_native_precision_mapper<float> { typedef float type; };
   template<> struct non_native_precision_mapper<short> { typedef float type; };
   template<> struct non_native_precision_mapper<char> { typedef float type; };

   // traits used to ensure we only instantiate float and lower precision for float4 fields
   template<typename T> struct float4_precision_mapper { typedef T type; };
   template<> struct float4_precision_mapper<double> { typedef float type; };
   template<> struct float4_precision_mapper<short> { typedef float type; };
   template<> struct float4_precision_mapper<char> { typedef float type; };

   template <typename Float, typename ghostFloat>
   inline void genericPackGhost(void **ghost, const ColorSpinorField &a, QudaParity parity,
              int nFace, int dagger, MemoryLocation *destination) {

     if (a.FieldOrder() == QUDA_FLOAT2_FIELD_ORDER) {

       // all precisions, color and spin can use this order
       genericPackGhost<Float,ghostFloat,QUDA_FLOAT2_FIELD_ORDER>(ghost, a, parity, nFace, dagger, destination);

     } else if (a.FieldOrder() == QUDA_FLOAT4_FIELD_ORDER) {

       // never have double fields here
       if (typeid(Float) != typeid(typename float4_precision_mapper<Float>::type))
         errorQuda("Precision %d not supported for field type %d", a.Precision(), a.FieldOrder());
       if (typeid(ghostFloat) != typeid(typename float4_precision_mapper<ghostFloat>::type))
         errorQuda("Ghost precision %d not supported for field type %d", a.GhostPrecision(), a.FieldOrder());
       genericPackGhost<typename float4_precision_mapper<Float>::type,
                        typename float4_precision_mapper<ghostFloat>::type,
                        QUDA_FLOAT4_FIELD_ORDER>(ghost, a, parity, nFace, dagger, destination);

     } else if (a.FieldOrder() == QUDA_SPACE_SPIN_COLOR_FIELD_ORDER) {
       if (typeid(Float) != typeid(typename non_native_precision_mapper<Float>::type))
         errorQuda("Precision %d not supported for field type %d", a.Precision(), a.FieldOrder());
       if (typeid(ghostFloat) != typeid(typename non_native_precision_mapper<ghostFloat>::type))
         errorQuda("Ghost precision %d not supported for field type %d", a.GhostPrecision(), a.FieldOrder());
       genericPackGhost<typename non_native_precision_mapper<Float>::type,
                        typename non_native_precision_mapper<ghostFloat>::type,
                        QUDA_SPACE_SPIN_COLOR_FIELD_ORDER>(ghost, a, parity, nFace, dagger, destination);
     } else {
       errorQuda("Unsupported field order = %d", a.FieldOrder());
     }

   }

   void genericPackGhost(void **ghost, const ColorSpinorField &a, QudaParity parity,
       int nFace, int dagger, MemoryLocation *destination_) {

     if (a.FieldOrder() == QUDA_QOP_DOMAIN_WALL_FIELD_ORDER) {
       errorQuda("Field order %d not supported", a.FieldOrder());
     }

     // set default location to match field type
     MemoryLocation destination[2*QUDA_MAX_DIM];
     for (int i=0; i<4*2; i++) {
       destination[i] = destination_ ? destination_[i] : a.Location() == QUDA_CUDA_FIELD_LOCATION ? Device : Host;
     }

     // only do packing if one of the dimensions is partitioned
     bool partitioned = false;
     for (int d=0; d<4; d++)
       if (comm_dim_partitioned(d)) partitioned = true;
     if (!partitioned) return;

     if (a.Precision() == QUDA_DOUBLE_PRECISION) {
       if (a.GhostPrecision() == QUDA_DOUBLE_PRECISION) {
         genericPackGhost<double,double>(ghost, a, parity, nFace, dagger, destination);
       } else {
         errorQuda("precision = %d and ghost precision = %d not supported", a.Precision(), a.GhostPrecision());
       }
     } else if (a.Precision() == QUDA_SINGLE_PRECISION) {
       if (a.GhostPrecision() == QUDA_SINGLE_PRECISION) {
         genericPackGhost<float,float>(ghost, a, parity, nFace, dagger, destination);
       } else if (a.GhostPrecision() == QUDA_HALF_PRECISION) {
 #if QUDA_PRECISION & 2
         genericPackGhost<float,short>(ghost, a, parity, nFace, dagger, destination);
 #else
         errorQuda("QUDA_PRECISION=%d does not enable half precision", QUDA_PRECISION);
 #endif
       } else if (a.GhostPrecision() == QUDA_QUARTER_PRECISION) {
 #if QUDA_PRECISION & 1
         genericPackGhost<float,char>(ghost, a, parity, nFace, dagger, destination);
 #else
         errorQuda("QUDA_PRECISION=%d does not enable quarter precision", QUDA_PRECISION);
 #endif
       } else {
         errorQuda("precision = %d and ghost precision = %d not supported", a.Precision(), a.GhostPrecision());
       }
     } else if (a.Precision() == QUDA_HALF_PRECISION) {
       if (a.GhostPrecision() == QUDA_HALF_PRECISION) {
 #if QUDA_PRECISION & 2
         genericPackGhost<short,short>(ghost, a, parity, nFace, dagger, destination);
 #else
         errorQuda("QUDA_PRECISION=%d does not enable half precision", QUDA_PRECISION);
 #endif
       } else {
         errorQuda("precision = %d and ghost precision = %d not supported", a.Precision(), a.GhostPrecision());
       }
     } else {
       errorQuda("Unsupported precision %d", a.Precision());
     }

   }

 } // namespace quda
quda::Device
Definition: color_spinor_field.h:15

quda::GenericPackGhostLauncher::blockMin
int blockMin() const
Definition: color_spinor_pack.cu:135

quda::ColorSpinorField::Nspin
int Nspin() const
Definition: color_spinor_field.h:406

quda::non_native_precision_mapper< char >::type
float type
Definition: color_spinor_pack.cu:318

quda::TuneParam
Definition: tune_quda.h:17

quda::non_native_precision_mapper< short >::type
float type
Definition: color_spinor_pack.cu:317

quda::float4_precision_mapper< double >::type
float type
Definition: color_spinor_pack.cu:322

quda::ColorSpinorField
Definition: color_spinor_field.h:311

quda::LatticeField::AuxString
const char * AuxString() const
Definition: lattice_field.h:627

quda::float4_precision_mapper< char >::type
float type
Definition: color_spinor_pack.cu:324

quda::GenericPackGhostLauncher::apply
void apply(const cudaStream_t &stream)
Definition: color_spinor_pack.cu:85

getVerbosity
QudaVerbosity getVerbosity()
Definition: util_quda.cpp:21

errorQuda
#define errorQuda(...)
Definition: util_quda.h:121

color_spinor_field.h

QUDA_CUDA_FIELD_LOCATION
Definition: enum_quda.h:326

jitify_helper.cuh
Helper file when using jitify run-time compilation. This file should be included in source code...

QUDA_QUARTER_PRECISION
Definition: enum_quda.h:59

QUDA_SPACE_SPIN_COLOR_FIELD_ORDER
Definition: enum_quda.h:350

QUDA_HALF_PRECISION
Definition: enum_quda.h:60

QudaFieldOrder
enum QudaFieldOrder_s QudaFieldOrder

quda::LatticeField::GhostPrecision
QudaPrecision GhostPrecision() const
Definition: lattice_field.h:551

quda::stream
cudaStream_t * stream
Definition: cuda_color_spinor_field.cpp:897

quda::GenericPackGhostLauncher::minThreads
unsigned int minThreads() const
Definition: color_spinor_pack.cu:49

quda::GenericPackGhostLauncher::defaultTuneParam
virtual void defaultTuneParam(TuneParam &param) const
Definition: color_spinor_pack.cu:162

quda::GenericPackGhostLauncher::blockStep
int blockStep() const
Definition: color_spinor_pack.cu:134

quda::LatticeField::VolString
const char * VolString() const
Definition: lattice_field.h:624

quda::TuneParam::shared_bytes
int shared_bytes
Definition: tune_quda.h:22

quda::colorspinor::FieldOrderCB
Definition: color_spinor_field_order.h:468

quda::LatticeField::SurfaceCB
const int * SurfaceCB() const
Definition: lattice_field.h:515

quda::GenericPackGhostLauncher::initTuneParam
virtual void initTuneParam(TuneParam &param) const
Definition: color_spinor_pack.cu:156

quda::ColorSpinorField::Ncolor
int Ncolor() const
Definition: color_spinor_field.h:405

quda::TuneParam::grid
dim3 grid
Definition: tune_quda.h:21

quda::TuneParam::aux
int4 aux
Definition: tune_quda.h:23

comm_dim_partitioned_string
const char * comm_dim_partitioned_string(const int *comm_dim_override=0)
Return a string that defines the comm partitioning (used as a tuneKey)
Definition: comm_common.cpp:782

quda::GenericPackGhostLauncher::setColorSpinBlock
void setColorSpinBlock(TuneParam &param) const
Definition: color_spinor_pack.cu:117

quda::compile_type_str
const char * compile_type_str(const LatticeField &meta, QudaFieldLocation location_=QUDA_INVALID_FIELD_LOCATION)
Helper function for setting auxilary string.
Definition: lattice_field.h:718

quda
Definition: blas_cublas.h:5

quda::GenericPackGhostLauncher::meta
const ColorSpinorField & meta
Definition: color_spinor_pack.cu:48

quda::PackGhostArg
Definition: color_spinor_pack.cuh:8

param
QudaGaugeParam param
Definition: pack_test.cpp:17

quda::GenericPackGhostLauncher::advanceBlockDim
bool advanceBlockDim(TuneParam &param) const
Definition: color_spinor_pack.cu:124

quda::genericPackGhost
void genericPackGhost(void **ghost, const ColorSpinorField &a, QudaParity parity, int nFace, int dagger, MemoryLocation *destination=nullptr)
Generic ghost packing routine.
Definition: color_spinor_pack.cu:180

quda::non_native_precision_mapper< double >::type
double type
Definition: color_spinor_pack.cu:315

quda::GenericPackGhostLauncher::bytes
long long bytes() const
Definition: color_spinor_pack.cu:169

quda::Tunable::blockMin
virtual int blockMin() const
Definition: tune_quda.h:106

nColor
const int nColor
Definition: covdev_test.cpp:75

QUDA_QOP_DOMAIN_WALL_FIELD_ORDER
Definition: enum_quda.h:353

quda::TuneParam::block
dim3 block
Definition: tune_quda.h:20

comm_dim_topology_string
const char * comm_dim_topology_string()
Return a string that defines the comm topology (for use as a tuneKey)
Definition: comm_common.cpp:797

quda::GenericPackGhostLauncher::GenericPackGhostLauncher
GenericPackGhostLauncher(Arg &arg, const ColorSpinorField &meta, MemoryLocation *destination)
Definition: color_spinor_pack.cu:54

quda::tuneLaunch
TuneParam & tuneLaunch(Tunable &tunable, QudaTune enabled, QudaVerbosity verbosity)
Definition: tune.cpp:643

quda::Tunable::jitify_error
CUresult jitify_error
Definition: tune_quda.h:276

QUDA_FLOAT2_FIELD_ORDER
Definition: enum_quda.h:348

color_spinor_pack.cuh

QudaParity
enum QudaParity_s QudaParity

MAX_BLOCK_FLOAT_NC
#define MAX_BLOCK_FLOAT_NC
Definition: color_spinor_pack.cuh:42

quda::spin_order_mapper
Definition: color_spinor_pack.cu:289

quda::Host
Definition: color_spinor_field.h:15

quda::TunableVectorYZ::initTuneParam
void initTuneParam(TuneParam &param) const
Definition: tune_quda.h:523

tune_quda.h

quda::GenericPackGhostLauncher::tuneGridDim
bool tuneGridDim() const
Definition: color_spinor_pack.cu:50

quda::Arg
Definition: spinor_noise.cu:22

quda::LatticeField::Location
QudaFieldLocation Location() const
Definition: lattice_field.cpp:660

QUDA_DOUBLE_PRECISION
Definition: enum_quda.h:62

quda::float4_precision_mapper::type
T type
Definition: color_spinor_pack.cu:321

quda::GenericPackGhostLauncher::flops
long long flops() const
Definition: color_spinor_pack.cu:168

quda::float4_precision_mapper< short >::type
float type
Definition: color_spinor_pack.cu:323

quda::Arg::nParity
const int nParity
Definition: spinor_noise.cu:25

quda::precision_spin_color_mapper
Definition: color_spinor_pack.cu:212

QUDA_SINGLE_PRECISION
Definition: enum_quda.h:61

quda::mapper
Definition: register_traits.h:43

quda::TunableVectorYZ
Definition: tune_quda.h:485

quda::TunableVectorYZ::resizeVector
void resizeVector(int y, int z) const
Definition: tune_quda.h:538

quda::float4_precision_mapper
Definition: color_spinor_pack.cu:321

quda::GenericPackGhostLauncher::arg
Arg & arg
Definition: color_spinor_pack.cu:47

quda::Arg::volumeCB
const int volumeCB
Definition: spinor_noise.cu:26

quda::GenericPackGhostLauncher::advanceAux
bool advanceAux(TuneParam &param) const
Definition: color_spinor_pack.cu:137

quda::Tunable::blockStep
virtual int blockStep() const
Definition: tune_quda.h:105

quda::GenericPackGhostLauncher::tuneKey
TuneKey tuneKey() const
Definition: color_spinor_pack.cu:152

QUDA_MAX_DIM
#define QUDA_MAX_DIM
Maximum number of dimensions supported by QUDA. In practice, no routines make use of more than 5...
Definition: quda_constants.h:17

quda::GenericPackGhostLauncher::tuneAuxDim
bool tuneAuxDim() const
Definition: color_spinor_pack.cu:51

QUDA_FLOAT4_FIELD_ORDER
Definition: enum_quda.h:349

quda::Tunable::advanceBlockDim
virtual bool advanceBlockDim(TuneParam &param) const
Definition: tune_quda.h:124

getTuning
QudaTune getTuning()
Query whether autotuning is enabled or not. Default is enabled but can be overridden by setting QUDA_...
Definition: util_quda.cpp:52

quda::LatticeField::Precision
QudaPrecision Precision() const
Definition: lattice_field.h:546

quda::non_native_precision_mapper< float >::type
float type
Definition: color_spinor_pack.cu:316

dagger
QudaDagType dagger
Definition: test_util.cpp:1620

parity
QudaParity parity
Definition: covdev_test.cpp:54

QUDA_CPU_FIELD_LOCATION
Definition: enum_quda.h:325

quda::GenericPackGhostLauncher::~GenericPackGhostLauncher
virtual ~GenericPackGhostLauncher()
Definition: color_spinor_pack.cu:83

quda::ColorSpinorField::FieldOrder
QudaFieldOrder FieldOrder() const
Definition: color_spinor_field.h:483

quda::MemoryLocation
MemoryLocation
Definition: color_spinor_field.h:15

quda::GenericPackGhostLauncher
Definition: color_spinor_pack.cu:46

quda::Tunable::aux
char aux[TuneKey::aux_n]
Definition: tune_quda.h:265

quda::TuneKey
Definition: tune_key.h:8

comm_dim_partitioned
int comm_dim_partitioned(int dim)
Definition: comm_common.cpp:635

quda::TunableVectorYZ::defaultTuneParam
void defaultTuneParam(TuneParam &param) const
Definition: tune_quda.h:531

quda::TunableVectorYZ::advanceBlockDim
bool advanceBlockDim(TuneParam &param) const
Definition: tune_quda.h:496

quda::non_native_precision_mapper
Definition: color_spinor_pack.cu:314