quda-ref/v0.7.0/copy__color__spinor_8cu_source.html

 /*

   Spinor reordering and copying routines.  These are implemented to

   un on both CPU and GPU.  Here we are templating on the following:

   - input precision

   - output precision

   - number of colors

   - number of spins

   - field ordering

 */


 #include <color_spinor_field.h>

 #include <color_spinor_field_order.h>

 #include <tune_quda.h>

 #include <algorithm> // for std::swap


 #define PRESERVE_SPINOR_NORM


 #ifdef PRESERVE_SPINOR_NORM // Preserve the norm regardless of basis

 #define kP (1.0/sqrt(2.0))

 #define kU (1.0/sqrt(2.0))

 #else // More numerically accurate not to preserve the norm between basis

 #define kP (0.5)

 #define kU (1.0)

 #endif


 namespace quda {


   template <typename FloatOut, typename FloatIn, int Ns, int Nc>

     class PreserveBasis {

     typedef typename mapper<FloatIn>::type RegTypeIn;

     typedef typename mapper<FloatOut>::type RegTypeOut;

   public:

     __device__ __host__ inline void operator()(RegTypeOut out[Ns*Nc*2], const RegTypeIn in[Ns*Nc*2]) {

       for (int s=0; s<Ns; s++) {

         for (int c=0; c<Nc; c++) {

           for (int z=0; z<2; z++) {

             out[(s*Nc+c)*2+z] = in[(s*Nc+c)*2+z];

           }

         }

       }

     }

   };


   template <typename FloatOut, typename FloatIn, int Ns, int Nc>

     struct NonRelBasis {

     typedef typename mapper<FloatIn>::type RegTypeIn;

     typedef typename mapper<FloatOut>::type RegTypeOut;

       __device__ __host__ inline void operator()(RegTypeOut out[Ns*Nc*2], const RegTypeIn in[Ns*Nc*2]) {

         int s1[4] = {1, 2, 3, 0};

         int s2[4] = {3, 0, 1, 2};

         RegTypeOut K1[4] = {kP, -kP, -kP, -kP};

         RegTypeOut K2[4] = {kP, -kP, kP, kP};

         for (int s=0; s<Ns; s++) {

           for (int c=0; c<Nc; c++) {

             for (int z=0; z<2; z++) {

               out[(s*Nc+c)*2+z] = K1[s]*in[(s1[s]*Nc+c)*2+z] + K2[s]*in[(s2[s]*Nc+c)*2+z];

             }

           }

         }

       }

     };


   template <typename FloatOut, typename FloatIn, int Ns, int Nc>

     struct RelBasis {

     typedef typename mapper<FloatIn>::type RegTypeIn;

     typedef typename mapper<FloatOut>::type RegTypeOut;

       __device__ __host__ inline void operator()(RegTypeOut out[Ns*Nc*2], const RegTypeIn in[Ns*Nc*2]) {

         int s1[4] = {1, 2, 3, 0};

         int s2[4] = {3, 0, 1, 2};

         RegTypeOut K1[4] = {-kU, kU,  kU,  kU};

         RegTypeOut K2[4] = {-kU, kU, -kU, -kU};

         for (int s=0; s<Ns; s++) {

           for (int c=0; c<Nc; c++) {

             for (int z=0; z<2; z++) {

               out[(s*Nc+c)*2+z] = K1[s]*in[(s1[s]*Nc+c)*2+z] + K2[s]*in[(s2[s]*Nc+c)*2+z];

             }

           }

         }

       }

     };


   template <typename FloatOut, typename FloatIn, int Ns, int Nc>

     struct ChiralToNonRelBasis {

     typedef typename mapper<FloatIn>::type RegTypeIn;

     typedef typename mapper<FloatOut>::type RegTypeOut;

     __device__ __host__ inline void operator()(RegTypeOut out[Ns*Nc*2], const RegTypeIn in[Ns*Nc*2]) {

         int s1[4] = {0, 1, 0, 1};

         int s2[4] = {2, 3, 2, 3};

         RegTypeOut K1[4] = {-kP, -kP, kP, kP};

         RegTypeOut K2[4] = { kP,  kP, kP, kP};

         for (int s=0; s<Ns; s++) {

           for (int c=0; c<Nc; c++) {

             for (int z=0; z<2; z++) {

               out[(s*Nc+c)*2+z] = K1[s]*in[(s1[s]*Nc+c)*2+z] + K2[s]*in[(s2[s]*Nc+c)*2+z];

             }

           }

         }

       }

     };


   template <typename FloatOut, typename FloatIn, int Ns, int Nc>

     struct NonRelToChiralBasis {

     typedef typename mapper<FloatIn>::type RegTypeIn;

     typedef typename mapper<FloatOut>::type RegTypeOut;

     __device__ __host__ inline void operator()(RegTypeOut out[Ns*Nc*2], const RegTypeIn in[Ns*Nc*2]) {

         int s1[4] = {0, 1, 0, 1};

         int s2[4] = {2, 3, 2, 3};

         RegTypeOut K1[4] = {-kU, -kU,  kU,  kU};

         RegTypeOut K2[4] = { kU,  kU,  kU,  kU};

         for (int s=0; s<Ns; s++) {

           for (int c=0; c<Nc; c++) {

             for (int z=0; z<2; z++) {

               out[(s*Nc+c)*2+z] = K1[s]*in[(s1[s]*Nc+c)*2+z] + K2[s]*in[(s2[s]*Nc+c)*2+z];

             }

           }

         }

     }

   };


   template <typename FloatOut, typename FloatIn, int Ns, int Nc, typename OutOrder, typename InOrder, typename Basis>

     void packSpinor(OutOrder &outOrder, const InOrder &inOrder, Basis basis, int volume) {

     typedef typename mapper<FloatIn>::type RegTypeIn;

     typedef typename mapper<FloatOut>::type RegTypeOut;

     for (int x=0; x<volume; x++) {

       RegTypeIn in[Ns*Nc*2];

       RegTypeOut out[Ns*Nc*2];

       inOrder.load(in, x);

       basis(out, in);

       outOrder.save(out, x);

     }

   }


   template <typename FloatOut, typename FloatIn, int Ns, int Nc, typename OutOrder, typename InOrder, typename Basis>

     __global__ void packSpinorKernel(OutOrder outOrder, const InOrder inOrder, Basis basis, int volume) {

     typedef typename mapper<FloatIn>::type RegTypeIn;

     typedef typename mapper<FloatOut>::type RegTypeOut;


     int x = blockIdx.x * blockDim.x + threadIdx.x;

     RegTypeIn in[Ns*Nc*2];

     RegTypeOut out[Ns*Nc*2];

     inOrder.load(in, x);

     // if (x >= volume) return; all load and save routines are index safe (needed for shared variants)

     basis(out, in);

     outOrder.save(out, x);

   }


   template <typename FloatOut, typename FloatIn, int Ns, int Nc, typename OutOrder, typename InOrder, typename Basis>

     class PackSpinor : Tunable {

     const InOrder &in;

     OutOrder &out;

     Basis &basis;

     const ColorSpinorField &meta; // this reference is for meta data only


   private:

     unsigned int sharedBytesPerThread() const {

       size_t regSize = sizeof(FloatOut) > sizeof(FloatIn) ? sizeof(FloatOut) : sizeof(FloatIn);

       return Ns*Nc*2*regSize;

     }


     // the minimum shared memory per block is (block+1) because we pad to avoid bank conflicts

     unsigned int sharedBytesPerBlock(const TuneParam &param) const { return (param.block.x+1)*sharedBytesPerThread(); }

     bool advanceSharedBytes(TuneParam &param) const { return false; } // Don't tune shared mem

     bool tuneGridDim() const { return false; } // Don't tune the grid dimensions.

     unsigned int minThreads() const { return meta.VolumeCB(); }

     bool advanceBlockDim(TuneParam &param) const {

       bool advance = Tunable::advanceBlockDim(param);

       param.shared_bytes = sharedBytesPerThread() * (param.block.x+1); // FIXME: use sharedBytesPerBlock

       return advance;

     }


   public:

     PackSpinor(OutOrder &out, const InOrder &in, Basis &basis, const ColorSpinorField &meta)

       : out(out), in(in), basis(basis), meta(meta) {

       writeAuxString("out_stride=%d,in_stride=%d", out.stride, in.stride);

     }

     virtual ~PackSpinor() { ; }


     void apply(const cudaStream_t &stream) {

       TuneParam tp = tuneLaunch(*this, getTuning(), getVerbosity());

       packSpinorKernel<FloatOut, FloatIn, Ns, Nc, OutOrder, InOrder, Basis>

         <<<tp.grid, tp.block, tp.shared_bytes, stream>>>

         (out, in, basis, meta.VolumeCB());

     }


     TuneKey tuneKey() const { return TuneKey(meta.VolString(), typeid(*this).name(), aux); }


     std::string paramString(const TuneParam &param) const { // Don't bother printing the grid dim.

       std::stringstream ps;

       ps << "block=(" << param.block.x << "," << param.block.y << "," << param.block.z << "), ";

       ps << "shared=" << param.shared_bytes;

       return ps.str();

     }


     long long flops() const { return 0; }

     long long bytes() const { return in.Bytes() + out.Bytes(); }

   };


   template <typename FloatOut, typename FloatIn, int Ns, int Nc, typename OutOrder, typename InOrder>

     void genericCopyColorSpinor(OutOrder &outOrder, const InOrder &inOrder,

                                 QudaGammaBasis dstBasis, QudaGammaBasis srcBasis,

                                 const ColorSpinorField &out, QudaFieldLocation location) {

     if (dstBasis==srcBasis) {

       PreserveBasis<FloatOut, FloatIn, Ns, Nc> basis;

       if (location == QUDA_CPU_FIELD_LOCATION) {

         packSpinor<FloatOut, FloatIn, Ns, Nc>(outOrder, inOrder, basis, out.VolumeCB());

       } else {

         PackSpinor<FloatOut, FloatIn, Ns, Nc, OutOrder, InOrder, PreserveBasis<FloatOut, FloatIn, Ns, Nc> >

           pack(outOrder, inOrder, basis, out);

         pack.apply(0);

       }

     } else if (dstBasis == QUDA_UKQCD_GAMMA_BASIS && srcBasis == QUDA_DEGRAND_ROSSI_GAMMA_BASIS) {

       if (Ns != 4) errorQuda("Can only change basis with Nspin = 4, not Nspin = %d", Ns);

       NonRelBasis<FloatOut, FloatIn, Ns, Nc> basis;

       if (location == QUDA_CPU_FIELD_LOCATION) {

         packSpinor<FloatOut, FloatIn, Ns, Nc>(outOrder, inOrder, basis, out.VolumeCB());

       } else {

         PackSpinor<FloatOut, FloatIn, Ns, Nc, OutOrder, InOrder, NonRelBasis<FloatOut, FloatIn, Ns, Nc> >

           pack(outOrder, inOrder, basis, out);

         pack.apply(0);

       }

     } else if (srcBasis == QUDA_UKQCD_GAMMA_BASIS && dstBasis == QUDA_DEGRAND_ROSSI_GAMMA_BASIS) {

       if (Ns != 4) errorQuda("Can only change basis with Nspin = 4, not Nspin = %d", Ns);

       RelBasis<FloatOut, FloatIn, Ns, Nc> basis;

       if (location == QUDA_CPU_FIELD_LOCATION) {

         packSpinor<FloatOut, FloatIn, Ns, Nc>(outOrder, inOrder, basis, out.VolumeCB());

       } else {

         PackSpinor<FloatOut, FloatIn, Ns, Nc, OutOrder, InOrder, RelBasis<FloatOut, FloatIn, Ns, Nc> >

           pack(outOrder, inOrder, basis, out);

         pack.apply(0);

       }

     } else if (dstBasis == QUDA_UKQCD_GAMMA_BASIS && srcBasis == QUDA_CHIRAL_GAMMA_BASIS) {

       if (Ns != 4) errorQuda("Can only change basis with Nspin = 4, not Nspin = %d", Ns);

       ChiralToNonRelBasis<FloatOut, FloatIn, Ns, Nc> basis;

       if (location == QUDA_CPU_FIELD_LOCATION) {

         packSpinor<FloatOut, FloatIn, Ns, Nc>(outOrder, inOrder, basis, out.VolumeCB());

       } else {

         PackSpinor<FloatOut, FloatIn, Ns, Nc, OutOrder, InOrder, ChiralToNonRelBasis<FloatOut, FloatIn, Ns, Nc> >

           pack(outOrder, inOrder, basis, out);

         pack.apply(0);

       }

     } else if (srcBasis == QUDA_UKQCD_GAMMA_BASIS && dstBasis == QUDA_CHIRAL_GAMMA_BASIS) {

       if (Ns != 4) errorQuda("Can only change basis with Nspin = 4, not Nspin = %d", Ns);

       NonRelToChiralBasis<FloatOut, FloatIn, Ns, Nc> basis;

       if (location == QUDA_CPU_FIELD_LOCATION) {

         packSpinor<FloatOut, FloatIn, Ns, Nc>(outOrder, inOrder, basis, out.VolumeCB());

       } else {

         PackSpinor<FloatOut, FloatIn, Ns, Nc, OutOrder, InOrder, NonRelToChiralBasis<FloatOut, FloatIn, Ns, Nc> >

           pack(outOrder, inOrder, basis, out);

         pack.apply(0);

       }

     } else {

       errorQuda("Basis change not supported");

     }

   }


   template <typename FloatOut, typename FloatIn, int Ns, int Nc, typename InOrder>

     void genericCopyColorSpinor(InOrder &inOrder, ColorSpinorField &out,

                                 QudaGammaBasis inBasis, QudaFieldLocation location,

                                 FloatOut *Out, float *outNorm) {

     if (out.FieldOrder() == QUDA_FLOAT4_FIELD_ORDER) {

       FloatNOrder<FloatOut, Ns, Nc, 4> outOrder(out, Out, outNorm);

       genericCopyColorSpinor<FloatOut,FloatIn,Ns,Nc>

         (outOrder, inOrder, out.GammaBasis(), inBasis, out, location);

     } else if (out.FieldOrder() == QUDA_FLOAT2_FIELD_ORDER) {

       FloatNOrder<FloatOut, Ns, Nc, 2> outOrder(out, Out, outNorm);

       genericCopyColorSpinor<FloatOut,FloatIn,Ns,Nc>

         (outOrder, inOrder, out.GammaBasis(), inBasis, out, location);

     } else if (out.FieldOrder() == QUDA_SPACE_SPIN_COLOR_FIELD_ORDER) {

       SpaceSpinorColorOrder<FloatOut, Ns, Nc> outOrder(out, Out);

       genericCopyColorSpinor<FloatOut,FloatIn,Ns,Nc>

         (outOrder, inOrder, out.GammaBasis(), inBasis, out, location);

     } else if (out.FieldOrder() == QUDA_SPACE_COLOR_SPIN_FIELD_ORDER) {

       SpaceColorSpinorOrder<FloatOut, Ns, Nc> outOrder(out, Out);

       genericCopyColorSpinor<FloatOut,FloatIn,Ns,Nc>

         (outOrder, inOrder, out.GammaBasis(), inBasis, out, location);

     } else if (out.FieldOrder() == QUDA_QDPJIT_FIELD_ORDER) {


 #ifdef BUILD_QDPJIT_INTERFACE

       QDPJITDiracOrder<FloatOut, Ns, Nc> outOrder(out, Out);

       genericCopyColorSpinor<FloatOut,FloatIn,Ns,Nc>

         (outOrder, inOrder, out.GammaBasis(), inBasis, out, location);

 #else

       errorQuda("QDPJIT interface has not been built\n");

 #endif


     } else {

       errorQuda("Order not defined");

     }


   }


   template <typename FloatOut, typename FloatIn, int Ns, int Nc>

     void genericCopyColorSpinor(ColorSpinorField &out, const ColorSpinorField &in,

                                 QudaFieldLocation location, FloatOut *Out, FloatIn *In,

                                 float *outNorm, float *inNorm) {

     if (in.FieldOrder() == QUDA_FLOAT4_FIELD_ORDER) {

       FloatNOrder<FloatIn, Ns, Nc, 4> inOrder(in, In, inNorm);

       genericCopyColorSpinor<FloatOut,FloatIn,Ns,Nc>(inOrder, out, in.GammaBasis(), location, Out, outNorm);

     } else if (in.FieldOrder() == QUDA_FLOAT2_FIELD_ORDER) {

       FloatNOrder<FloatIn, Ns, Nc, 2> inOrder(in, In, inNorm);

       genericCopyColorSpinor<FloatOut,FloatIn,Ns,Nc>(inOrder, out, in.GammaBasis(), location, Out, outNorm);

     } else if (in.FieldOrder() == QUDA_SPACE_SPIN_COLOR_FIELD_ORDER) {

       SpaceSpinorColorOrder<FloatIn, Ns, Nc> inOrder(in, In);

       genericCopyColorSpinor<FloatOut,FloatIn,Ns,Nc>(inOrder, out, in.GammaBasis(), location, Out, outNorm);

     } else if (in.FieldOrder() == QUDA_SPACE_COLOR_SPIN_FIELD_ORDER) {

       SpaceColorSpinorOrder<FloatIn, Ns, Nc> inOrder(in, In);

       genericCopyColorSpinor<FloatOut,FloatIn,Ns,Nc>(inOrder, out, in.GammaBasis(), location, Out, outNorm);

     } else if (in.FieldOrder() == QUDA_QDPJIT_FIELD_ORDER) {


 #ifdef BUILD_QDPJIT_INTERFACE

       QDPJITDiracOrder<FloatIn, Ns, Nc> inOrder(in, In);

       genericCopyColorSpinor<FloatOut,FloatIn,Ns,Nc>(inOrder, out, in.GammaBasis(), location, Out, outNorm);

 #else

       errorQuda("QDPJIT interface has not been built\n");

 #endif


     } else {

       errorQuda("Order not defined");

     }


   }


   template <int Ns, typename dstFloat, typename srcFloat>

     void copyGenericColorSpinor(ColorSpinorField &dst, const ColorSpinorField &src,

                                 QudaFieldLocation location, dstFloat *Dst, srcFloat *Src,

                                 float *dstNorm, float *srcNorm) {


     if (dst.Ndim() != src.Ndim())

       errorQuda("Number of dimensions %d %d don't match", dst.Ndim(), src.Ndim());


     if (dst.Volume() != src.Volume())

       errorQuda("Volumes %d %d don't match", dst.Volume(), src.Volume());


     if (!( dst.SiteOrder() == src.SiteOrder() ||

            (dst.SiteOrder() == QUDA_EVEN_ODD_SITE_ORDER &&

             src.SiteOrder() == QUDA_ODD_EVEN_SITE_ORDER) ||

            (dst.SiteOrder() == QUDA_ODD_EVEN_SITE_ORDER &&

             src.SiteOrder() == QUDA_EVEN_ODD_SITE_ORDER) ) ) {

       errorQuda("Subset orders %d %d don't match", dst.SiteOrder(), src.SiteOrder());

     }


     if (dst.SiteSubset() != src.SiteSubset())

       errorQuda("Subset types do not match %d %d", dst.SiteSubset(), src.SiteSubset());


     if (dst.Ncolor() != 3 || src.Ncolor() != 3) errorQuda("Nc != 3 not yet supported");


     const int Nc = 3;


     // We currently only support parity-ordered fields; even-odd or odd-even

     if (dst.SiteOrder() == QUDA_LEXICOGRAPHIC_SITE_ORDER) {

       errorQuda("Copying to full fields with lexicographical ordering is not currently supported");

     }


     if (dst.SiteSubset() == QUDA_FULL_SITE_SUBSET) { // full field

       if (src.FieldOrder() == QUDA_QDPJIT_FIELD_ORDER ||

           dst.FieldOrder() == QUDA_QDPJIT_FIELD_ORDER) {

         errorQuda("QDPJIT field ordering not supported for full site fields");

       }


       // set for the source subset ordering

       srcFloat *srcEven = Src ? Src : (srcFloat*)src.V();

       srcFloat *srcOdd = (srcFloat*)((char*)srcEven + src.Bytes()/2);

       float *srcNormEven = srcNorm ? srcNorm : (float*)src.Norm();

       float *srcNormOdd = (float*)((char*)srcNormEven + src.NormBytes()/2);

       if (src.SiteOrder() == QUDA_ODD_EVEN_SITE_ORDER) {

         std::swap<srcFloat*>(srcEven, srcOdd);

         std::swap<float*>(srcNormEven, srcNormOdd);

       }


       // set for the destination subset ordering

       dstFloat *dstEven = Dst ? Dst : (dstFloat*)dst.V();

       dstFloat *dstOdd = (dstFloat*)((char*)dstEven + dst.Bytes()/2);

       float *dstNormEven = dstNorm ? dstNorm : (float*)dst.Norm();

       float *dstNormOdd = (float*)((char*)dstNormEven + dst.NormBytes()/2);

       if (dst.SiteOrder() == QUDA_ODD_EVEN_SITE_ORDER) {

         std::swap<dstFloat*>(dstEven, dstOdd);

         std::swap<float*>(dstNormEven, dstNormOdd);

       }


       genericCopyColorSpinor<dstFloat, srcFloat, Ns, Nc>

         (dst, src, location, dstEven, srcEven, dstNormEven, srcNormEven);

       genericCopyColorSpinor<dstFloat, srcFloat, Ns, Nc>

         (dst, src, location,  dstOdd,  srcOdd,  dstNormOdd,  srcNormOdd);

     } else { // parity field

       genericCopyColorSpinor<dstFloat, srcFloat, Ns, Nc>

         (dst, src, location, Dst, Src, dstNorm, srcNorm);

     }


   }


   template <typename dstFloat, typename srcFloat>

   void CopyGenericColorSpinor(ColorSpinorField &dst, const ColorSpinorField &src,

                               QudaFieldLocation location, dstFloat *Dst, srcFloat *Src,

                               float *dstNorm=0, float *srcNorm=0) {


     if (dst.Nspin() != src.Nspin())

       errorQuda("source and destination spins must match");


     if (dst.Nspin() == 4) {

       copyGenericColorSpinor<4>(dst, src, location, Dst, Src, dstNorm, srcNorm);

     } else if (dst.Nspin() == 1) {

       copyGenericColorSpinor<1>(dst, src, location, Dst, Src, dstNorm, srcNorm);

     } else {

       errorQuda("Nspin=%d unsupported", dst.Nspin());

     }


   }


   void copyGenericColorSpinor(ColorSpinorField &dst, const ColorSpinorField &src,

                               QudaFieldLocation location, void *Dst, void *Src,

                               void *dstNorm, void *srcNorm) {


     if (dst.Precision() == QUDA_DOUBLE_PRECISION) {

       if (src.Precision() == QUDA_DOUBLE_PRECISION) {

         CopyGenericColorSpinor(dst, src, location, (double*)Dst, (double*)Src);

       } else if (src.Precision() == QUDA_SINGLE_PRECISION) {

         CopyGenericColorSpinor(dst, src, location, (double*)Dst, (float*)Src);

       } else if (src.Precision() == QUDA_HALF_PRECISION) {

         CopyGenericColorSpinor(dst, src, location, (double*)Dst, (short*)Src, 0, (float*)srcNorm);

       } else {

         errorQuda("Unsupported Precision %d", src.Precision());

       }

     } else if (dst.Precision() == QUDA_SINGLE_PRECISION) {

       if (src.Precision() == QUDA_DOUBLE_PRECISION) {

         CopyGenericColorSpinor(dst, src, location, (float*)Dst, (double*)Src);

       } else if (src.Precision() == QUDA_SINGLE_PRECISION) {

         CopyGenericColorSpinor(dst, src, location, (float*)Dst, (float*)Src);

       } else if (src.Precision() == QUDA_HALF_PRECISION) {

         CopyGenericColorSpinor(dst, src, location, (float*)Dst, (short*)Src, 0, (float*)srcNorm);

       } else {

         errorQuda("Unsupported Precision %d", src.Precision());

       }

     } else if (dst.Precision() == QUDA_HALF_PRECISION) {

       if (src.Precision() == QUDA_DOUBLE_PRECISION) {

         CopyGenericColorSpinor(dst, src, location, (short*)Dst, (double*)Src, (float*)dstNorm, 0);

       } else if (src.Precision() == QUDA_SINGLE_PRECISION) {

         CopyGenericColorSpinor(dst, src, location, (short*)Dst, (float*)Src, (float*)dstNorm, 0);

       } else if (src.Precision() == QUDA_HALF_PRECISION) {

         CopyGenericColorSpinor(dst, src, location, (short*)Dst, (short*)Src, (float*)dstNorm, (float*)srcNorm);

       } else {

         errorQuda("Unsupported Precision %d", src.Precision());

       }

     } else {

       errorQuda("Unsupported Precision %d", dst.Precision());

     }

   }


 } // namespace quda

quda::PackSpinor::paramString
std::string paramString(const TuneParam &param) const
Definition: copy_color_spinor.cu:195

quda::RelBasis::operator()
__device__ __host__ void operator()(RegTypeOut out[Ns *Nc *2], const RegTypeIn in[Ns *Nc *2])
Definition: copy_color_spinor.cu:70

quda::TuneParam
Definition: tune_quda.h:16

quda::SpaceSpinorColorOrder
Definition: color_spinor_field_order.h:342

quda::RelBasis::RegTypeOut
mapper< FloatOut >::type RegTypeOut
Definition: copy_color_spinor.cu:69

QUDA_LEXICOGRAPHIC_SITE_ORDER
Definition: enum_quda.h:284

quda::ColorSpinorField
Definition: color_spinor_field.h:141

kP
#define kP
Definition: copy_color_spinor.cu:19

quda::ColorSpinorField::VolumeCB
int VolumeCB() const
Definition: color_spinor_field.h:254

getVerbosity
QudaVerbosity getVerbosity()
Definition: util_quda.cpp:20

quda::NonRelBasis::RegTypeOut
mapper< FloatOut >::type RegTypeOut
Definition: copy_color_spinor.cu:49

errorQuda
#define errorQuda(...)
Definition: util_quda.h:73

color_spinor_field.h

quda::CopyGenericColorSpinor
void CopyGenericColorSpinor(ColorSpinorField &dst, const ColorSpinorField &src, QudaFieldLocation location, dstFloat *Dst, srcFloat *Src, float *dstNorm=0, float *srcNorm=0)
Definition: copy_color_spinor.cu:405

QUDA_SPACE_SPIN_COLOR_FIELD_ORDER
Definition: enum_quda.h:295

QUDA_HALF_PRECISION
Definition: enum_quda.h:48

quda::RelBasis::RegTypeIn
mapper< FloatIn >::type RegTypeIn
Definition: copy_color_spinor.cu:68

quda::stream
cudaStream_t * stream
Definition: cuda_color_spinor_field.cu:816

testing::internal::string
::std::string string
Definition: gtest.h:1979

QUDA_FULL_SITE_SUBSET
Definition: enum_quda.h:277

quda::TuneParam::shared_bytes
int shared_bytes
Definition: tune_quda.h:21

quda::copyGenericColorSpinor
void copyGenericColorSpinor(ColorSpinorField &dst, const ColorSpinorField &src, QudaFieldLocation location, void *Dst=0, void *Src=0, void *dstNorm=0, void *srcNorm=0)
Definition: copy_color_spinor.cu:422

quda::ColorSpinorField::NormBytes
size_t NormBytes() const
Definition: color_spinor_field.h:257

quda::TuneParam::grid
dim3 grid
Definition: tune_quda.h:20

QUDA_UKQCD_GAMMA_BASIS
Definition: enum_quda.h:312

param
QudaGaugeParam param
Definition: pack_test.cpp:17

QUDA_CHIRAL_GAMMA_BASIS
Definition: enum_quda.h:313

quda::PackSpinor::tuneKey
TuneKey tuneKey() const
Definition: copy_color_spinor.cu:193

quda::Tunable
Definition: tune_quda.h:40

quda::NonRelBasis::operator()
__device__ __host__ void operator()(RegTypeOut out[Ns *Nc *2], const RegTypeIn in[Ns *Nc *2])
Definition: copy_color_spinor.cu:50

quda::Tunable::writeAuxString
void writeAuxString(const char *format,...)
Definition: tune_quda.h:138

QUDA_EVEN_ODD_SITE_ORDER
Definition: enum_quda.h:285

quda::PackSpinor::apply
void apply(const cudaStream_t &stream)
Definition: copy_color_spinor.cu:186

location
const QudaFieldLocation location
Definition: pack_test.cpp:46

quda::packSpinorKernel
__global__ void packSpinorKernel(OutOrder outOrder, const InOrder inOrder, Basis basis, int volume)
Definition: copy_color_spinor.cu:141

quda::RelBasis
Definition: copy_color_spinor.cu:67

quda::TuneParam::block
dim3 block
Definition: tune_quda.h:19

in
cpuColorSpinorField * in
Definition: staggered_invert_test.cpp:50

quda::Tunable::advanceBlockDim
virtual bool advanceBlockDim(TuneParam &param) const
Definition: tune_quda.h:74

QUDA_QDPJIT_FIELD_ORDER
Definition: enum_quda.h:297

quda::tuneLaunch
TuneParam & tuneLaunch(Tunable &tunable, QudaTune enabled, QudaVerbosity verbosity)
Definition: tune.cpp:271

quda::FloatNOrder
Definition: clover_field_order.h:56

quda::QDPJITDiracOrder
Definition: color_spinor_field_order.h:388

QUDA_FLOAT2_FIELD_ORDER
Definition: enum_quda.h:293

quda::PackSpinor::bytes
long long bytes() const
Definition: copy_color_spinor.cu:203

quda::PackSpinor::flops
long long flops() const
Definition: copy_color_spinor.cu:202

quda::LatticeField::VolString
const char * VolString() const
Definition: lattice_field.h:199

quda::NonRelToChiralBasis
Definition: copy_color_spinor.cu:107

quda::ChiralToNonRelBasis::operator()
__device__ __host__ void operator()(RegTypeOut out[Ns *Nc *2], const RegTypeIn in[Ns *Nc *2])
Definition: copy_color_spinor.cu:90

quda::ColorSpinorField::Bytes
size_t Bytes() const
Definition: color_spinor_field.h:256

quda::ColorSpinorField::SiteOrder
QudaSiteOrder SiteOrder() const
Definition: color_spinor_field.h:284

x
int x[4]
Definition: hisq_paths_force_core.h:99

tune_quda.h

quda::ColorSpinorField::Norm
void * Norm()
Definition: color_spinor_field.h:264

quda::NonRelToChiralBasis::RegTypeOut
mapper< FloatOut >::type RegTypeOut
Definition: copy_color_spinor.cu:109

quda::ChiralToNonRelBasis::RegTypeIn
mapper< FloatIn >::type RegTypeIn
Definition: copy_color_spinor.cu:88

quda::ColorSpinorField::FieldOrder
QudaFieldOrder FieldOrder() const
Definition: color_spinor_field.h:285

QUDA_SPACE_COLOR_SPIN_FIELD_ORDER
Definition: enum_quda.h:296

quda::PackSpinor::~PackSpinor
virtual ~PackSpinor()
Definition: copy_color_spinor.cu:184

quda::NonRelToChiralBasis::operator()
__device__ __host__ void operator()(RegTypeOut out[Ns *Nc *2], const RegTypeIn in[Ns *Nc *2])
Definition: copy_color_spinor.cu:110

QUDA_DOUBLE_PRECISION
Definition: enum_quda.h:50

QudaFieldLocation
enum QudaFieldLocation_s QudaFieldLocation

quda::NonRelToChiralBasis::RegTypeIn
mapper< FloatIn >::type RegTypeIn
Definition: copy_color_spinor.cu:108

quda::ColorSpinorField::Ndim
int Ndim() const
Definition: color_spinor_field.h:246

quda::ChiralToNonRelBasis
Definition: copy_color_spinor.cu:87

out
cpuColorSpinorField * out
Definition: staggered_invert_test.cpp:51

quda::PackSpinor::PackSpinor
PackSpinor(OutOrder &out, const InOrder &in, Basis &basis, const ColorSpinorField &meta)
Definition: copy_color_spinor.cu:180

quda::NonRelBasis::RegTypeIn
mapper< FloatIn >::type RegTypeIn
Definition: copy_color_spinor.cu:48

QUDA_SINGLE_PRECISION
Definition: enum_quda.h:49

QudaGammaBasis
enum QudaGammaBasis_s QudaGammaBasis

quda::PackSpinor
Definition: copy_color_spinor.cu:155

quda::mapper
Definition: register_traits.h:16

color_spinor_field_order.h

quda::ChiralToNonRelBasis::RegTypeOut
mapper< FloatOut >::type RegTypeOut
Definition: copy_color_spinor.cu:89

quda::ColorSpinorField::Precision
QudaPrecision Precision() const
Definition: color_spinor_field.h:242

QUDA_ODD_EVEN_SITE_ORDER
Definition: enum_quda.h:286

QUDA_DEGRAND_ROSSI_GAMMA_BASIS
Definition: enum_quda.h:311

kU
#define kU
Definition: copy_color_spinor.cu:20

quda::ColorSpinorField::GammaBasis
QudaGammaBasis GammaBasis() const
Definition: color_spinor_field.h:286

quda::ColorSpinorField::Volume
int Volume() const
Definition: color_spinor_field.h:253

quda::NonRelBasis
Definition: copy_color_spinor.cu:47

quda::genericCopyColorSpinor
void genericCopyColorSpinor(OutOrder &outOrder, const InOrder &inOrder, QudaGammaBasis dstBasis, QudaGammaBasis srcBasis, const ColorSpinorField &out, QudaFieldLocation location)
Definition: copy_color_spinor.cu:209

quda::ColorSpinorField::Nspin
int Nspin() const
Definition: color_spinor_field.h:244

QUDA_FLOAT4_FIELD_ORDER
Definition: enum_quda.h:294

quda::SpaceColorSpinorOrder
Definition: color_spinor_field_order.h:192

quda::PreserveBasis
Definition: copy_color_spinor.cu:30

getTuning
QudaTune getTuning()
Definition: util_quda.cpp:32

s
VOLATILE spinorFloat * s
Definition: asym_wilson_clover_dslash_dagger_g80_core.h:387

quda::ColorSpinorField::Ncolor
int Ncolor() const
Definition: color_spinor_field.h:243

QUDA_CPU_FIELD_LOCATION
Definition: enum_quda.h:270

quda::ColorSpinorField::SiteSubset
QudaSiteSubset SiteSubset() const
Definition: color_spinor_field.h:283

quda::Tunable::aux
char aux[TuneKey::aux_n]
Definition: tune_quda.h:136

quda::TuneKey
Definition: tune_key.h:8

quda::packSpinor
void packSpinor(OutOrder &outOrder, const InOrder &inOrder, Basis basis, int volume)
Definition: copy_color_spinor.cu:127

quda::ColorSpinorField::V
void * V()
Definition: color_spinor_field.h:262

quda::PreserveBasis::operator()
__device__ __host__ void operator()(RegTypeOut out[Ns *Nc *2], const RegTypeIn in[Ns *Nc *2])
Definition: copy_color_spinor.cu:34