quda-ref/v1.0.0/copy__color__spinor_8cuh_source.html

 /*
   Spinor reordering and copying routines.  These are implemented to
   un on both CPU and GPU.  Here we are templating on the following:
   - input precision
   - output precision
   - number of colors
   - number of spins
   - field ordering
 */

 #include <color_spinor_field.h>
 #include <color_spinor_field_order.h>
 #include <tune_quda.h>
 #include <utility> // for std::swap

 #define PRESERVE_SPINOR_NORM

 #ifdef PRESERVE_SPINOR_NORM // Preserve the norm regardless of basis
 #define kP (1.0/sqrt(2.0))
 #define kU (1.0/sqrt(2.0))
 #else // More numerically accurate not to preserve the norm between basis
 #define kP (0.5)
 #define kU (1.0)
 #endif

 namespace quda {

   using namespace colorspinor;

   template <typename FloatOut, typename FloatIn, int nSpin_, int nColor_, typename Out, typename In>
   struct CopyColorSpinorArg {
     using realOut = typename mapper<FloatOut>::type;
     using realIn = typename mapper<FloatIn>::type;
     static constexpr int nSpin = nSpin_;
     static constexpr int nColor = nColor_;
     Out out;
     const In in;
     const int volumeCB;
     const int nParity;
     const int outParity;
     const int inParity;
     CopyColorSpinorArg(const Out &out, const In &in, const ColorSpinorField &out_, const ColorSpinorField &in_)
       : out(out), in(in), volumeCB(in_.VolumeCB()), nParity(in_.SiteSubset()),
   outParity(out_.SiteOrder()==QUDA_ODD_EVEN_SITE_ORDER ? 1 : 0),
   inParity(in_.SiteOrder()==QUDA_ODD_EVEN_SITE_ORDER ? 1 : 0) { }
   };

   template <typename Arg>
   struct PreserveBasis {
     static constexpr int Ns = Arg::nSpin;
     static constexpr int Nc = Arg::nColor;
     template <typename FloatOut, typename FloatIn>
     __device__ __host__ inline void operator()(complex<FloatOut> out[Ns*Nc], const complex<FloatIn> in[Ns*Nc]) const {
       for (int s=0; s<Ns; s++) for (int c=0; c<Nc; c++) out[s*Nc+c] = in[s*Nc+c];
     }
   };

   template <typename Arg>
   struct NonRelBasis {
     static constexpr int Ns = Arg::nSpin;
     static constexpr int Nc = Arg::nColor;
     template <typename FloatOut, typename FloatIn>
     __device__ __host__ inline void operator()(complex<FloatOut> out[Ns*Nc], const complex<FloatIn> in[Ns*Nc]) const {
       int s1[4] = {1, 2, 3, 0};
       int s2[4] = {3, 0, 1, 2};
       FloatOut K1[4] = {static_cast<FloatOut>(kP), static_cast<FloatOut>(-kP), static_cast<FloatOut>(-kP), static_cast<FloatOut>(-kP)};
       FloatOut K2[4] = {static_cast<FloatOut>(kP), static_cast<FloatOut>(-kP), static_cast<FloatOut>(kP), static_cast<FloatOut>(kP)};
       for (int s=0; s<Ns; s++) {
   for (int c=0; c<Nc; c++) {
     out[s*Nc+c] = K1[s]*static_cast<complex<FloatOut> >(in[s1[s]*Nc+c]) + K2[s]*static_cast<complex<FloatOut> >(in[s2[s]*Nc+c]);
   }
       }
     }
   };

   template <typename Arg>
   struct RelBasis {
     static constexpr int Ns = Arg::nSpin;
     static constexpr int Nc = Arg::nColor;
     template <typename FloatOut, typename FloatIn>
     __device__ __host__ inline void operator()(complex<FloatOut> out[Ns*Nc], const complex<FloatIn> in[Ns*Nc]) const {
       int s1[4] = {1, 2, 3, 0};
       int s2[4] = {3, 0, 1, 2};
       FloatOut K1[4] = {static_cast<FloatOut>(-kU), static_cast<FloatOut>(kU), static_cast<FloatOut>(kU),  static_cast<FloatOut>(kU)};
       FloatOut K2[4] = {static_cast<FloatOut>(-kU), static_cast<FloatOut>(kU), static_cast<FloatOut>(-kU), static_cast<FloatOut>(-kU)};
       for (int s=0; s<Ns; s++) {
   for (int c=0; c<Nc; c++) {
     out[s*Nc+c] = K1[s]*static_cast<complex<FloatOut> >(in[s1[s]*Nc+c]) + K2[s]*static_cast<complex<FloatOut> >(in[s2[s]*Nc+c]);
   }
       }
     }
   };

   template <typename Arg>
   struct ChiralToNonRelBasis {
     static constexpr int Ns = Arg::nSpin;
     static constexpr int Nc = Arg::nColor;
     template <typename FloatOut, typename FloatIn>
     __device__ __host__ inline void operator()(complex<FloatOut> out[Ns*Nc], const complex<FloatIn> in[Ns*Nc]) const {
       int s1[4] = {0, 1, 0, 1};
       int s2[4] = {2, 3, 2, 3};
       FloatOut K1[4] = {static_cast<FloatOut>(-kP), static_cast<FloatOut>(-kP), static_cast<FloatOut>(kP), static_cast<FloatOut>(kP)};
       FloatOut K2[4] = {static_cast<FloatOut>(kP), static_cast<FloatOut>(kP), static_cast<FloatOut>(kP), static_cast<FloatOut>(kP)};
       for (int s=0; s<Ns; s++) {
   for (int c=0; c<Nc; c++) {
     out[s*Nc+c] = K1[s]*static_cast<complex<FloatOut> >(in[s1[s]*Nc+c]) + K2[s]*static_cast<complex<FloatOut> >(in[s2[s]*Nc+c]);
   }
       }
     }
   };

   template <typename Arg>
   struct NonRelToChiralBasis {
     static constexpr int Ns = Arg::nSpin;
     static constexpr int Nc = Arg::nColor;
     template <typename FloatOut, typename FloatIn>
     __device__ __host__ inline void operator()(complex<FloatOut> out[Ns*Nc], const complex<FloatIn> in[Ns*Nc]) const {
       int s1[4] = {0, 1, 0, 1};
       int s2[4] = {2, 3, 2, 3};
       FloatOut K1[4] = {static_cast<FloatOut>(-kU), static_cast<FloatOut>(-kU), static_cast<FloatOut>(kU), static_cast<FloatOut>(kU)};
       FloatOut K2[4] = {static_cast<FloatOut>(kU),static_cast<FloatOut>(kU), static_cast<FloatOut>(kU), static_cast<FloatOut>(kU)};
       for (int s=0; s<Ns; s++) {
   for (int c=0; c<Nc; c++) {
     out[s*Nc+c] = K1[s]*static_cast<complex<FloatOut> >(in[s1[s]*Nc+c]) + K2[s]*static_cast<complex<FloatOut> >(in[s2[s]*Nc+c]);
   }
       }
     }
   };

   template <typename Arg, typename Basis> void copyColorSpinor(Arg &arg, const Basis &basis)
   {
     for (int parity = 0; parity<arg.nParity; parity++) {
       for (int x=0; x<arg.volumeCB; x++) {
         ColorSpinor<typename Arg::realIn, Arg::nColor, Arg::nSpin> in = arg.in(x, (parity+arg.inParity)&1);
         ColorSpinor<typename Arg::realOut, Arg::nColor, Arg::nSpin> out;
   basis(out.data, in.data);
   arg.out(x, (parity+arg.outParity)&1) = out;
       }
     }
   }

   template <typename Arg, typename Basis> __global__ void copyColorSpinorKernel(Arg arg, Basis basis)
   {
     int x = blockIdx.x * blockDim.x + threadIdx.x;
     if (x >= arg.volumeCB) return;
     int parity = blockIdx.y * blockDim.y + threadIdx.y;

     ColorSpinor<typename Arg::realIn, Arg::nColor, Arg::nSpin> in = arg.in(x, (parity+arg.inParity)&1);
     ColorSpinor<typename Arg::realOut, Arg::nColor, Arg::nSpin> out;
     basis(out.data, in.data);
     arg.out(x, (parity+arg.outParity)&1) = out;
   }

   template <int Ns, typename Arg>
     class CopyColorSpinor : TunableVectorY {
     Arg &arg;
     const ColorSpinorField &meta;
     const QudaFieldLocation location;

   private:
     unsigned int sharedBytesPerThread() const { return 0; }
     unsigned int sharedBytesPerBlock(const TuneParam &param) const { return 0; }
     bool advanceSharedBytes(TuneParam &param) const { return false; } // Don't tune shared mem
     bool tuneGridDim() const { return false; } // Don't tune the grid dimensions.
     unsigned int minThreads() const { return meta.VolumeCB(); }

   public:
     CopyColorSpinor(Arg &arg, const ColorSpinorField &out, const ColorSpinorField &in,
         QudaFieldLocation location)
       : TunableVectorY(arg.nParity), arg(arg), meta(in), location(location) {
       if (out.GammaBasis()!=in.GammaBasis()) errorQuda("Cannot change gamma basis for nSpin=%d\n", Ns);
       writeAuxString("out_stride=%d,in_stride=%d", arg.out.stride, arg.in.stride);
     }
     virtual ~CopyColorSpinor() { ; }

     void apply(const cudaStream_t &stream) {
       if (location == QUDA_CPU_FIELD_LOCATION) {
   copyColorSpinor(arg, PreserveBasis<Arg>());
       } else {
   TuneParam tp = tuneLaunch(*this, getTuning(), getVerbosity());
   copyColorSpinorKernel<<<tp.grid, tp.block, tp.shared_bytes, stream>>>(arg, PreserveBasis<Arg>());
       }
     }

     TuneKey tuneKey() const { return TuneKey(meta.VolString(), typeid(*this).name(), aux); }
     long long flops() const { return 0; }
     long long bytes() const { return arg.in.Bytes() + arg.out.Bytes(); }
   };

   template <typename Arg>
   class CopyColorSpinor<4,Arg> : TunableVectorY {
     static constexpr int Ns = 4;
     Arg &arg;
     const ColorSpinorField &out;
     const ColorSpinorField &in;
     const QudaFieldLocation location;

   private:
     unsigned int sharedBytesPerThread() const { return 0; }
     unsigned int sharedBytesPerBlock(const TuneParam &param) const { return 0; }
     bool advanceSharedBytes(TuneParam &param) const { return false; } // Don't tune shared mem
     bool tuneGridDim() const { return false; } // Don't tune the grid dimensions.
     unsigned int minThreads() const { return in.VolumeCB(); }

   public:
     CopyColorSpinor(Arg &arg, const ColorSpinorField &out, const ColorSpinorField &in,
         QudaFieldLocation location)
       : TunableVectorY(arg.nParity), arg(arg), out(out), in(in), location(location) {

       if (out.GammaBasis()==in.GammaBasis()) {
   writeAuxString("out_stride=%d,in_stride=%d,PreserveBasis", arg.out.stride, arg.in.stride);
       } else if (out.GammaBasis() == QUDA_UKQCD_GAMMA_BASIS && in.GammaBasis() == QUDA_DEGRAND_ROSSI_GAMMA_BASIS) {
   writeAuxString("out_stride=%d,in_stride=%d,NonRelBasis", arg.out.stride, arg.in.stride);
       } else if (in.GammaBasis() == QUDA_UKQCD_GAMMA_BASIS && out.GammaBasis() == QUDA_DEGRAND_ROSSI_GAMMA_BASIS) {
   writeAuxString("out_stride=%d,in_stride=%d,RelBasis", arg.out.stride, arg.in.stride);
       } else if (out.GammaBasis() == QUDA_UKQCD_GAMMA_BASIS && in.GammaBasis() == QUDA_CHIRAL_GAMMA_BASIS) {
   writeAuxString("out_stride=%d,in_stride=%d,ChiralToNonRelBasis", arg.out.stride, arg.in.stride);
       } else if (in.GammaBasis() == QUDA_UKQCD_GAMMA_BASIS && out.GammaBasis() == QUDA_CHIRAL_GAMMA_BASIS) {
   writeAuxString("out_stride=%d,in_stride=%d,NonRelToChiralBasis", arg.out.stride, arg.in.stride);
       } else {
   errorQuda("Basis change from %d to %d not supported", in.GammaBasis(), out.GammaBasis());
       }
     }
     virtual ~CopyColorSpinor() { ; }

     void apply(const cudaStream_t &stream) {
       if (location == QUDA_CPU_FIELD_LOCATION) {
   if (out.GammaBasis()==in.GammaBasis()) {
           copyColorSpinor(arg, PreserveBasis<Arg>());
   } else if (out.GammaBasis() == QUDA_UKQCD_GAMMA_BASIS && in.GammaBasis() == QUDA_DEGRAND_ROSSI_GAMMA_BASIS) {
     copyColorSpinor(arg, NonRelBasis<Arg>());
   } else if (in.GammaBasis() == QUDA_UKQCD_GAMMA_BASIS && out.GammaBasis() == QUDA_DEGRAND_ROSSI_GAMMA_BASIS) {
     copyColorSpinor(arg, RelBasis<Arg>());
   } else if (out.GammaBasis() == QUDA_UKQCD_GAMMA_BASIS && in.GammaBasis() == QUDA_CHIRAL_GAMMA_BASIS) {
     copyColorSpinor(arg, ChiralToNonRelBasis<Arg>());
   } else if (in.GammaBasis() == QUDA_UKQCD_GAMMA_BASIS && out.GammaBasis() == QUDA_CHIRAL_GAMMA_BASIS) {
     copyColorSpinor(arg, NonRelToChiralBasis<Arg>());
   }
       } else {
   TuneParam tp = tuneLaunch(*this, getTuning(), getVerbosity());
   if (out.GammaBasis()==in.GammaBasis()) {
     copyColorSpinorKernel<<<tp.grid, tp.block, tp.shared_bytes, stream>>> (arg, PreserveBasis<Arg>());
   } else if (out.GammaBasis() == QUDA_UKQCD_GAMMA_BASIS && in.GammaBasis() == QUDA_DEGRAND_ROSSI_GAMMA_BASIS) {
     copyColorSpinorKernel<<<tp.grid, tp.block, tp.shared_bytes, stream>>> (arg, NonRelBasis<Arg>());
   } else if (in.GammaBasis() == QUDA_UKQCD_GAMMA_BASIS && out.GammaBasis() == QUDA_DEGRAND_ROSSI_GAMMA_BASIS) {
     copyColorSpinorKernel<<<tp.grid, tp.block, tp.shared_bytes, stream>>> (arg, RelBasis<Arg>());
   } else if (out.GammaBasis() == QUDA_UKQCD_GAMMA_BASIS && in.GammaBasis() == QUDA_CHIRAL_GAMMA_BASIS) {
     copyColorSpinorKernel<<<tp.grid, tp.block, tp.shared_bytes, stream>>> (arg, ChiralToNonRelBasis<Arg>());
   } else if (in.GammaBasis() == QUDA_UKQCD_GAMMA_BASIS && out.GammaBasis() == QUDA_CHIRAL_GAMMA_BASIS) {
     copyColorSpinorKernel<<<tp.grid, tp.block, tp.shared_bytes, stream>>> (arg, NonRelToChiralBasis<Arg>());
   }
       }
     }

     TuneKey tuneKey() const { return TuneKey(in.VolString(), typeid(*this).name(), aux); }
     long long flops() const { return 0; }
     long long bytes() const { return arg.in.Bytes() + arg.out.Bytes(); }
   };


   template <typename FloatOut, typename FloatIn, int Ns, int Nc, typename Out, typename In>
   void genericCopyColorSpinor(Out &outOrder, const In &inOrder, const ColorSpinorField &out,
             const ColorSpinorField &in, QudaFieldLocation location)
   {
     CopyColorSpinorArg<FloatOut, FloatIn, Ns, Nc, Out, In> arg(outOrder, inOrder, out, in);
     CopyColorSpinor<Ns, decltype(arg)> copy(arg, out, in, location);
     copy.apply(0);
   }

   template <typename FloatOut, typename FloatIn, int Ns, int Nc, typename InOrder>
     void genericCopyColorSpinor(InOrder &inOrder, ColorSpinorField &out,
         const ColorSpinorField &in, QudaFieldLocation location,
         FloatOut *Out, float *outNorm) {
     const bool override = true;
     if (out.isNative()) {
       typedef typename colorspinor_mapper<FloatOut,Ns,Nc>::type ColorSpinor;
       ColorSpinor outOrder(out, 1, Out, outNorm, nullptr, override);
       genericCopyColorSpinor<FloatOut,FloatIn,Ns,Nc>
   (outOrder, inOrder, out, in, location);
     } else if (out.FieldOrder() == QUDA_FLOAT2_FIELD_ORDER && Ns == 4) {
       // this is needed for single-precision mg for changing basis in the transfer
       typedef typename colorspinor::FloatNOrder<FloatOut, 4, Nc, 2> ColorSpinor;
       ColorSpinor outOrder(out, 1, Out, outNorm, nullptr, override);
       genericCopyColorSpinor<FloatOut,FloatIn,4,Nc>
   (outOrder, inOrder, out, in, location);
     } else if (out.FieldOrder() == QUDA_SPACE_SPIN_COLOR_FIELD_ORDER) {
       SpaceSpinorColorOrder<FloatOut, Ns, Nc> outOrder(out, 1, Out);
       genericCopyColorSpinor<FloatOut,FloatIn,Ns,Nc>
   (outOrder, inOrder, out, in, location);
     } else if (out.FieldOrder() == QUDA_SPACE_COLOR_SPIN_FIELD_ORDER) {
       SpaceColorSpinorOrder<FloatOut, Ns, Nc> outOrder(out, 1, Out);
       genericCopyColorSpinor<FloatOut,FloatIn,Ns,Nc>
   (outOrder, inOrder, out, in, location);
     } else if (out.FieldOrder() == QUDA_PADDED_SPACE_SPIN_COLOR_FIELD_ORDER) {

 #ifdef BUILD_TIFR_INTERFACE
       PaddedSpaceSpinorColorOrder<FloatOut, Ns, Nc> outOrder(out, 1, Out);
       genericCopyColorSpinor<FloatOut,FloatIn,Ns,Nc>
   (outOrder, inOrder, out, in, location);
 #else
       errorQuda("TIFR interface has not been built\n");
 #endif

     } else if (out.FieldOrder() == QUDA_QDPJIT_FIELD_ORDER) {

 #ifdef BUILD_QDPJIT_INTERFACE
       QDPJITDiracOrder<FloatOut, Ns, Nc> outOrder(out, 1, Out);
       genericCopyColorSpinor<FloatOut,FloatIn,Ns,Nc>
   (outOrder, inOrder, out, in, location);
 #else
       errorQuda("QDPJIT interface has not been built\n");
 #endif
     } else {
       errorQuda("Order %d not defined (Ns=%d, Nc=%d)", out.FieldOrder(), Ns, Nc);
     }

   }

   template <typename FloatOut, typename FloatIn, int Ns, int Nc>
     void genericCopyColorSpinor(ColorSpinorField &out, const ColorSpinorField &in,
         QudaFieldLocation location, FloatOut *Out, FloatIn *In,
         float *outNorm, float *inNorm) {
     const bool override = true;
     if (in.isNative()) {
       typedef typename colorspinor_mapper<FloatIn,Ns,Nc>::type ColorSpinor;
       ColorSpinor inOrder(in, 1, In, inNorm, nullptr, override);
       genericCopyColorSpinor<FloatOut,FloatIn,Ns,Nc>(inOrder, out, in, location, Out, outNorm);
     } else if (in.FieldOrder() == QUDA_FLOAT2_FIELD_ORDER && Ns == 4) {
       // this is needed for single-precision mg for changing basis in the transfer
       typedef typename colorspinor::FloatNOrder<FloatIn, 4, Nc, 2> ColorSpinor;
       ColorSpinor inOrder(in, 1, In, inNorm, nullptr, override);
       genericCopyColorSpinor<FloatOut,FloatIn,4,Nc>(inOrder, out, in, location, Out, outNorm);
     } else if (in.FieldOrder() == QUDA_SPACE_SPIN_COLOR_FIELD_ORDER) {
       SpaceSpinorColorOrder<FloatIn, Ns, Nc> inOrder(in, 1, In);
       genericCopyColorSpinor<FloatOut,FloatIn,Ns,Nc>(inOrder, out, in, location, Out, outNorm);
     } else if (in.FieldOrder() == QUDA_SPACE_COLOR_SPIN_FIELD_ORDER) {
       SpaceColorSpinorOrder<FloatIn, Ns, Nc> inOrder(in, 1, In);
       genericCopyColorSpinor<FloatOut,FloatIn,Ns,Nc>(inOrder, out, in, location, Out, outNorm);
     } else if (in.FieldOrder() == QUDA_PADDED_SPACE_SPIN_COLOR_FIELD_ORDER) {

 #ifdef BUILD_TIFR_INTERFACE
       PaddedSpaceSpinorColorOrder<FloatIn, Ns, Nc> inOrder(in, 1, In);
       genericCopyColorSpinor<FloatOut,FloatIn,Ns,Nc>(inOrder, out, in, location, Out, outNorm);
 #else
       errorQuda("TIFR interface has not been built\n");
 #endif

     } else if (in.FieldOrder() == QUDA_QDPJIT_FIELD_ORDER) {

 #ifdef BUILD_QDPJIT_INTERFACE
       QDPJITDiracOrder<FloatIn, Ns, Nc> inOrder(in, 1, In);
       genericCopyColorSpinor<FloatOut,FloatIn,Ns,Nc>(inOrder, out, in, location, Out, outNorm);
 #else
       errorQuda("QDPJIT interface has not been built\n");
 #endif
     } else {
       errorQuda("Order %d not defined (Ns=%d, Nc=%d)", in.FieldOrder(), Ns, Nc);
     }

   }


   template <int Ns, int Nc, typename dstFloat, typename srcFloat>
     void copyGenericColorSpinor(ColorSpinorField &dst, const ColorSpinorField &src,
         QudaFieldLocation location, dstFloat *Dst, srcFloat *Src,
         float *dstNorm, float *srcNorm) {

     if (dst.Ndim() != src.Ndim())
       errorQuda("Number of dimensions %d %d don't match", dst.Ndim(), src.Ndim());

     if (dst.Volume() != src.Volume())
       errorQuda("Volumes %d %d don't match", dst.Volume(), src.Volume());

     if (!( dst.SiteOrder() == src.SiteOrder() ||
      (dst.SiteOrder() == QUDA_EVEN_ODD_SITE_ORDER &&
       src.SiteOrder() == QUDA_ODD_EVEN_SITE_ORDER) ||
      (dst.SiteOrder() == QUDA_ODD_EVEN_SITE_ORDER &&
       src.SiteOrder() == QUDA_EVEN_ODD_SITE_ORDER) ) ) {
       errorQuda("Subset orders %d %d don't match", dst.SiteOrder(), src.SiteOrder());
     }

     if (dst.SiteSubset() != src.SiteSubset())
       errorQuda("Subset types do not match %d %d", dst.SiteSubset(), src.SiteSubset());

     // We currently only support parity-ordered fields; even-odd or odd-even
     if (dst.SiteOrder() == QUDA_LEXICOGRAPHIC_SITE_ORDER) {
       errorQuda("Copying to full fields with lexicographical ordering is not currently supported");
     }

     if (dst.SiteSubset() == QUDA_FULL_SITE_SUBSET && (src.FieldOrder() == QUDA_QDPJIT_FIELD_ORDER || dst.FieldOrder() == QUDA_QDPJIT_FIELD_ORDER)) {
       errorQuda("QDPJIT field ordering not supported for full site fields");
     }

     genericCopyColorSpinor<dstFloat, srcFloat, Ns, Nc>(dst, src, location, Dst, Src, dstNorm, srcNorm);

   }

   template <int Nc, typename dstFloat, typename srcFloat>
   void CopyGenericColorSpinor(ColorSpinorField &dst, const ColorSpinorField &src,
             QudaFieldLocation location, dstFloat *Dst, srcFloat *Src,
             float *dstNorm=0, float *srcNorm=0) {

     if (dst.Nspin() != src.Nspin())
       errorQuda("source and destination spins must match");

     if (dst.Nspin() == 4) {
 #if defined(GPU_WILSON_DIRAC) || defined(GPU_DOMAIN_WALL_DIRAC) || defined(GPU_COVDEV) || defined(GPU_CONTRACT)
       copyGenericColorSpinor<4,Nc>(dst, src, location, Dst, Src, dstNorm, srcNorm);
 #else
       errorQuda("%s has not been built for Nspin=%d fields", __func__, src.Nspin());
 #endif
     } else if (dst.Nspin() == 2) {
 #if defined(GPU_WILSON_DIRAC) || defined(GPU_DOMAIN_WALL_DIRAC) || defined(GPU_STAGGERED_DIRAC)
       copyGenericColorSpinor<2,Nc>(dst, src, location, Dst, Src, dstNorm, srcNorm);
 #else
       errorQuda("%s has not been built for Nspin=%d fields", __func__, src.Nspin());
 #endif
     } else if (dst.Nspin() == 1) {
 #ifdef GPU_STAGGERED_DIRAC
       copyGenericColorSpinor<1,Nc>(dst, src, location, Dst, Src, dstNorm, srcNorm);
 #else
       errorQuda("%s has not been built for Nspin=%d fields", __func__, src.Nspin());
 #endif
     } else {
       errorQuda("Nspin=%d unsupported", dst.Nspin());
     }

   }

 } // namespace quda
quda::CopyColorSpinor::minThreads
unsigned int minThreads() const
Definition: copy_color_spinor.cuh:172

quda::CopyColorSpinor::meta
const ColorSpinorField & meta
Definition: copy_color_spinor.cuh:164

quda::ColorSpinorField::Nspin
int Nspin() const
Definition: color_spinor_field.h:406

quda::TuneParam
Definition: tune_quda.h:17

quda::CopyColorSpinor< 4, Arg >::sharedBytesPerThread
unsigned int sharedBytesPerThread() const
Definition: copy_color_spinor.cuh:206

quda::CopyGenericColorSpinor
void CopyGenericColorSpinor(ColorSpinorField &dst, const ColorSpinorField &src, QudaFieldLocation location, dstFloat *Dst, srcFloat *Src, float *dstNorm=0, float *srcNorm=0)
Definition: copy_color_spinor.cuh:409

quda::CopyColorSpinorArg::nParity
const int nParity
Definition: copy_color_spinor.cuh:39

quda::CopyColorSpinorArg::realIn
typename mapper< FloatIn >::type realIn
Definition: copy_color_spinor.cuh:33

quda::CopyColorSpinorArg::CopyColorSpinorArg
CopyColorSpinorArg(const Out &out, const In &in, const ColorSpinorField &out_, const ColorSpinorField &in_)
Definition: copy_color_spinor.cuh:42

QUDA_LEXICOGRAPHIC_SITE_ORDER
Definition: enum_quda.h:339

quda::ColorSpinorField
Definition: color_spinor_field.h:311

quda::colorspinor::SpaceSpinorColorOrder
Definition: color_spinor_field_order.h:1246

kP
#define kP
Definition: copy_color_spinor.cuh:19

getVerbosity
QudaVerbosity getVerbosity()
Definition: util_quda.cpp:21

quda::CopyColorSpinor< 4, Arg >::tuneGridDim
bool tuneGridDim() const
Definition: copy_color_spinor.cuh:209

quda::CopyColorSpinor::tuneGridDim
bool tuneGridDim() const
Definition: copy_color_spinor.cuh:171

errorQuda
#define errorQuda(...)
Definition: util_quda.h:121

color_spinor_field.h

quda::ColorSpinorField::VolumeCB
int VolumeCB() const
Definition: color_spinor_field.h:416

quda::ColorSpinor::data
complex< Float > data[size]
Definition: color_spinor.h:27

quda::ColorSpinor
Definition: color_spinor.h:24

QUDA_SPACE_SPIN_COLOR_FIELD_ORDER
Definition: enum_quda.h:350

quda::CopyColorSpinor< 4, Arg >::out
const ColorSpinorField & out
Definition: copy_color_spinor.cuh:201

quda::colorspinor::PaddedSpaceSpinorColorOrder
Definition: color_spinor_field_order.h:1365

quda::CopyColorSpinorArg::realOut
typename mapper< FloatOut >::type realOut
Definition: copy_color_spinor.cuh:32

quda::NonRelBasis::operator()
__device__ __host__ void operator()(complex< FloatOut > out[Ns *Nc], const complex< FloatIn > in[Ns *Nc]) const
Definition: copy_color_spinor.cuh:65

quda::genericCopyColorSpinor
void genericCopyColorSpinor(Out &outOrder, const In &inOrder, const ColorSpinorField &out, const ColorSpinorField &in, QudaFieldLocation location)
Definition: copy_color_spinor.cuh:270

quda::NonRelToChiralBasis::operator()
__device__ __host__ void operator()(complex< FloatOut > out[Ns *Nc], const complex< FloatIn > in[Ns *Nc]) const
Definition: copy_color_spinor.cuh:122

quda::stream
cudaStream_t * stream
Definition: cuda_color_spinor_field.cpp:897

QUDA_FULL_SITE_SUBSET
Definition: enum_quda.h:333

quda::ColorSpinorField::GammaBasis
QudaGammaBasis GammaBasis() const
Definition: color_spinor_field.h:484

quda::CopyColorSpinorArg::volumeCB
const int volumeCB
Definition: copy_color_spinor.cuh:38

quda::colorspinor::SpaceColorSpinorOrder
Definition: color_spinor_field_order.h:1128

quda::LatticeField::VolString
const char * VolString() const
Definition: lattice_field.h:624

quda::copy
__host__ __device__ void copy(T1 &a, const T2 &b)
Definition: register_traits.h:152

quda::TuneParam::shared_bytes
int shared_bytes
Definition: tune_quda.h:22

quda::copyGenericColorSpinor
void copyGenericColorSpinor(ColorSpinorField &dst, const ColorSpinorField &src, QudaFieldLocation location, void *Dst=0, void *Src=0, void *dstNorm=0, void *srcNorm=0)
Definition: copy_color_spinor.cu:40

quda::CopyColorSpinor< 4, Arg >::flops
long long flops() const
Definition: copy_color_spinor.cuh:263

quda::CopyColorSpinor< 4, Arg >::location
const QudaFieldLocation location
Definition: copy_color_spinor.cuh:203

quda::CopyColorSpinor< 4, Arg >::minThreads
unsigned int minThreads() const
Definition: copy_color_spinor.cuh:210

quda::ColorSpinorField::Ndim
int Ndim() const
Definition: color_spinor_field.h:409

quda::ColorSpinorField::Volume
int Volume() const
Definition: color_spinor_field.h:415

quda::TuneParam::grid
dim3 grid
Definition: tune_quda.h:21

quda::CopyColorSpinorArg::outParity
const int outParity
Definition: copy_color_spinor.cuh:40

QUDA_UKQCD_GAMMA_BASIS
Definition: enum_quda.h:368

quda::colorspinor::QDPJITDiracOrder
Definition: color_spinor_field_order.h:1512

quda
Definition: blas_cublas.h:5

param
QudaGaugeParam param
Definition: pack_test.cpp:17

QUDA_CHIRAL_GAMMA_BASIS
Definition: enum_quda.h:369

QUDA_PADDED_SPACE_SPIN_COLOR_FIELD_ORDER
Definition: enum_quda.h:354

QUDA_EVEN_ODD_SITE_ORDER
Definition: enum_quda.h:340

quda::CopyColorSpinor< 4, Arg >::advanceSharedBytes
bool advanceSharedBytes(TuneParam &param) const
Definition: copy_color_spinor.cuh:208

quda::CopyColorSpinor< 4, Arg >::~CopyColorSpinor
virtual ~CopyColorSpinor()
Definition: copy_color_spinor.cuh:231

quda::CopyColorSpinor::bytes
long long bytes() const
Definition: copy_color_spinor.cuh:194

nColor
const int nColor
Definition: covdev_test.cpp:75

quda::RelBasis
Definition: copy_color_spinor.cuh:80

quda::copyColorSpinorKernel
__global__ void copyColorSpinorKernel(Arg arg, Basis basis)
Definition: copy_color_spinor.cuh:149

quda::CopyColorSpinor::sharedBytesPerThread
unsigned int sharedBytesPerThread() const
Definition: copy_color_spinor.cuh:168

quda::TuneParam::block
dim3 block
Definition: tune_quda.h:20

quda::CopyColorSpinor< 4, Arg >::CopyColorSpinor
CopyColorSpinor(Arg &arg, const ColorSpinorField &out, const ColorSpinorField &in, QudaFieldLocation location)
Definition: copy_color_spinor.cuh:213

quda::TunableVectorY
Definition: tune_quda.h:426

quda::CopyColorSpinor::tuneKey
TuneKey tuneKey() const
Definition: copy_color_spinor.cuh:192

in
cpuColorSpinorField * in
Definition: staggered_invert_test.cpp:98

quda::PreserveBasis::operator()
__device__ __host__ void operator()(complex< FloatOut > out[Ns *Nc], const complex< FloatIn > in[Ns *Nc]) const
Definition: copy_color_spinor.cuh:54

quda::CopyColorSpinor::location
const QudaFieldLocation location
Definition: copy_color_spinor.cuh:165

QUDA_QDPJIT_FIELD_ORDER
Definition: enum_quda.h:352

quda::ColorSpinorField::SiteSubset
QudaSiteSubset SiteSubset() const
Definition: color_spinor_field.h:481

quda::CopyColorSpinor::arg
Arg & arg
Definition: copy_color_spinor.cuh:163

quda::tuneLaunch
TuneParam & tuneLaunch(Tunable &tunable, QudaTune enabled, QudaVerbosity verbosity)
Definition: tune.cpp:643

QUDA_FLOAT2_FIELD_ORDER
Definition: enum_quda.h:348

quda::CopyColorSpinor< 4, Arg >::apply
void apply(const cudaStream_t &stream)
Definition: copy_color_spinor.cuh:233

quda::CopyColorSpinorArg::in
const In in
Definition: copy_color_spinor.cuh:37

quda::NonRelToChiralBasis
Definition: copy_color_spinor.cuh:118

quda::RelBasis::operator()
__device__ __host__ void operator()(complex< FloatOut > out[Ns *Nc], const complex< FloatIn > in[Ns *Nc]) const
Definition: copy_color_spinor.cuh:84

quda::copyColorSpinor
void copyColorSpinor(Arg &arg, const Basis &basis)
Definition: copy_color_spinor.cuh:136

tune_quda.h

quda::Arg
Definition: spinor_noise.cu:22

quda::ColorSpinorField::isNative
bool isNative() const
Definition: color_spinor_field.cpp:568

QUDA_SPACE_COLOR_SPIN_FIELD_ORDER
Definition: enum_quda.h:351

quda::CopyColorSpinor< 4, Arg >::arg
Arg & arg
Definition: copy_color_spinor.cuh:200

QudaFieldLocation
enum QudaFieldLocation_s QudaFieldLocation

quda::CopyColorSpinor
Definition: copy_color_spinor.cuh:162

quda::ChiralToNonRelBasis
Definition: copy_color_spinor.cuh:99

out
cpuColorSpinorField * out
Definition: staggered_invert_test.cpp:99

quda::Arg::nParity
const int nParity
Definition: spinor_noise.cu:25

quda::PreserveBasis
Definition: copy_color_spinor.cuh:50

quda::CopyColorSpinorArg
Definition: copy_color_spinor.cuh:31

quda::mapper
Definition: register_traits.h:43

color_spinor_field_order.h

quda::s
__shared__ float s[]

QUDA_ODD_EVEN_SITE_ORDER
Definition: enum_quda.h:341

QUDA_DEGRAND_ROSSI_GAMMA_BASIS
Definition: enum_quda.h:367

quda::colorspinor_mapper
Definition: color_spinor_field_order.h:1602

quda::ColorSpinorField::SiteOrder
QudaSiteOrder SiteOrder() const
Definition: color_spinor_field.h:482

quda::arg
__host__ __device__ ValueType arg(const complex< ValueType > &z)
Returns the phase angle of z.
Definition: complex_quda.h:1076

quda::CopyColorSpinor::advanceSharedBytes
bool advanceSharedBytes(TuneParam &param) const
Definition: copy_color_spinor.cuh:170

quda::Arg::volumeCB
const int volumeCB
Definition: spinor_noise.cu:26

quda::NonRelBasis
Definition: copy_color_spinor.cuh:61

quda::ChiralToNonRelBasis::operator()
__device__ __host__ void operator()(complex< FloatOut > out[Ns *Nc], const complex< FloatIn > in[Ns *Nc]) const
Definition: copy_color_spinor.cuh:103

quda::CopyColorSpinor::flops
long long flops() const
Definition: copy_color_spinor.cuh:193

quda::CopyColorSpinor::~CopyColorSpinor
virtual ~CopyColorSpinor()
Definition: copy_color_spinor.cuh:181

quda::CopyColorSpinorArg::out
Out out
Definition: copy_color_spinor.cuh:36

quda::CopyColorSpinorArg::inParity
const int inParity
Definition: copy_color_spinor.cuh:41

quda::CopyColorSpinor< 4, Arg >::bytes
long long bytes() const
Definition: copy_color_spinor.cuh:264

quda::colorspinor::FloatNOrder
Accessor routine for ColorSpinorFields in native field order.
Definition: color_spinor_field_order.h:798

quda::CopyColorSpinor< 4, Arg >::tuneKey
TuneKey tuneKey() const
Definition: copy_color_spinor.cuh:262

getTuning
QudaTune getTuning()
Query whether autotuning is enabled or not. Default is enabled but can be overridden by setting QUDA_...
Definition: util_quda.cpp:52

kU
#define kU
Definition: copy_color_spinor.cuh:20

quda::CopyColorSpinor::apply
void apply(const cudaStream_t &stream)
Definition: copy_color_spinor.cuh:183

parity
QudaParity parity
Definition: covdev_test.cpp:54

QUDA_CPU_FIELD_LOCATION
Definition: enum_quda.h:325

quda::ColorSpinorField::FieldOrder
QudaFieldOrder FieldOrder() const
Definition: color_spinor_field.h:483

quda::TuneKey
Definition: tune_key.h:8

quda::CopyColorSpinor< 4, Arg >::sharedBytesPerBlock
unsigned int sharedBytesPerBlock(const TuneParam &param) const
Definition: copy_color_spinor.cuh:207

quda::CopyColorSpinor::CopyColorSpinor
CopyColorSpinor(Arg &arg, const ColorSpinorField &out, const ColorSpinorField &in, QudaFieldLocation location)
Definition: copy_color_spinor.cuh:175

quda::CopyColorSpinor< 4, Arg >::in
const ColorSpinorField & in
Definition: copy_color_spinor.cuh:202

quda::CopyColorSpinor::sharedBytesPerBlock
unsigned int sharedBytesPerBlock(const TuneParam &param) const
Definition: copy_color_spinor.cuh:169