quda-ref/v0.7.0/extended__color__spinor__utilities_8cu_source.html

 #include <cstdlib>

 #include <cstdio>

 #include <string>


 #include <color_spinor_field.h>

 #include <color_spinor_field_order.h>

 #include <face_quda.h>

 #include <tune_quda.h>


 #define PRESERVE_SPINOR_NORM


 #ifdef PRESERVE_SPINOR_NORM // Preserve the norm regardless of basis

 #define kP (1.0/sqrt(2.0))

 #define kU (1.0/sqrt(2.0))

 #else // More numerically accurate not to preserve the norm between basis

 #define kP (0.5)

 #define kU (1.0)

 #endif


 namespace quda {


   void exchangeExtendedGhost(cudaColorSpinorField* spinor, int R[], int parity, cudaStream_t *stream_p)

   {

 #ifdef MULTI_GPU

     int nFace = 0;

     for(int i=0; i<4; i++){

       if(R[i] > nFace) nFace = R[i];

     }


     int dagger = 0;


     int gatherCompleted[2] = {0,0};

     int commsCompleted[2] = {0,0};


     cudaEvent_t gatherEnd[2];

     for(int dir=0; dir<2; dir++) cudaEventCreate(&gatherEnd[dir], cudaEventDisableTiming);


     for(int dim=3; dim<=0; dim--){

       if(!commDim(dim)) continue;


       spinor->packExtended(nFace, R, parity, dagger, dim, stream_p); // packing in the dim dimension complete

       cudaDeviceSynchronize(); // Need this since packing is performed in stream[Nstream-1]

       for(int dir=1; dir<=0; dir--){

         spinor->gather(nFace, dagger, 2*dim + dir);

         cudaEventRecord(gatherEnd[dir], streams[2*dim+dir]); // gatherEnd[1], gatherEnd[0]

       }


       int completeSum = 0;

       int dir = 1;

       while(completeSum < 2){

         if(!gatherCompleted[dir]){

           if(cudaSuccess == cudaEventQuery(gatherEnd[dir])){

             spinor->commsStart(nFace, 2*dim+dir, dagger);

             completeSum++;

             gatherCompleted[dir--] = 1;

           }

         }

       }

       gatherCompleted[0] = gatherCompleted[1] = 0;


       // Query if comms has completed

       dir = 1;

       while(completeSum < 4){

         if(!commsCompleted[dir]){

           if(spinor->commsQuery(nFace, 2*dim+dir, dagger)){

             spinor->scatterExtended(nFace, parity, dagger, 2*dim+dir);

             completeSum++;

             commsCompleted[dir--] = 1;

           }

         }

       }

       commsCompleted[0] = commsCompleted[1] = 0;

       cudaDeviceSynchronize(); // Wait for scatters to complete before next iteration

     } // loop over dim


     for(int dir=0; dir<2; dir++) cudaEventDestroy(gatherEnd[dir]);

 #endif

     return;

   }


   template <typename FloatOut, typename FloatIn, int Ns, int Nc>

     class PreserveBasis {

       typedef typename mapper<FloatIn>::type RegTypeIn;

       typedef typename mapper<FloatOut>::type RegTypeOut;

       public:

       __device__ __host__ inline void operator()(RegTypeOut out[Ns*Nc*2], const RegTypeIn in[Ns*Nc*2]) {

         for (int s=0; s<Ns; s++) {

           for (int c=0; c<Nc; c++) {

             for (int z=0; z<2; z++) {

               out[(s*Nc+c)*2+z] = in[(s*Nc+c)*2+z];

             }

           }

         }

       }

     };


   template <typename FloatOut, typename FloatIn, int Ns, int Nc>

     struct NonRelBasis {

       typedef typename mapper<FloatIn>::type RegTypeIn;

       typedef typename mapper<FloatOut>::type RegTypeOut;

       __device__ __host__ inline void operator()(RegTypeOut out[Ns*Nc*2], const RegTypeIn in[Ns*Nc*2]) {

         int s1[4] = {1, 2, 3, 0};

         int s2[4] = {3, 0, 1, 2};

         RegTypeOut K1[4] = {kP, -kP, -kP, -kP};

         RegTypeOut K2[4] = {kP, -kP, kP, kP};

         for (int s=0; s<Ns; s++) {

           for (int c=0; c<Nc; c++) {

             for (int z=0; z<2; z++) {

               out[(s*Nc+c)*2+z] = K1[s]*in[(s1[s]*Nc+c)*2+z] + K2[s]*in[(s2[s]*Nc+c)*2+z];

             }

           }

         }

       }

     };


   template <typename FloatOut, typename FloatIn, int Ns, int Nc>

     struct RelBasis {

       typedef typename mapper<FloatIn>::type RegTypeIn;

       typedef typename mapper<FloatOut>::type RegTypeOut;

       __device__ __host__ inline void operator()(RegTypeOut out[Ns*Nc*2], const RegTypeIn in[Ns*Nc*2]) {

         int s1[4] = {1, 2, 3, 0};

         int s2[4] = {3, 0, 1, 2};

         RegTypeOut K1[4] = {-kU, kU,  kU,  kU};

         RegTypeOut K2[4] = {-kU, kU, -kU, -kU};

         for (int s=0; s<Ns; s++) {

           for (int c=0; c<Nc; c++) {

             for (int z=0; z<2; z++) {

               out[(s*Nc+c)*2+z] = K1[s]*in[(s1[s]*Nc+c)*2+z] + K2[s]*in[(s2[s]*Nc+c)*2+z];

             }

           }

         }

       }

     };


   template<typename OutOrder, typename InOrder, typename Basis>

     struct CopySpinorExArg{

       OutOrder out;

       const InOrder in;

       Basis basis;

       int E[QUDA_MAX_DIM];

       int X[QUDA_MAX_DIM];

       int length;

       int parity;


       CopySpinorExArg(const OutOrder &out, const InOrder &in, const Basis& basis, const int *E, const int *X, const int parity)

         : out(out), in(in), basis(basis), parity(parity)

       {

         this->length = 1;

         for(int d=0; d<4; d++){

           this->E[d] = E[d];

           this->X[d] = X[d];

           this->length *= X[d]; // smaller volume

         }

       }

     };


   template<typename FloatOut, typename FloatIn, int Ns, int Nc, typename OutOrder, typename InOrder, typename Basis, bool extend>

     __device__ __host__ void copyInterior(CopySpinorExArg<OutOrder,InOrder,Basis>& arg, int X)

     {

       int x[4];

       int R[4];

       for(int d=0; d<4; d++) R[d] = (arg.E[d] - arg.X[d]) >> 1;


       int za = X/(arg.X[0]/2);

       int x0h = X - za*(arg.X[0]/2);

       int zb = za/arg.X[1];

       x[1] = za - zb*arg.X[1];

       x[3] = zb / arg.X[2];

       x[2] = zb - x[3]*arg.X[2];

       x[0] = 2*x0h + ((x[1] + x[2] + x[3] + arg.parity) & 1);


       // Y is the cb spatial index into the extended gauge field

       int Y = ((((x[3]+R[3])*arg.E[2] + (x[2]+R[2]))*arg.E[1] + (x[1]+R[1]))*arg.E[0]+(x[0]+R[0])) >> 1;


       typedef typename mapper<FloatIn>::type RegTypeIn;

       typedef typename mapper<FloatOut>::type RegTypeOut;


       RegTypeIn   in[Ns*Nc*2];

       RegTypeOut  out[Ns*Nc*2];


       if(extend){

         arg.in.load(in, X);

         arg.basis(out, in);

         arg.out.save(out, Y);

       }else{

         arg.in.load(in, Y);

         arg.basis(out,in);

         arg.out.save(out, Y);

       }

     }


   template<typename FloatOut, typename FloatIn, int Ns, int Nc, typename OutOrder, typename InOrder, typename Basis, bool extend>

     __global__ void copyInteriorKernel(CopySpinorExArg<OutOrder,InOrder,Basis> arg)

     {

       int cb_idx = blockIdx.x*blockDim.x + threadIdx.x;


       while(cb_idx < arg.length){

         copyInterior<FloatOut,FloatIn,Ns,Nc,OutOrder,InOrder,Basis,extend>(arg,cb_idx);

         cb_idx += gridDim.x*blockDim.x;

       }

     }


   /*

      Host function

    */

   template<typename FloatOut, typename FloatIn, int Ns, int Nc, typename OutOrder, typename InOrder, typename Basis, bool extend>

     void copyInterior(CopySpinorExArg<OutOrder,InOrder,Basis>& arg)

     {

       for(int cb_idx=0; cb_idx<arg.length; cb_idx++){

         copyInterior<FloatOut,FloatIn,Ns,Nc,OutOrder,InOrder,Basis,extend>(arg, cb_idx);

       }

     }


   template<typename FloatOut, typename FloatIn, int Ns, int Nc, typename OutOrder, typename InOrder, typename Basis, bool extend>

     class CopySpinorEx : Tunable {


       CopySpinorExArg<OutOrder,InOrder,Basis> arg;

       const ColorSpinorField &meta;

       QudaFieldLocation location;


       private:

       unsigned int sharedBytesPerThread() const { return 0; }

       unsigned int sharedBytesPerBlock(const TuneParam &param) const { return 0; }

       bool advanceSharedBytes(TuneParam &param) const { return false; } // Don't tune shared mem

       bool tuneGridDim() const { return false; } // Don't tune the grid dimensions.

       unsigned int minThreads() const { return arg.length; }


       public:

       CopySpinorEx(CopySpinorExArg<OutOrder,InOrder,Basis> &arg, const ColorSpinorField &meta, QudaFieldLocation location)

         : arg(arg), meta(meta), location(location) {

         writeAuxString("out_stride=%d,in_stride=%d",arg.out.stride,arg.in.stride);

       }

       virtual ~CopySpinorEx() {}


       void apply(const cudaStream_t &stream){

         TuneParam tp = tuneLaunch(*this, getTuning(), getVerbosity());


         if(location == QUDA_CPU_FIELD_LOCATION){

           copyInterior<FloatOut,FloatIn,Ns,Nc,OutOrder,InOrder,Basis,extend>(arg);

         }else if(location == QUDA_CUDA_FIELD_LOCATION){

           copyInteriorKernel<FloatOut,FloatIn,Ns,Nc,OutOrder,InOrder,Basis,extend>

             <<<tp.grid,tp.block,tp.shared_bytes,stream>>>(arg);

         }

       }


       TuneKey tuneKey() const { return TuneKey(meta.VolString(), typeid(*this).name(), aux); }


       std::string paramString(const TuneParam &param) const { // Don't bother printing the grid dim

         std::stringstream ps;

         ps << "block=(" << param.block.x << "," << param.block.y << "," << param.block.z << ")";

         ps << "shared=" << param.shared_bytes;

         return ps.str();

       }


       long long flops() const { return 0; }

       long long bytes() const {

         return arg.length*2*Nc*Ns*(sizeof(FloatIn) + sizeof(FloatOut));

       }


     }; // CopySpinorEx


   template<typename FloatOut, typename FloatIn, int Ns, int Nc, typename OutOrder, typename InOrder, typename Basis>

     void copySpinorEx(OutOrder outOrder, const InOrder inOrder, const Basis basis, const int *E,

                       const int *X, const int parity, const bool extend, const ColorSpinorField &meta, QudaFieldLocation location)

     {

       CopySpinorExArg<OutOrder,InOrder,Basis> arg(outOrder, inOrder, basis, E, X, parity);

       if(extend){

         CopySpinorEx<FloatOut, FloatIn, Ns, Nc, OutOrder, InOrder, Basis, true> copier(arg, meta, location);

         copier.apply(0);

       }else{

         CopySpinorEx<FloatOut, FloatIn, Ns, Nc, OutOrder, InOrder, Basis, false> copier(arg, meta, location);

         copier.apply(0);

       }

       if(location == QUDA_CUDA_FIELD_LOCATION) checkCudaError();

     }


   template<typename FloatOut, typename FloatIn, int Ns, int Nc, typename OutOrder, typename InOrder>

     void copySpinorEx(OutOrder outOrder, InOrder inOrder, const QudaGammaBasis outBasis, const QudaGammaBasis inBasis,

                       const int* E, const int* X, const int parity, const bool extend,

                       const ColorSpinorField &meta, QudaFieldLocation location)

     {

       if(inBasis == outBasis){

         PreserveBasis<FloatOut,FloatIn,Ns,Nc> basis;

         copySpinorEx<FloatOut, FloatIn, Ns, Nc, OutOrder, InOrder, PreserveBasis<FloatOut,FloatIn,Ns,Nc> >

           (outOrder, inOrder, basis, E, X, parity, extend, meta, location);

       }else if(outBasis == QUDA_UKQCD_GAMMA_BASIS && inBasis == QUDA_DEGRAND_ROSSI_GAMMA_BASIS){

         if(Ns != 4) errorQuda("Can only change basis with Nspin = 4, not Nspin = %d", Ns);

         NonRelBasis<FloatOut,FloatIn,Ns,Nc> basis;

         copySpinorEx<FloatOut, FloatIn, Ns, Nc, OutOrder, InOrder, NonRelBasis<FloatOut,FloatIn,Ns,Nc> >

           (outOrder, inOrder, basis, E, X, parity, extend, meta, location);

       }else if(inBasis == QUDA_UKQCD_GAMMA_BASIS && outBasis == QUDA_DEGRAND_ROSSI_GAMMA_BASIS){

         if(Ns != 4) errorQuda("Can only change basis with Nspin = 4, not Nspin = %d", Ns);

         RelBasis<FloatOut,FloatIn,Ns,Nc> basis;

         copySpinorEx<FloatOut, FloatIn, Ns, Nc, OutOrder, InOrder, RelBasis<FloatOut,FloatIn,Ns,Nc> >

           (outOrder, inOrder, basis, E, X, parity, extend, meta, location);

       }else{

         errorQuda("Basis change not supported");

       }

     }


   // Need to rewrite the following two functions...

   // Decide on the output order

   template<typename FloatOut, typename FloatIn, int Ns, int Nc, typename InOrder>

     void extendedCopyColorSpinor(InOrder &inOrder, ColorSpinorField &out,

         QudaGammaBasis inBasis, const int *E, const int *X,  const int parity, const bool extend,

         QudaFieldLocation location, FloatOut *Out, float *outNorm){


       if(out.FieldOrder() == QUDA_FLOAT4_FIELD_ORDER){

         FloatNOrder<FloatOut, Ns, Nc, 4> outOrder(out, Out, outNorm);

         copySpinorEx<FloatOut,FloatIn,Ns,Nc>

           (outOrder, inOrder, out.GammaBasis(), inBasis, E, X, parity, extend, out, location);

       }else if(out.FieldOrder() == QUDA_FLOAT2_FIELD_ORDER){

         FloatNOrder<FloatOut, Ns, Nc, 2> outOrder(out, Out, outNorm);

         copySpinorEx<FloatOut,FloatIn,Ns,Nc>

           (outOrder, inOrder, out.GammaBasis(), inBasis, E, X, parity, extend, out, location);

 #if 0

       }else if(out.FieldOrder() == QUDA_SPACE_SPIN_COLOR_FIELD_ORDER){

         SpaceSpinorColorOrder<FloatOut, Ns, Nc> outOrder(out, Out);

         copySpinorEx<FloatOut,FloatIn,Ns,Nc>

           (outOrder, inOrder, out.GammaBasis(), inBasis, E, X, parity, extend, out, location);

       }else if(out.FieldOrder() == QUDA_SPACE_COLOR_SPIN_FIELD_ORDER){

         SpaceColorSpinorOrder<FloatOut, Ns, Nc> outOrder(out, Out);

         copySpinorEx<FloatOut,FloatIn,Ns,Nc>

           (outOrder, inOrder, out.GammaBasis(), inBasis, E, X, parity, extend, out, location);

       } else if (out.FieldOrder() == QUDA_QDPJIT_FIELD_ORDER){

 #ifdef BUILD_QDPJIT_INTERFACE

         QDPJITDiracOrder<FloatOut, Ns, Nc> outOrder(out, Out);

         copySpinorEx<FloatOut,FloatIn,Ns,Nc>

           (outOrder, inOrder, out.GammaBasis(), inBasis, E, X, parity, extend, out, location);

 #else

         errorQuda("QDPJIT interface has not been built\n");

 #endif

 #endif

       }else{

         errorQuda("Order not defined");

       }

     }


   template<typename FloatOut, typename FloatIn, int Ns, int Nc>

     void extendedCopyColorSpinor(ColorSpinorField &out, const ColorSpinorField &in,

         const int parity, const QudaFieldLocation location, FloatOut *Out, FloatIn *In,

         float* outNorm, float *inNorm){


       int E[4];

       int X[4];

       const bool extend = (out.Volume() >= in.Volume());

       if(extend){

         for(int d=0; d<4; d++){

           E[d] = out.X()[d];

           X[d] = in.X()[d];

         }

       }else{

         for(int d=0; d<4; d++){

           E[d] = in.X()[d];

           X[d] = out.X()[d];

         }

       }

       X[0] *= 2; E[0] *= 2; // Since we consider only a single parity at a time


       if(in.FieldOrder() == QUDA_FLOAT4_FIELD_ORDER){

         FloatNOrder<FloatIn,Ns,Nc,4> inOrder(in, In, inNorm);

         extendedCopyColorSpinor<FloatOut,FloatIn,Ns,Nc>(inOrder, out, in.GammaBasis(), E, X, parity, extend, location, Out, outNorm);

       }else if(in.FieldOrder() == QUDA_FLOAT2_FIELD_ORDER){

         FloatNOrder<FloatIn,Ns,Nc,2> inOrder(in, In, inNorm);

         extendedCopyColorSpinor<FloatOut,FloatIn,Ns,Nc>(inOrder, out, in.GammaBasis(), E, X, parity, extend, location, Out, outNorm);

 #if 0

       }else if(in.FieldOrder() == QUDA_SPACE_SPIN_COLOR_FIELD_ORDER){

         SpaceSpinorColorOrder<FloatIn,Ns,Nc> inOrder(in, In);

         extendedCopyColorSpinor<FloatOut,FloatIn,Ns,Nc>(inOrder, out, in.GammaBasis(), E, X, parity, extend, location, Out, outNorm);

       }else if(in.FieldOrder() == QUDA_SPACE_COLOR_SPIN_FIELD_ORDER){

         SpaceColorSpinorOrder<FloatIn,Ns,Nc> inOrder(in, In);

         extendedCopyColorSpinor<FloatOut,FloatIn,Ns,Nc>(inOrder, out, in.GammaBasis(), E, X, parity, extend, location, Out, outNorm);

       }else if (in.FieldOrder() == QUDA_QDPJIT_FIELD_ORDER){

 #ifdef BUILD_QDPJIT_INTERFACE

         QDPJITDiracOrder<FloatIn,Ns,Nc> inOrder(in, In);

         extendedCopyColorSpinor<FloatOut,FloatIn,Ns,Nc>(inOrder, out, in.GammaBasis(), E, X, parity, extend,location, Out, outNorm);

 #else

         errorQuda("QDPJIT interface has not been built\n");

 #endif

 #endif

       }else{

         errorQuda("Order not defined");

       }

     }


   template<int Ns, typename dstFloat, typename srcFloat>

     void copyExtendedColorSpinor(ColorSpinorField &dst, const ColorSpinorField &src,

         const int parity, const QudaFieldLocation location, dstFloat *Dst, srcFloat *Src,

         float *dstNorm, float *srcNorm) {


       if(dst.Ndim() != src.Ndim())

         errorQuda("Number of dimensions %d %d don't match", dst.Ndim(), src.Ndim());


       if(!(dst.SiteOrder() == src.SiteOrder() ||

             (dst.SiteOrder() == QUDA_EVEN_ODD_SITE_ORDER &&

              src.SiteOrder() == QUDA_ODD_EVEN_SITE_ORDER) ||

             (dst.SiteOrder() == QUDA_ODD_EVEN_SITE_ORDER &&

              src.SiteOrder() == QUDA_EVEN_ODD_SITE_ORDER) ) ){


         errorQuda("Subset orders %d %d don't match", dst.SiteOrder(), src.SiteOrder());

       }


       if(dst.SiteSubset() != src.SiteSubset())

         errorQuda("Subset types do not match %d %d", dst.SiteSubset(), src.SiteSubset());


       if(dst.Ncolor() != 3 || src.Ncolor() != 3) errorQuda("Nc != 3 not yet supported");


       const int Nc = 3;


       // We currently only support parity-ordered fields; even-odd or odd-even

       if(dst.SiteOrder() == QUDA_LEXICOGRAPHIC_SITE_ORDER){

         errorQuda("Copying to full fields with lexicographical ordering is not currently supported");

       }


       if(dst.SiteSubset() == QUDA_FULL_SITE_SUBSET){

         if(src.FieldOrder() == QUDA_QDPJIT_FIELD_ORDER ||

             dst.FieldOrder() == QUDA_QDPJIT_FIELD_ORDER){

           errorQuda("QDPJIT field ordering not supported for full site fields");

         }


         // set for the source subset ordering

         srcFloat *srcEven = Src ? Src : (srcFloat*)src.V();

         srcFloat* srcOdd = (srcFloat*)((char*)srcEven + src.Bytes()/2);

         float *srcNormEven = srcNorm ? srcNorm : (float*)src.Norm();

         float *srcNormOdd = (float*)((char*)srcNormEven + src.NormBytes()/2);

         if(src.SiteOrder() == QUDA_ODD_EVEN_SITE_ORDER){

           std::swap<srcFloat*>(srcEven, srcOdd);

           std::swap<float*>(srcNormEven, srcNormOdd);

         }


         // set for the destination subset ordering

         dstFloat *dstEven = Dst ? Dst : (dstFloat*)dst.V();

         dstFloat *dstOdd = (dstFloat*)((char*)dstEven + dst.Bytes()/2);

         float *dstNormEven = dstNorm ? dstNorm : (float*)dst.Norm();

         float *dstNormOdd = (float*)((char*)dstNormEven + dst.NormBytes()/2);

         if(dst.SiteOrder() == QUDA_ODD_EVEN_SITE_ORDER){

           std::swap<dstFloat*>(dstEven, dstOdd);

           std::swap<float*>(dstNormEven, dstNormOdd);

         }


         // should be able to apply to select either even or odd parity at this point as well.

         extendedCopyColorSpinor<dstFloat, srcFloat, Ns, Nc>

           (dst, src, 0, location, dstEven, srcEven, dstNormEven, srcNormEven);

         extendedCopyColorSpinor<dstFloat, srcFloat, Ns, Nc>

           (dst, src, 1, location, dstOdd, srcOdd, dstNormOdd, srcNormOdd);

       }else{

         extendedCopyColorSpinor<dstFloat, srcFloat, Ns, Nc>

           (dst, src, parity, location, Dst, Src, dstNorm, srcNorm);

       } // N.B. Need to update this to account for differences in parity

     }


   template<typename dstFloat, typename srcFloat>

     void CopyExtendedColorSpinor(ColorSpinorField &dst, const ColorSpinorField &src,

         const int parity, const QudaFieldLocation location, dstFloat *Dst, srcFloat *Src,

         float *dstNorm=0, float *srcNorm=0)

     {

       if(dst.Nspin() != src.Nspin())

         errorQuda("source and destination spins must match");


       if(dst.Nspin() == 4){

 #if defined(GPU_WILSON_DIRAC) || defined(GPU_DOMAIN_WALL_DIRAC)

         copyExtendedColorSpinor<4>(dst, src, parity, location, Dst, Src, dstNorm, srcNorm);

 #else

         errorQuda("Extended copy has not been built for Nspin=%d fields",dst.Nspin());

 #endif

       }else if(dst.Nspin() == 1){

 #ifdef GPU_STAGGERED_DIRAC

         copyExtendedColorSpinor<1>(dst, src, parity, location, Dst, Src, dstNorm, srcNorm);

 #else

         errorQuda("Extended copy has not been built for Nspin=%d fields", dst.Nspin());

 #endif

       }else{

         errorQuda("Nspin=%d unsupported", dst.Nspin());

       }

     }


   // There's probably no need to have the additional Dst and Src arguments here!

   void copyExtendedColorSpinor(ColorSpinorField &dst, const ColorSpinorField &src,

       QudaFieldLocation location, const int parity, void *Dst, void *Src,

       void *dstNorm, void *srcNorm){


     if(dst.Precision() == QUDA_DOUBLE_PRECISION){

       if(src.Precision() == QUDA_DOUBLE_PRECISION){

         CopyExtendedColorSpinor(dst, src, parity, location, static_cast<double*>(Dst), static_cast<double*>(Src));

       }else if(src.Precision() == QUDA_SINGLE_PRECISION){

         CopyExtendedColorSpinor(dst, src, parity, location,  static_cast<double*>(Dst), static_cast<float*>(Src));

       }else if(src.Precision() == QUDA_HALF_PRECISION){

         CopyExtendedColorSpinor(dst, src, parity, location, static_cast<double*>(Dst), static_cast<short*>(Src), 0, static_cast<float*>(srcNorm));

       } else {

         errorQuda("Unsupported Precision %d", src.Precision());

       }

     } else if (dst.Precision() == QUDA_SINGLE_PRECISION){

       if(src.Precision() == QUDA_DOUBLE_PRECISION){

         CopyExtendedColorSpinor(dst, src, parity, location, static_cast<float*>(Dst), static_cast<double*>(Src));

       }else if(src.Precision() == QUDA_SINGLE_PRECISION){

         CopyExtendedColorSpinor(dst, src, parity, location, static_cast<float*>(Dst), static_cast<float*>(Src));

       }else if(src.Precision() == QUDA_HALF_PRECISION){

         CopyExtendedColorSpinor(dst, src, parity, location, static_cast<float*>(Dst), static_cast<short*>(Src), 0, static_cast<float*>(srcNorm));

       }else{

         errorQuda("Unsupported Precision %d", src.Precision());

       }

     } else if (dst.Precision() == QUDA_HALF_PRECISION){

       if(src.Precision() == QUDA_DOUBLE_PRECISION){

         CopyExtendedColorSpinor(dst, src, parity, location, static_cast<short*>(Dst), static_cast<double*>(Src), static_cast<float*>(dstNorm), 0);

       }else if(src.Precision() == QUDA_SINGLE_PRECISION){

         CopyExtendedColorSpinor(dst, src, parity, location, static_cast<short*>(Dst), static_cast<float*>(Src), static_cast<float*>(dstNorm), 0);

       }else if(src.Precision() == QUDA_HALF_PRECISION){

         CopyExtendedColorSpinor(dst, src, parity, location, static_cast<short*>(Dst), static_cast<short*>(Src), static_cast<float*>(dstNorm), static_cast<float*>(srcNorm));

       }else{

         errorQuda("Unsupported Precision %d", src.Precision());

       }

     }else{

       errorQuda("Unsupported Precision %d", dst.Precision());

     }

   }


 } // quda

commDim
int commDim(int)
Definition: face_buffer.cpp:535

quda::CopySpinorEx::CopySpinorEx
CopySpinorEx(CopySpinorExArg< OutOrder, InOrder, Basis > &arg, const ColorSpinorField &meta, QudaFieldLocation location)
Definition: extended_color_spinor_utilities.cu:245

quda::RelBasis::operator()
__device__ __host__ void operator()(RegTypeOut out[Ns *Nc *2], const RegTypeIn in[Ns *Nc *2])
Definition: extended_color_spinor_utilities.cu:128

quda::TuneParam
Definition: tune_quda.h:16

quda::SpaceSpinorColorOrder
Definition: color_spinor_field_order.h:342

quda::CopySpinorExArg::X
int X[QUDA_MAX_DIM]
Definition: extended_color_spinor_utilities.cu:152

kU
#define kU
Definition: extended_color_spinor_utilities.cu:14

quda::CopySpinorExArg::parity
int parity
Definition: extended_color_spinor_utilities.cu:154

quda::RelBasis::RegTypeOut
mapper< FloatOut >::type RegTypeOut
Definition: extended_color_spinor_utilities.cu:127

QUDA_LEXICOGRAPHIC_SITE_ORDER
Definition: enum_quda.h:284

quda::ColorSpinorField
Definition: color_spinor_field.h:141

getVerbosity
QudaVerbosity getVerbosity()
Definition: util_quda.cpp:20

quda::NonRelBasis::RegTypeOut
mapper< FloatOut >::type RegTypeOut
Definition: extended_color_spinor_utilities.cu:106

quda::ColorSpinorField::X
const int * X() const
Definition: color_spinor_field.h:247

quda::cudaColorSpinorField::gather
void gather(int nFace, int dagger, int dir, cudaStream_t *stream_p=NULL)
Definition: cuda_color_spinor_field.cu:1196

za
int za
Definition: staggered_dslash_core.h:354

errorQuda
#define errorQuda(...)
Definition: util_quda.h:73

color_spinor_field.h

x0h
int x0h
Definition: staggered_dslash_core.h:355

QUDA_CUDA_FIELD_LOCATION
Definition: enum_quda.h:271

QUDA_SPACE_SPIN_COLOR_FIELD_ORDER
Definition: enum_quda.h:295

QUDA_HALF_PRECISION
Definition: enum_quda.h:48

quda::RelBasis::RegTypeIn
mapper< FloatIn >::type RegTypeIn
Definition: extended_color_spinor_utilities.cu:126

quda::cudaColorSpinorField::commsQuery
int commsQuery(int nFace, int dir, int dagger=0)
Definition: cuda_color_spinor_field.cu:1291

streams
cudaStream_t * streams
Definition: interface_quda.cpp:139

quda::CopySpinorEx::flops
long long flops() const
Definition: extended_color_spinor_utilities.cu:271

quda::CopyExtendedColorSpinor
void CopyExtendedColorSpinor(ColorSpinorField &dst, const ColorSpinorField &src, const int parity, const QudaFieldLocation location, dstFloat *Dst, srcFloat *Src, float *dstNorm=0, float *srcNorm=0)
Definition: extended_color_spinor_utilities.cu:481

quda::stream
cudaStream_t * stream
Definition: cuda_color_spinor_field.cu:816

testing::internal::string
::std::string string
Definition: gtest.h:1979

QUDA_FULL_SITE_SUBSET
Definition: enum_quda.h:277

quda::copySpinorEx
void copySpinorEx(OutOrder outOrder, const InOrder inOrder, const Basis basis, const int *E, const int *X, const int parity, const bool extend, const ColorSpinorField &meta, QudaFieldLocation location)
Definition: extended_color_spinor_utilities.cu:281

quda::TuneParam::shared_bytes
int shared_bytes
Definition: tune_quda.h:21

quda::cudaColorSpinorField
Definition: color_spinor_field.h:302

quda::CopySpinorEx::paramString
std::string paramString(const TuneParam &param) const
Definition: extended_color_spinor_utilities.cu:264

quda::cudaColorSpinorField::scatterExtended
void scatterExtended(int nFace, int parity, int dagger, int dir)
Definition: cuda_color_spinor_field.cu:1353

spinor
cpuColorSpinorField * spinor
Definition: dslash_test.cpp:40

quda::CopySpinorEx
Definition: extended_color_spinor_utilities.cu:231

zb
int zb
Definition: staggered_dslash_core.h:354

quda::ColorSpinorField::NormBytes
size_t NormBytes() const
Definition: color_spinor_field.h:257

quda::TuneParam::grid
dim3 grid
Definition: tune_quda.h:20

QUDA_UKQCD_GAMMA_BASIS
Definition: enum_quda.h:312

dagger
QudaDagType dagger
Definition: test_util.cpp:1558

quda::CopySpinorExArg::out
OutOrder out
Definition: extended_color_spinor_utilities.cu:148

param
QudaGaugeParam param
Definition: pack_test.cpp:17

E
int E[4]
Definition: hisq_paths_force_core.h:133

quda::Tunable
Definition: tune_quda.h:40

quda::NonRelBasis::operator()
__device__ __host__ void operator()(RegTypeOut out[Ns *Nc *2], const RegTypeIn in[Ns *Nc *2])
Definition: extended_color_spinor_utilities.cu:107

quda::Tunable::writeAuxString
void writeAuxString(const char *format,...)
Definition: tune_quda.h:138

QUDA_EVEN_ODD_SITE_ORDER
Definition: enum_quda.h:285

location
const QudaFieldLocation location
Definition: pack_test.cpp:46

quda::CopySpinorEx::apply
void apply(const cudaStream_t &stream)
Definition: extended_color_spinor_utilities.cu:251

quda::RelBasis
Definition: copy_color_spinor.cu:67

quda::TuneParam::block
dim3 block
Definition: tune_quda.h:19

in
cpuColorSpinorField * in
Definition: staggered_invert_test.cpp:50

QUDA_QDPJIT_FIELD_ORDER
Definition: enum_quda.h:297

face_quda.h

dim
int dim
Definition: tm_ndeg_fused_exterior_dslash_core.h:195

quda::tuneLaunch
TuneParam & tuneLaunch(Tunable &tunable, QudaTune enabled, QudaVerbosity verbosity)
Definition: tune.cpp:271

quda::cudaColorSpinorField::packExtended
void packExtended(const int nFace, const int R[], const int parity, const int dagger, const int dim, cudaStream_t *stream_p, const bool zeroCopyPack=false)
Definition: cuda_color_spinor_field.cu:1176

quda::exchangeExtendedGhost
void exchangeExtendedGhost(cudaColorSpinorField *spinor, int R[], int parity, cudaStream_t *stream_p)
Definition: extended_color_spinor_utilities.cu:24

quda::FloatNOrder
Definition: clover_field_order.h:56

quda::extendedCopyColorSpinor
void extendedCopyColorSpinor(InOrder &inOrder, ColorSpinorField &out, QudaGammaBasis inBasis, const int *E, const int *X, const int parity, const bool extend, QudaFieldLocation location, FloatOut *Out, float *outNorm)
Definition: extended_color_spinor_utilities.cu:323

quda::QDPJITDiracOrder
Definition: color_spinor_field_order.h:388

QUDA_FLOAT2_FIELD_ORDER
Definition: enum_quda.h:293

quda::CopySpinorExArg
Definition: extended_color_spinor_utilities.cu:147

quda::LatticeField::VolString
const char * VolString() const
Definition: lattice_field.h:199

quda::CopySpinorExArg::basis
Basis basis
Definition: extended_color_spinor_utilities.cu:150

quda::CopySpinorEx::bytes
long long bytes() const
Definition: extended_color_spinor_utilities.cu:272

quda::dslash::gatherEnd
cudaEvent_t gatherEnd[Nstream]
Definition: dslash_quda.cu:101

quda::CopySpinorExArg::in
const InOrder in
Definition: extended_color_spinor_utilities.cu:149

quda::ColorSpinorField::Bytes
size_t Bytes() const
Definition: color_spinor_field.h:256

quda::ColorSpinorField::SiteOrder
QudaSiteOrder SiteOrder() const
Definition: color_spinor_field.h:284

x
int x[4]
Definition: hisq_paths_force_core.h:99

tune_quda.h

quda::ColorSpinorField::Norm
void * Norm()
Definition: color_spinor_field.h:264

quda::ColorSpinorField::FieldOrder
QudaFieldOrder FieldOrder() const
Definition: color_spinor_field.h:285

QUDA_SPACE_COLOR_SPIN_FIELD_ORDER
Definition: enum_quda.h:296

X
int X
Definition: asym_wilson_clover_dslash_dagger_fermi_core.h:394

quda::CopySpinorEx::~CopySpinorEx
virtual ~CopySpinorEx()
Definition: extended_color_spinor_utilities.cu:249

Y
int Y[4]
Definition: tm_ndeg_fused_exterior_dslash_core.h:197

quda::CopySpinorEx::tuneKey
TuneKey tuneKey() const
Definition: extended_color_spinor_utilities.cu:262

QUDA_DOUBLE_PRECISION
Definition: enum_quda.h:50

QudaFieldLocation
enum QudaFieldLocation_s QudaFieldLocation

quda::ColorSpinorField::Ndim
int Ndim() const
Definition: color_spinor_field.h:246

out
cpuColorSpinorField * out
Definition: staggered_invert_test.cpp:51

quda::copyExtendedColorSpinor
void copyExtendedColorSpinor(ColorSpinorField &dst, const ColorSpinorField &src, QudaFieldLocation location, const int parity, void *Dst, void *Src, void *dstNorm, void *srcNorm)
Definition: extended_color_spinor_utilities.cu:507

quda::NonRelBasis::RegTypeIn
mapper< FloatIn >::type RegTypeIn
Definition: extended_color_spinor_utilities.cu:105

QUDA_SINGLE_PRECISION
Definition: enum_quda.h:49

QudaGammaBasis
enum QudaGammaBasis_s QudaGammaBasis

quda::mapper
Definition: register_traits.h:16

color_spinor_field_order.h

quda::ColorSpinorField::Precision
QudaPrecision Precision() const
Definition: color_spinor_field.h:242

QUDA_ODD_EVEN_SITE_ORDER
Definition: enum_quda.h:286

QUDA_DEGRAND_ROSSI_GAMMA_BASIS
Definition: enum_quda.h:311

kP
#define kP
Definition: extended_color_spinor_utilities.cu:13

quda::ColorSpinorField::GammaBasis
QudaGammaBasis GammaBasis() const
Definition: color_spinor_field.h:286

quda::CopySpinorExArg::CopySpinorExArg
CopySpinorExArg(const OutOrder &out, const InOrder &in, const Basis &basis, const int *E, const int *X, const int parity)
Definition: extended_color_spinor_utilities.cu:156

quda::ColorSpinorField::Volume
int Volume() const
Definition: color_spinor_field.h:253

quda::arg
__host__ __device__ ValueType arg(const complex< ValueType > &z)
Returns the phase angle of z.
Definition: complex_quda.h:843

quda::NonRelBasis
Definition: copy_color_spinor.cu:47

quda::CopySpinorExArg::length
int length
Definition: extended_color_spinor_utilities.cu:153

quda::copyInteriorKernel
__global__ void copyInteriorKernel(CopySpinorExArg< OutOrder, InOrder, Basis > arg)
Definition: extended_color_spinor_utilities.cu:206

QUDA_MAX_DIM
#define QUDA_MAX_DIM
Maximum number of dimensions supported by QUDA. In practice, no routines make use of more than 5...
Definition: quda_constants.h:17

checkCudaError
#define checkCudaError()
Definition: util_quda.h:110

quda::cudaColorSpinorField::commsStart
void commsStart(int nFace, int dir, int dagger=0)
Definition: cuda_color_spinor_field.cu:1259

quda::ColorSpinorField::Nspin
int Nspin() const
Definition: color_spinor_field.h:244

QUDA_FLOAT4_FIELD_ORDER
Definition: enum_quda.h:294

quda::copyInterior
__device__ __host__ void copyInterior(CopySpinorExArg< OutOrder, InOrder, Basis > &arg, int X)
Definition: extended_color_spinor_utilities.cu:170

quda::SpaceColorSpinorOrder
Definition: color_spinor_field_order.h:192

quda::PreserveBasis
Definition: copy_color_spinor.cu:30

getTuning
QudaTune getTuning()
Definition: util_quda.cpp:32

s
VOLATILE spinorFloat * s
Definition: asym_wilson_clover_dslash_dagger_g80_core.h:387

quda::ColorSpinorField::Ncolor
int Ncolor() const
Definition: color_spinor_field.h:243

quda::CopySpinorExArg::E
int E[QUDA_MAX_DIM]
Definition: extended_color_spinor_utilities.cu:151

QUDA_CPU_FIELD_LOCATION
Definition: enum_quda.h:270

quda::ColorSpinorField::SiteSubset
QudaSiteSubset SiteSubset() const
Definition: color_spinor_field.h:283

parity
const QudaParity parity
Definition: dslash_test.cpp:29

quda::Tunable::aux
char aux[TuneKey::aux_n]
Definition: tune_quda.h:136

quda::TuneKey
Definition: tune_key.h:8

quda::ColorSpinorField::V
void * V()
Definition: color_spinor_field.h:262

quda::PreserveBasis::operator()
__device__ __host__ void operator()(RegTypeOut out[Ns *Nc *2], const RegTypeIn in[Ns *Nc *2])
Definition: extended_color_spinor_utilities.cu:91