quda-ref/v1.1.0/color__spinor__field__order_8h_source.html

 #ifndef _COLOR_SPINOR_ORDER_H

 #define _COLOR_SPINOR_ORDER_H


 #include <register_traits.h>

 #include <convert.h>

 #include <typeinfo>

 #include <complex_quda.h>

 #include <index_helper.cuh>

 #include <color_spinor.h>

 #include <color_spinor_field.h>

 #include <trove_helper.cuh>

 #include <transform_reduce.h>


 namespace quda {


   template <typename Float, typename T>

     struct colorspinor_wrapper {

       T &field;

       const int x_cb;

       const int parity;


       __device__ __host__ inline colorspinor_wrapper<Float, T>(T &field, int x_cb, int parity) :

           field(field),

           x_cb(x_cb),

           parity(parity)

       {

       }


       template <typename C> __device__ __host__ inline void operator=(const C &a) { field.save(a.data, x_cb, parity); }

     };


   template <typename T, int Nc, int Ns>

     template <typename S>

     __device__ __host__ inline void ColorSpinor<T,Nc,Ns>::operator=(const colorspinor_wrapper<T,S> &a) {

     a.field.load(data, a.x_cb, a.parity);

   }


   template <typename T, int Nc, int Ns>

     template <typename S>

     __device__ __host__ inline ColorSpinor<T,Nc,Ns>::ColorSpinor(const colorspinor_wrapper<T,S> &a) {

     a.field.load(data, a.x_cb, a.parity);

   }


   template <typename T, int Nc>

     template <typename S>

     __device__ __host__ inline void ColorSpinor<T,Nc,2>::operator=(const colorspinor_wrapper<T,S> &a) {

     a.field.load(data, a.x_cb, a.parity);

   }


   template <typename T, int Nc>

     template <typename S>

     __device__ __host__ inline ColorSpinor<T,Nc,2>::ColorSpinor(const colorspinor_wrapper<T,S> &a) {

     a.field.load(data, a.x_cb, a.parity);

   }


   template <typename T, int Nc>

     template <typename S>

     __device__ __host__ inline void ColorSpinor<T,Nc,4>::operator=(const colorspinor_wrapper<T,S> &a) {

     a.field.load(data, a.x_cb, a.parity);

   }


   template <typename T, int Nc>

     template <typename S>

     __device__ __host__ inline ColorSpinor<T,Nc,4>::ColorSpinor(const colorspinor_wrapper<T,S> &a) {

     a.field.load(data, a.x_cb, a.parity);

   }


   template <typename Float, typename T>

     struct colorspinor_ghost_wrapper {

       const int dim;

       const int dir;

       const int ghost_idx;

       const int parity;

       T &field;


       __device__ __host__ inline colorspinor_ghost_wrapper<Float, T>(

           T &field, int dim, int dir, int ghost_idx, int parity) :

           field(field),

           dim(dim),

           dir(dir),

           ghost_idx(ghost_idx),

           parity(parity)

       {

       }


       template<typename C>

       __device__ __host__ inline void operator=(const C &a) {

         field.saveGhost(a.data, ghost_idx, dim, dir, parity);

       }

     };


   template <typename T, int Nc, int Ns>

     template <typename S>

     __device__ __host__ inline void ColorSpinor<T,Nc,Ns>::operator=(const colorspinor_ghost_wrapper<T,S> &a) {

     a.field.loadGhost(data, a.ghost_idx, a.dim, a.dir, a.parity);

   }


   template <typename T, int Nc, int Ns>

     template <typename S>

     __device__ __host__ inline ColorSpinor<T,Nc,Ns>::ColorSpinor(const colorspinor_ghost_wrapper<T,S> &a) {

     a.field.loadGhost(data, a.ghost_idx, a.dim, a.dir, a.parity);

   }


   template <typename T, int Nc>

   template <typename S>

   __device__ __host__ inline void ColorSpinor<T, Nc, 2>::operator=(const colorspinor_ghost_wrapper<T, S> &a)

   {

     a.field.loadGhost(data, a.ghost_idx, a.dim, a.dir, a.parity);

   }


   template <typename T, int Nc>

   template <typename S>

   __device__ __host__ inline ColorSpinor<T, Nc, 2>::ColorSpinor(const colorspinor_ghost_wrapper<T, S> &a)

   {

     a.field.loadGhost(data, a.ghost_idx, a.dim, a.dir, a.parity);

   }


   template <typename T, int Nc>

     template <typename S>

     __device__ __host__ inline void ColorSpinor<T,Nc,4>::operator=(const colorspinor_ghost_wrapper<T,S> &a) {

     a.field.loadGhost(data, a.ghost_idx, a.dim, a.dir, a.parity);

   }


   template <typename T, int Nc>

     template <typename S>

     __device__ __host__ inline ColorSpinor<T,Nc,4>::ColorSpinor(const colorspinor_ghost_wrapper<T,S> &a) {

     a.field.loadGhost(data, a.ghost_idx, a.dim, a.dir, a.parity);

   }


   namespace colorspinor {


     template<typename ReduceType, typename Float> struct square_ {

       square_(ReduceType scale) { }

       __host__ __device__ inline ReduceType operator()(const quda::complex<Float> &x)

       { return static_cast<ReduceType>(norm(x)); }

     };


     template<typename ReduceType> struct square_<ReduceType,short> {

       const ReduceType scale;

       square_(ReduceType scale) : scale(scale) { }

       __host__ __device__ inline ReduceType operator()(const quda::complex<short> &x)

       { return norm(scale * complex<ReduceType>(x.real(), x.imag())); }

     };


     template <typename ReduceType> struct square_<ReduceType, int8_t> {

       const ReduceType scale;

       square_(ReduceType scale) : scale(scale) { }

       __host__ __device__ inline ReduceType operator()(const quda::complex<int8_t> &x)

       { return norm(scale * complex<ReduceType>(x.real(), x.imag())); }

     };


     template<typename Float, typename storeFloat> struct abs_ {

       abs_(const Float scale) { }

       __host__ __device__ Float operator()(const quda::complex<storeFloat> &x) { return abs(x); }

     };


     template<typename Float> struct abs_<Float,short> {

       Float scale;

       abs_(const Float scale) : scale(scale) { }

       __host__ __device__ Float operator()(const quda::complex<short> &x)

       { return abs(scale * complex<Float>(x.real(), x.imag())); }

     };


     template <typename Float> struct abs_<Float, int8_t> {

       Float scale;

       abs_(const Float scale) : scale(scale) { }

       __host__ __device__ Float operator()(const quda::complex<int8_t> &x)

       { return abs(scale * complex<Float>(x.real(), x.imag())); }

     };


     template <typename Float, int nSpin, int nColor, int nVec, QudaFieldOrder order> struct AccessorCB {

       AccessorCB(const ColorSpinorField &) { errorQuda("Not implemented"); }

       AccessorCB() { errorQuda("Not implemented"); }

       __device__ __host__ inline int index(int parity, int x_cb, int s, int c, int v) const { return 0; }

     };


     template<typename Float, int nSpin, int nColor, int nVec, QudaFieldOrder order> struct GhostAccessorCB {

       GhostAccessorCB(const ColorSpinorField &) { errorQuda("Not implemented"); }

       GhostAccessorCB() { errorQuda("Not implemented"); }

       __device__ __host__ inline int index(int dim, int dir, int parity, int x_cb, int s, int c, int v) const

       { return 0; }

     };


     template <typename Float, int nSpin, int nColor, int nVec>

     struct AccessorCB<Float, nSpin, nColor, nVec, QUDA_SPACE_SPIN_COLOR_FIELD_ORDER> {

       const int offset_cb;

     AccessorCB(const ColorSpinorField &field) : offset_cb((field.Bytes()>>1) / sizeof(complex<Float>)) { }

     AccessorCB() : offset_cb(0) { }

     __device__ __host__ inline int index(int parity, int x_cb, int s, int c, int v) const

     {

       return parity * offset_cb + ((x_cb * nSpin + s) * nColor + c) * nVec + v;

     }


     __device__ __host__ inline int wrap_index(int parity, int x_cb, int s) const

     {

       return parity * offset_cb + (x_cb * nSpin + s) * nColor * nVec;

     }

     };


     template<typename Float, int nSpin, int nColor, int nVec>

       struct GhostAccessorCB<Float,nSpin,nColor,nVec,QUDA_SPACE_SPIN_COLOR_FIELD_ORDER> {

       int faceVolumeCB[4];

       int ghostOffset[4];

       GhostAccessorCB(const ColorSpinorField &a, int nFace = 1) {

         for (int d=0; d<4; d++) {

           faceVolumeCB[d] = nFace*a.SurfaceCB(d);

           ghostOffset[d] = faceVolumeCB[d]*nColor*nSpin*nVec;

         }

       }

       GhostAccessorCB() : ghostOffset{ } { }

       __device__ __host__ inline int index(int dim, int dir, int parity, int x_cb, int s, int c, int v) const

       { return parity*ghostOffset[dim] + ((x_cb*nSpin+s)*nColor+c)*nVec+v; }


       __device__ __host__ inline int wrap_index(int dim, int dir, int parity, int x_cb, int s) const

       {

         return parity * ghostOffset[dim] + (x_cb * nSpin + s) * nColor * nVec;

       }

     };


     template <int nSpin, int nColor, int nVec, int N> // note this will not work for N=1

     __device__ __host__ inline int indexFloatN(int x_cb, int s, int c, int v, int stride)

     {

       int k = (s * nColor + c) * nVec + v;

       int j = k / (N / 2);

       int i = k % (N / 2);

       return (j * stride + x_cb) * (N / 2) + i;

     };


     template <typename Float, int nSpin, int nColor, int nVec>

     struct AccessorCB<Float, nSpin, nColor, nVec, QUDA_FLOAT2_FIELD_ORDER> {

       const int stride;

       const int offset_cb;

       AccessorCB(const ColorSpinorField &field) :

         stride(field.Stride()),

         offset_cb((field.Bytes() >> 1) / sizeof(complex<Float>))

       {

       }

       AccessorCB() : stride(0), offset_cb(0) {}

       __device__ __host__ inline int index(int parity, int x_cb, int s, int c, int v) const

       {

         return parity * offset_cb + ((s * nColor + c) * nVec + v) * stride + x_cb;

       }


       template <int nSpinBlock>

       __device__ __host__ inline void load(complex<Float> out[nSpinBlock * nColor * nVec], complex<Float> *in,

                                            int parity, int x_cb, int chi) const

       {

         using vec_t = typename VectorType<Float, 2>::type;

         constexpr int M = nSpinBlock * nColor * nVec;

 #pragma unroll

         for (int i = 0; i < M; i++) {

           vec_t tmp = vector_load<vec_t>(reinterpret_cast<const vec_t *>(in + parity * offset_cb),

                                          (chi * M + i) * stride + x_cb);

           memcpy(&out[i], &tmp, sizeof(vec_t));

         }

       }

     };


     template<typename Float, int nSpin, int nColor, int nVec>

       struct GhostAccessorCB<Float,nSpin,nColor,nVec,QUDA_FLOAT2_FIELD_ORDER> {

       int faceVolumeCB[4];

       int ghostOffset[4];

       GhostAccessorCB(const ColorSpinorField &a, int nFace = 1) {

         for (int d=0; d<4; d++) {

           faceVolumeCB[d] = nFace*a.SurfaceCB(d);

           ghostOffset[d] = faceVolumeCB[d]*nColor*nSpin*nVec;

         }

       }

       GhostAccessorCB() : faceVolumeCB{ }, ghostOffset{ } { }

       __device__ __host__ inline int index(int dim, int dir, int parity, int x_cb, int s, int c, int v) const

       { return parity*ghostOffset[dim] + ((s*nColor+c)*nVec+v)*faceVolumeCB[dim] + x_cb; }

     };


     template <typename Float, int nSpin, int nColor, int nVec>

     struct AccessorCB<Float, nSpin, nColor, nVec, QUDA_FLOAT4_FIELD_ORDER> {

       const int stride;

       const int offset_cb;

       AccessorCB(const ColorSpinorField &field) :

         stride(field.Stride()),

         offset_cb((field.Bytes() >> 1) / sizeof(complex<Float>))

       {

       }

       AccessorCB() : stride(0), offset_cb(0) {}

       __device__ __host__ inline int index(int parity, int x_cb, int s, int c, int v) const

       {

         return parity * offset_cb + indexFloatN<nSpin, nColor, nVec, 4>(x_cb, s, c, v, stride);

       }


       template <int nSpinBlock>

       __device__ __host__ inline void load(complex<Float> out[nSpinBlock * nColor * nVec], complex<Float> *in,

                                            int parity, int x_cb, int chi) const

       {

         using vec_t = typename VectorType<Float, 4>::type;

         constexpr int M = (nSpinBlock * nColor * nVec * 2) / 4;

 #pragma unroll

         for (int i = 0; i < M; i++) {

           vec_t tmp = vector_load<vec_t>(reinterpret_cast<const vec_t *>(in + parity * offset_cb),

                                          (chi * M + i) * stride + x_cb);

           memcpy(&out[i * 2], &tmp, sizeof(vec_t));

         }

       }

     };


     template<typename Float, int nSpin, int nColor, int nVec>

       struct GhostAccessorCB<Float,nSpin,nColor,nVec,QUDA_FLOAT4_FIELD_ORDER> {

       int faceVolumeCB[4];

       int ghostOffset[4];

       GhostAccessorCB(const ColorSpinorField &a, int nFace = 1) {

         for (int d = 0; d < 4; d++) {

           faceVolumeCB[d] = nFace * a.SurfaceCB(d);

           ghostOffset[d] = faceVolumeCB[d] * nColor * nSpin * nVec;

         }

       }

       GhostAccessorCB() : faceVolumeCB {}, ghostOffset {} {}

       __device__ __host__ inline int index(int dim, int dir, int parity, int x_cb, int s, int c, int v) const

       { return parity*ghostOffset[dim] + indexFloatN<nSpin,nColor,nVec,4>(x_cb, s, c, v, faceVolumeCB[dim]); }

     };


     template <typename Float, int nSpin, int nColor, int nVec>

     struct AccessorCB<Float, nSpin, nColor, nVec, QUDA_FLOAT8_FIELD_ORDER> {

       const int stride;

       const int offset_cb;

       AccessorCB(const ColorSpinorField &field) :

         stride(field.Stride()),

         offset_cb((field.Bytes() >> 1) / sizeof(complex<Float>))

       {

       }

       AccessorCB() : stride(0), offset_cb(0) {}

       __device__ __host__ inline int index(int parity, int x_cb, int s, int c, int v) const

       {

         return parity * offset_cb + indexFloatN<nSpin, nColor, nVec, 8>(x_cb, s, c, v, stride);

       }


       template <int nSpinBlock>

       __device__ __host__ inline void load(complex<Float> out[nSpinBlock * nColor * nVec], complex<Float> *in,

                                            int parity, int x_cb, int chi) const

       {

         using vec_t = typename VectorType<Float, 8>::type;


         // in case the vector length isn't divisible by 8, load in the entire vector and then pick the chirality

         // (the compiler will remove any unused loads)

         constexpr int N = nSpin * nColor * nVec * 2; // real numbers in the loaded vector

         constexpr int M = N / 8;

         Float tmp[N];

 #pragma unroll

         for (int i = 0; i < M; i++) {

           vec_t ld_tmp = vector_load<vec_t>(reinterpret_cast<const vec_t *>(in + parity * offset_cb), i * stride + x_cb);

           memcpy(&tmp[i * 8], &ld_tmp, sizeof(vec_t));

         }

         constexpr int N_chi = N / (nSpin / nSpinBlock);

 #pragma unroll

         for (int i = 0; i < N_chi; i++)

           out[i] = complex<Float>(tmp[chi * N_chi + 2 * i + 0], tmp[chi * N_chi + 2 * i + 1]);

       }

     };


     template <typename Float, int nSpin, int nColor, int nVec>

     struct GhostAccessorCB<Float, nSpin, nColor, nVec, QUDA_FLOAT8_FIELD_ORDER> {

       int faceVolumeCB[4];

       int ghostOffset[4];

       GhostAccessorCB(const ColorSpinorField &a, int nFace = 1)

       {

         for (int d = 0; d < 4; d++) {

           faceVolumeCB[d] = nFace * a.SurfaceCB(d);

           ghostOffset[d] = faceVolumeCB[d] * nColor * nSpin * nVec;

         }

       }

       GhostAccessorCB() : faceVolumeCB {}, ghostOffset {} {}

       __device__ __host__ inline int index(int dim, int dir, int parity, int x_cb, int s, int c, int v) const

       {

         return parity * ghostOffset[dim] + indexFloatN<nSpin, nColor, nVec, 8>(x_cb, s, c, v, faceVolumeCB[dim]);

       }

     };


     template <typename Float, typename storeFloat> __host__ __device__ inline constexpr bool fixed_point() { return false; }

     template <> __host__ __device__ inline constexpr bool fixed_point<float, int8_t>() { return true; }

     template<> __host__ __device__ inline constexpr bool fixed_point<float,short>() { return true; }

     template<> __host__ __device__ inline constexpr bool fixed_point<float,int>() { return true; }


     template <typename Float, typename storeFloat> __host__ __device__ inline constexpr bool match() { return false; }

     template <> __host__ __device__ inline constexpr bool match<int8_t, int8_t>() { return true; }

     template<> __host__ __device__ inline constexpr bool match<int,int>() { return true; }

     template<> __host__ __device__ inline constexpr bool match<short,short>() { return true; }


     template <typename Float, typename storeFloat>

       struct fieldorder_wrapper {

       using type = Float;

       using store_type = storeFloat;

       complex<storeFloat> *v;

       const int idx;

       const Float scale;

       const Float scale_inv;

       static constexpr bool fixed = fixed_point<Float, storeFloat>();


       __device__ __host__ inline fieldorder_wrapper(complex<storeFloat> *v, int idx, Float scale, Float scale_inv) :

         v(v),

         idx(idx),

         scale(scale),

         scale_inv(scale_inv)

       {

       }


   __device__ __host__ inline Float real() const {

     if (!fixed) {

       return v[idx].real();

     } else {

       return scale_inv*static_cast<Float>(v[idx].real());

     }

   }


   __device__ __host__ inline Float imag() const {

     if (!fixed) {

       return v[idx].imag();

     } else {

       return scale_inv*static_cast<Float>(v[idx].imag());

     }

   }


   __device__ __host__ inline void real(const Float &a) {

     if (!fixed) {

       v[idx].real(storeFloat(a));

     } else { // we need to scale and then round

       v[idx].real(storeFloat(round(scale * a)));

     }

   }

   __device__ __host__ inline void imag(const Float &a) {

     if (!fixed) {

       v[idx].imag(storeFloat(a));

     } else { // we need to scale and then round

       v[idx].imag(storeFloat(round(scale * a)));

     }

   }


   __device__ __host__ inline auto data() { return &v[idx]; }


   __device__ __host__ inline const auto data() const { return &v[idx]; }


   __device__ __host__ inline complex<Float> operator-() const {

     return fixed ? -scale_inv*static_cast<complex<Float> >(v[idx]) : -static_cast<complex<Float> >(v[idx]);

   }


   __device__ __host__ inline void operator=(const fieldorder_wrapper<Float,storeFloat> &a) {

     v[idx] = fixed ? complex<storeFloat>(round(scale * a.real()), round(scale * a.imag())) : a.v[a.idx];

   }


         template<typename theirFloat>

   __device__ __host__ inline void operator=(const complex<theirFloat> &a) {

     if (match<storeFloat,theirFloat>()) {

       v[idx] = complex<storeFloat>(a.x, a.y);

     } else {

       v[idx] = fixed ? complex<storeFloat>(round(scale * a.x), round(scale * a.y)) : complex<storeFloat>(a.x, a.y);

     }

   }


         template<typename theirFloat>

   __device__ __host__ inline void operator=(const theirFloat &a) { *this = complex<theirFloat>(a,static_cast<theirFloat>(0.0)); }


         template<typename theirFloat>

   __device__ __host__ inline void operator+=(const complex<theirFloat> &a) {

     if (match<storeFloat,theirFloat>()) {

       v[idx] += complex<storeFloat>(a.x, a.y);

     } else {

       v[idx] += fixed ? complex<storeFloat>(round(scale * a.x), round(scale * a.y)) : complex<storeFloat>(a.x, a.y);

     }

   }


   template<typename theirFloat>

   __device__ __host__ inline void operator-=(const complex<theirFloat> &a) {

     if (match<storeFloat,theirFloat>()) {

       v[idx] -= complex<storeFloat>(a.x, a.y);

     } else {

       v[idx] -= fixed ? complex<storeFloat>(round(scale * a.x), round(scale * a.y)) : complex<storeFloat>(a.x, a.y);

     }

   }


       };


       template <typename Float, int nSpin, int nColor, int nVec, QudaFieldOrder order, typename storeFloat = Float,

                 typename ghostFloat = storeFloat, bool disable_ghost = false, bool block_float = false>

       class FieldOrderCB

       {

         typedef float norm_type;


       public:

         static constexpr bool supports_ghost_zone = true;


       protected:

         complex<storeFloat> *v;

         const AccessorCB<storeFloat, nSpin, nColor, nVec, order> accessor;

         // since these variables are mutually exclusive, we use a union to minimize the accessor footprint

         union {

           norm_type *norm;

           Float scale;

         };

         union {

           Float scale_inv;

           int norm_offset;

         };

 #ifndef DISABLE_GHOST

       mutable complex<ghostFloat> *ghost[8];

       mutable norm_type *ghost_norm[8];

       mutable int x[QUDA_MAX_DIM];

       const int volumeCB;

       const int nDim;

       const QudaGammaBasis gammaBasis;

       const int siteSubset;

       const int nParity;

       const QudaFieldLocation location;

     const GhostAccessorCB<ghostFloat,nSpin,nColor,nVec,order> ghostAccessor;

       Float ghost_scale;

       Float ghost_scale_inv;

 #endif

       static constexpr bool fixed = fixed_point<Float,storeFloat>();

       static constexpr bool ghost_fixed = fixed_point<Float,ghostFloat>();

       static constexpr bool block_float_ghost = !fixed && ghost_fixed;


     public:

     FieldOrderCB(const ColorSpinorField &field, int nFace=1, void *v_=0, void **ghost_=0)

       : v(v_? static_cast<complex<storeFloat>*>(const_cast<void*>(v_))

           : static_cast<complex<storeFloat>*>(const_cast<void*>(field.V()))),

         accessor(field), scale(static_cast<Float>(1.0)), scale_inv(static_cast<Float>(1.0))

 #ifndef DISABLE_GHOST

         , volumeCB(field.VolumeCB()), nDim(field.Ndim()), gammaBasis(field.GammaBasis()),

         siteSubset(field.SiteSubset()), nParity(field.SiteSubset()),

         location(field.Location()), ghostAccessor(field,nFace),

         ghost_scale(static_cast<Float>(1.0)), ghost_scale_inv(static_cast<Float>(1.0))

 #endif

       {

 #ifndef DISABLE_GHOST

         for (int d=0; d<QUDA_MAX_DIM; d++) x[d]=field.X(d);

         resetGhost(field, ghost_ ? ghost_ : field.Ghost());

 #endif

         resetScale(field.Scale());


 #ifdef DISABLE_GHOST

         if (!disable_ghost) errorQuda("DISABLE_GHOST macro set but corresponding disable_ghost template not set");

 #endif


         if (block_float) {

           // only if we have block_float format do we set these (only block_orthogonalize.cu at present)

           norm = static_cast<norm_type *>(const_cast<void *>(field.Norm()));

           norm_offset = field.NormBytes() / (2 * sizeof(norm_type));

         }

       }


 #ifndef DISABLE_GHOST

       void resetGhost(const ColorSpinorField &a, void * const *ghost_) const

       {

         for (int dim=0; dim<4; dim++) {

           for (int dir=0; dir<2; dir++) {

             ghost[2 * dim + dir] = static_cast<complex<ghostFloat> *>(ghost_[2 * dim + dir]);

             ghost_norm[2 * dim + dir] = !block_float_ghost ?

               nullptr :

               reinterpret_cast<norm_type *>(static_cast<char *>(ghost_[2 * dim + dir])

                                             + nParity * nColor * nSpin * nVec * 2 * ghostAccessor.faceVolumeCB[dim]

                                               * sizeof(ghostFloat));

           }

         }

       }

 #endif


       void resetScale(Float max) {

         if (fixed) {

           scale = static_cast<Float>(std::numeric_limits<storeFloat>::max() / max);

           scale_inv = static_cast<Float>(max / std::numeric_limits<storeFloat>::max());

         }

 #ifndef DISABLE_GHOST

         if (ghost_fixed) {

           if (block_float_ghost && max != static_cast<Float>(1.0))

               errorQuda("Block-float accessor requires max=1.0 not max=%e\n", max);

           ghost_scale = static_cast<Float>(std::numeric_limits<ghostFloat>::max() / max);

           ghost_scale_inv = static_cast<Float>(max / std::numeric_limits<ghostFloat>::max());

         }

 #endif

       }


       template <int nSpinBlock>

       __device__ __host__ inline void load(complex<Float> out[nSpinBlock * nColor * nVec], int parity, int x_cb,

                                            int chi) const

       {

         if (!fixed) {

           accessor.template load<nSpinBlock>((complex<storeFloat> *)out, v, parity, x_cb, chi);

         } else {

           complex<storeFloat> tmp[nSpinBlock * nColor * nVec];

           accessor.template load<nSpinBlock>(tmp, v, parity, x_cb, chi);

           Float norm_ = block_float ? norm[parity * norm_offset + x_cb] : scale_inv;

           for (int s = 0; s < nSpinBlock; s++) {

             for (int c = 0; c < nColor; c++) {

               for (int v = 0; v < nVec; v++) {

                 int k = (s * nColor + c) * nVec + v;

                 out[k] = norm_ * complex<Float>(static_cast<Float>(tmp[k].real()), static_cast<Float>(tmp[k].imag()));

               }

             }

           }

         }

       }


       __device__ __host__ inline const complex<Float> operator()(int parity, int x_cb, int s, int c, int n=0) const

       {

 #if (__CUDA_ARCH__ >= 320 && __CUDA_ARCH__ < 520)

         if (!fixed) {

           auto v_ = __ldg(v + accessor.index(parity, x_cb, s, c, n));

           return complex<Float>(v_.x, v_.y);

         } else {

           auto v_ = __ldg(v + accessor.index(parity, x_cb, s, c, n));

           complex<storeFloat> tmp(v_.x, v_.y);

           Float norm_ = block_float ? __ldg(norm + parity * norm_offset + x_cb) : scale_inv;

           return norm_ * complex<Float>(static_cast<Float>(tmp.x), static_cast<Float>(tmp.y));

         }

 #else

         if (!fixed) {

           return complex<Float>( v[accessor.index(parity,x_cb,s,c,n)] );

         } else {

           complex<storeFloat> tmp = v[accessor.index(parity,x_cb,s,c,n)];

           Float norm_ = block_float ? norm[parity*norm_offset+x_cb] : scale_inv;

           return norm_*complex<Float>(static_cast<Float>(tmp.x), static_cast<Float>(tmp.y));

         }

 #endif

       }


       __device__ __host__ inline fieldorder_wrapper<Float,storeFloat> operator()(int parity, int x_cb, int s, int c, int n=0)

   { return fieldorder_wrapper<Float,storeFloat>(v, accessor.index(parity,x_cb,s,c,n), scale, scale_inv); }


   __device__ __host__ inline const auto wrap(int parity, int x_cb, int s) const

   {

     return fieldorder_wrapper<Float, storeFloat>(v, accessor.wrap_index(parity, x_cb, s), scale, scale_inv);

   }


   __device__ __host__ inline auto wrap(int parity, int x_cb, int s)

   {

     return fieldorder_wrapper<Float, storeFloat>(v, accessor.wrap_index(parity, x_cb, s), scale, scale_inv);

   }


 #ifndef DISABLE_GHOST

       __device__ __host__ inline const complex<Float> Ghost(int dim, int dir, int parity, int x_cb, int s, int c, int n=0) const

       {

 #if (__CUDA_ARCH__ >= 320 && __CUDA_ARCH__ < 520)

         if (!ghost_fixed) {

           auto v_ = __ldg(ghost[2 * dim + dir] + ghostAccessor.index(dim, dir, parity, x_cb, s, c, n));

           return complex<Float>(v_.x, v_.y);

         } else {

           Float scale = ghost_scale_inv;

           if (block_float_ghost)

             scale *= __ldg(ghost_norm[2 * dim + dir] + parity * ghostAccessor.faceVolumeCB[dim] + x_cb);

           auto v_ = __ldg(ghost[2 * dim + dir] + ghostAccessor.index(dim, dir, parity, x_cb, s, c, n));

           complex<ghostFloat> tmp(v_.x, v_.y);

           return scale*complex<Float>(static_cast<Float>(tmp.x), static_cast<Float>(tmp.y));

         }

 #else

         if (!ghost_fixed) {

           return complex<Float>( ghost[2*dim+dir][ghostAccessor.index(dim,dir,parity,x_cb,s,c,n)] );

         } else {

           Float scale = ghost_scale_inv;

           if (block_float_ghost) scale *= ghost_norm[2*dim+dir][parity*ghostAccessor.faceVolumeCB[dim] + x_cb];

           complex<ghostFloat> tmp = ghost[2*dim+dir][ghostAccessor.index(dim,dir,parity,x_cb,s,c,n)];

           return scale*complex<Float>(static_cast<Float>(tmp.x), static_cast<Float>(tmp.y));

         }

 #endif

       }


         __device__ __host__ inline fieldorder_wrapper<Float,ghostFloat> Ghost(int dim, int dir, int parity, int x_cb, int s, int c, int n=0, Float max=0)

       {

         if (block_float_ghost && s==0 && c==0 && n==0) ghost_norm[2*dim+dir][parity*ghostAccessor.faceVolumeCB[dim] + x_cb] = max;

         const int idx = ghostAccessor.index(dim,dir,parity,x_cb,s,c,n);

         return fieldorder_wrapper<Float,ghostFloat>(ghost[2*dim+dir], idx,

               block_float_ghost ? ghost_scale/max : ghost_scale,

               block_float_ghost ? ghost_scale_inv*max : ghost_scale_inv);


       }


       __device__ __host__ inline const auto wrap_ghost(int dim, int dir, int parity, int x_cb, int s) const

       {

         const int idx = ghostAccessor.wrap_index(dim, dir, parity, x_cb, s);

         return fieldorder_wrapper<Float, ghostFloat>(ghost[2 * dim + dir], idx, ghost_scale, ghost_scale_inv);

       }


       __device__ __host__ inline auto wrap_ghost(int dim, int dir, int parity, int x_cb, int s)

       {

         const int idx = ghostAccessor.wrap_index(dim, dir, parity, x_cb, s);

         return fieldorder_wrapper<Float, ghostFloat>(ghost[2 * dim + dir], idx, ghost_scale, ghost_scale_inv);

       }


       __device__ __host__ inline void LatticeIndex(int y[QUDA_MAX_DIM], int i) const {

         if (siteSubset == QUDA_FULL_SITE_SUBSET) x[0] /= 2;


         for (int d=0; d<nDim; d++) {

           y[d] = i % x[d];

           i /= x[d];

         }

         int parity = i; // parity is the slowest running dimension


         // convert into the full-field lattice coordinate

         if (siteSubset == QUDA_FULL_SITE_SUBSET) {

           for (int d=1; d<nDim; d++) parity += y[d];

           parity = parity & 1;

           x[0] *= 2; // restore x[0]

         }

         y[0] = 2*y[0] + parity;  // compute the full x coordinate

       }


       __device__ __host__ inline void OffsetIndex(int &i, int y[QUDA_MAX_DIM]) const {

         int parity = 0;

         int savey0 = y[0];


         if (siteSubset == QUDA_FULL_SITE_SUBSET) {

           for (int d=0; d<nDim; d++) parity += y[d];

           parity = parity & 1;

           y[0] /= 2;

           x[0] /= 2;

         }


         i = parity;

         for (int d=nDim-1; d>=0; d--) i = x[d]*i + y[d];


         if (siteSubset == QUDA_FULL_SITE_SUBSET) {

           //y[0] = 2*y[0] + parity;

           y[0] = savey0;

           x[0] *= 2; // restore x[0]

         }

       }


       __device__ __host__ inline int X(int d) const { return x[d]; }


       __device__ __host__ inline const int* X() const { return x; }

 #endif


        __device__ __host__ inline int Ncolor() const { return nColor; }


       __device__ __host__ inline int Nspin() const { return nSpin; }


       __device__ __host__ inline int Nvec() const { return nVec; }


 #ifndef DISABLE_GHOST

       __device__ __host__ inline int Nparity() const { return nParity; }


       __device__ __host__ inline int VolumeCB() const { return volumeCB; }


       __device__ __host__ inline int Ndim() const { return nDim; }


       __device__ __host__ inline QudaGammaBasis GammaBasis() const { return gammaBasis; }


       __host__ double norm2(bool global = true) const

       {

         double nrm2 = ::quda::transform_reduce(location, v, nParity * volumeCB * nSpin * nColor * nVec,

                                                square_<double, storeFloat>(scale_inv), 0.0, plus<double>());

         if (global) comm_allreduce(&nrm2);

         return nrm2;

       }


       __host__ double abs_max(bool global = true) const

       {

         double absmax = ::quda::transform_reduce(location, v, nParity * volumeCB * nSpin * nColor * nVec,

                                                  abs_<double, storeFloat>(scale_inv), 0.0, maximum<double>());

         if (global) comm_allreduce_max(&absmax);

         return absmax;

       }


       size_t Bytes() const { return nParity * static_cast<size_t>(volumeCB) * nColor * nSpin * nVec * 2ll * sizeof(storeFloat); }

 #endif

       };


       template <typename Float, int Ns, int Nc, int N_, bool spin_project = false, bool huge_alloc = false>

       struct FloatNOrder {

         static_assert((2 * Ns * Nc) % N_ == 0, "Internal degrees of freedom not divisible by short-vector length");

         static constexpr int length = 2 * Ns * Nc;

         static constexpr int length_ghost = spin_project ? length / 2 : length;

         static constexpr int N = N_;

         static constexpr int M = length / N;

         // if spin projecting, check that short vector length is compatible, if not halve the vector length

         static constexpr int N_ghost = !spin_project ? N : (Ns * Nc) % N == 0 ? N : N / 2;

         static constexpr int M_ghost = length_ghost / N_ghost;

         using Accessor = FloatNOrder<Float, Ns, Nc, N, spin_project, huge_alloc>;

         using real = typename mapper<Float>::type;

         using complex = complex<real>;

         using Vector = typename VectorType<Float, N>::type;

         using GhostVector = typename VectorType<Float, N_ghost>::type;

         using AllocInt = typename AllocType<huge_alloc>::type;

         using norm_type = float;

         Float *field;

         norm_type *norm;

         const AllocInt offset; // offset can be 32-bit or 64-bit

         const AllocInt norm_offset;

         int volumeCB;

         int faceVolumeCB[4];

         int stride;

         mutable Float *ghost[8];

         mutable norm_type *ghost_norm[8];

         int nParity;

         void *backup_h;

         size_t bytes;


         FloatNOrder(const ColorSpinorField &a, int nFace = 1, Float *field_ = 0, norm_type *norm_ = 0,

                     Float **ghost_ = 0, bool override = false) :

           field(field_ ? field_ : (Float *)a.V()),

           offset(a.Bytes() / (2 * sizeof(Float) * N)),

           norm(norm_ ? norm_ : (norm_type *)a.Norm()),

           norm_offset(a.NormBytes() / (2 * sizeof(norm_type))),

           volumeCB(a.VolumeCB()),

           stride(a.Stride()),

           nParity(a.SiteSubset()),

           backup_h(nullptr),

           bytes(a.Bytes())

         {

           for (int i = 0; i < 4; i++) { faceVolumeCB[i] = a.SurfaceCB(i) * nFace; }

           resetGhost(a, ghost_ ? (void **)ghost_ : a.Ghost());

         }


         void resetGhost(const ColorSpinorField &a, void *const *ghost_) const

         {

           for (int dim = 0; dim < 4; dim++) {

             for (int dir = 0; dir < 2; dir++) {

               ghost[2 * dim + dir] = comm_dim_partitioned(dim) ? static_cast<Float *>(ghost_[2 * dim + dir]) : nullptr;

               ghost_norm[2 * dim + dir] = !comm_dim_partitioned(dim) ?

                 nullptr :

                 reinterpret_cast<norm_type *>(static_cast<char *>(ghost_[2 * dim + dir])

                                               + nParity * length_ghost * faceVolumeCB[dim] * sizeof(Float));

             }

           }

         }


         __device__ __host__ inline void load(complex out[length / 2], int x, int parity = 0) const

         {

           real v[length];

           norm_type nrm;

           if (isFixed<Float>::value) { nrm = vector_load<float>(norm, x + parity * norm_offset); }


 #pragma unroll

     for (int i=0; i<M; i++) {

       // first load from memory

       Vector vecTmp = vector_load<Vector>(field, parity * offset + x + stride * i);

       // now copy into output and scale

 #pragma unroll

       for (int j = 0; j < N; j++) copy_and_scale(v[i * N + j], reinterpret_cast<Float *>(&vecTmp)[j], nrm);

     }


 #pragma unroll

     for (int i = 0; i < length / 2; i++) out[i] = complex(v[2 * i + 0], v[2 * i + 1]);

   }


   __device__ __host__ inline void save(const complex in[length / 2], int x, int parity = 0)

   {

     real v[length];


 #pragma unroll

     for (int i = 0; i < length / 2; i++) {

       v[2 * i + 0] = in[i].real();

       v[2 * i + 1] = in[i].imag();

     }


     if (isFixed<Float>::value) {

       norm_type max_[length / 2];

       // two-pass to increase ILP (assumes length divisible by two, e.g. complex-valued)

 #pragma unroll

       for (int i = 0; i < length / 2; i++) max_[i] = fmaxf(fabsf((norm_type)v[i]), fabsf((norm_type)v[i + length / 2]));

       norm_type scale = 0.0;

 #pragma unroll

       for (int i = 0; i < length / 2; i++) scale = fmaxf(max_[i], scale);

       norm[x+parity*norm_offset] = scale;


 #ifdef __CUDA_ARCH__

       real scale_inv = __fdividef(fixedMaxValue<Float>::value, scale);

 #else

       real scale_inv = fixedMaxValue<Float>::value / scale;

 #endif

 #pragma unroll

       for (int i = 0; i < length; i++) v[i] = v[i] * scale_inv;

     }


 #pragma unroll

     for (int i=0; i<M; i++) {

       Vector vecTmp;

       // first do scalar copy converting into storage type

 #pragma unroll

       for (int j = 0; j < N; j++) copy_scaled(reinterpret_cast<Float *>(&vecTmp)[j], v[i * N + j]);

       // second do vectorized copy into memory

       vector_store(field, parity * offset + x + stride * i, vecTmp);

     }

   }


   __device__ __host__ inline colorspinor_wrapper<real, Accessor> operator()(int x_cb, int parity)

   {

     return colorspinor_wrapper<real, Accessor>(*this, x_cb, parity);

   }


   __device__ __host__ inline const colorspinor_wrapper<real, Accessor> operator()(int x_cb, int parity) const

   {

     return colorspinor_wrapper<real, Accessor>(const_cast<Accessor &>(*this), x_cb, parity);

   }


   __device__ __host__ inline void loadGhost(complex out[length_ghost / 2], int x, int dim, int dir, int parity = 0) const

   {

     real v[length_ghost];

     norm_type nrm;

     if (isFixed<Float>::value) { nrm = vector_load<float>(ghost_norm[2 * dim + dir], parity * faceVolumeCB[dim] + x); }


 #pragma unroll

     for (int i = 0; i < M_ghost; i++) {

       GhostVector vecTmp = vector_load<GhostVector>(ghost[2 * dim + dir],

                                                     parity * faceVolumeCB[dim] * M_ghost + i * faceVolumeCB[dim] + x);

 #pragma unroll

       for (int j = 0; j < N_ghost; j++) copy_and_scale(v[i * N_ghost + j], reinterpret_cast<Float *>(&vecTmp)[j], nrm);

     }


 #pragma unroll

     for (int i = 0; i < length_ghost / 2; i++) out[i] = complex(v[2 * i + 0], v[2 * i + 1]);

   }


   __device__ __host__ inline void saveGhost(const complex in[length_ghost / 2], int x, int dim, int dir,

                                             int parity = 0) const

   {

     real v[length_ghost];

 #pragma unroll

     for (int i = 0; i < length_ghost / 2; i++) {

       v[2 * i + 0] = in[i].real();

       v[2 * i + 1] = in[i].imag();

     }


     if (isFixed<Float>::value) {

       norm_type max_[length_ghost / 2];

       // two-pass to increase ILP (assumes length divisible by two, e.g. complex-valued)

 #pragma unroll

       for (int i = 0; i < length_ghost / 2; i++)

         max_[i] = fmaxf( (norm_type)fabsf( (norm_type)v[i] ),

                          (norm_type)fabsf( (norm_type)v[i + length_ghost / 2] ) );

       norm_type scale = 0.0;

 #pragma unroll

       for (int i = 0; i < length_ghost / 2; i++) scale = fmaxf(max_[i], scale);

       ghost_norm[2 * dim + dir][parity * faceVolumeCB[dim] + x] = scale;


 #ifdef __CUDA_ARCH__

       real scale_inv = __fdividef(fixedMaxValue<Float>::value, scale);

 #else

       real scale_inv = fixedMaxValue<Float>::value / scale;

 #endif

 #pragma unroll

       for (int i = 0; i < length_ghost; i++) v[i] = v[i] * scale_inv;

     }


 #pragma unroll

     for (int i = 0; i < M_ghost; i++) {

       GhostVector vecTmp;

       // first do scalar copy converting into storage type

 #pragma unroll

       for (int j = 0; j < N_ghost; j++) copy_scaled(reinterpret_cast<Float *>(&vecTmp)[j], v[i * N_ghost + j]);

       // second do vectorized copy into memory

       vector_store(ghost[2 * dim + dir], parity * faceVolumeCB[dim] * M_ghost + i * faceVolumeCB[dim] + x, vecTmp);

     }

   }


   __device__ __host__ inline colorspinor_ghost_wrapper<real, Accessor> Ghost(int dim, int dir, int ghost_idx, int parity)

   {

     return colorspinor_ghost_wrapper<real, Accessor>(*this, dim, dir, ghost_idx, parity);

   }


   __device__ __host__ inline const colorspinor_ghost_wrapper<real, Accessor> Ghost(int dim, int dir, int ghost_idx,

                                                                                    int parity) const

   {

     return colorspinor_ghost_wrapper<real, Accessor>(const_cast<Accessor &>(*this), dim, dir, ghost_idx, parity);

   }


   void save() {

     if (backup_h) errorQuda("Already allocated host backup");

     backup_h = safe_malloc(bytes);

     qudaMemcpy(backup_h, field, bytes, cudaMemcpyDeviceToHost);

   }


   void load() {

     qudaMemcpy(field, backup_h, bytes, cudaMemcpyHostToDevice);

     host_free(backup_h);

     backup_h = nullptr;

   }


   size_t Bytes() const

   {

     return nParity * volumeCB * (Nc * Ns * 2 * sizeof(Float) + (isFixed<Float>::value ? sizeof(norm_type) : 0));

   }

       };


     template <typename real, int length> struct S { real v[length]; };


     template <typename Float, int Ns, int Nc>

       struct SpaceColorSpinorOrder {

       using Accessor = SpaceColorSpinorOrder<Float, Ns, Nc>;

       using real = typename mapper<Float>::type;

       using complex = complex<real>;

       static const int length = 2 * Ns * Nc;

       Float *field;

       size_t offset;

       Float *ghost[8];

       int volumeCB;

       int faceVolumeCB[4];

       int stride;

       int nParity;

       SpaceColorSpinorOrder(const ColorSpinorField &a, int nFace=1, Float *field_=0, float *dummy=0, Float **ghost_=0)

       : field(field_ ? field_ : (Float*)a.V()), offset(a.Bytes()/(2*sizeof(Float))),

     volumeCB(a.VolumeCB()), stride(a.Stride()), nParity(a.SiteSubset())

   {

     if (volumeCB != stride) errorQuda("Stride must equal volume for this field order");

     for (int i=0; i<4; i++) {

       ghost[2*i] = ghost_ ? ghost_[2*i] : 0;

       ghost[2*i+1] = ghost_ ? ghost_[2*i+1] : 0;

       faceVolumeCB[i] = a.SurfaceCB(i)*nFace;

     }

   }


   __device__ __host__ inline void load(complex v[length / 2], int x, int parity = 0) const

   {

 #if defined( __CUDA_ARCH__) && !defined(DISABLE_TROVE)

     typedef S<Float,length> structure;

     trove::coalesced_ptr<structure> field_((structure*)field);

     structure v_ = field_[parity*volumeCB + x];

     for (int s=0; s<Ns; s++) {

       for (int c = 0; c < Nc; c++) { v[s * Nc + c] = complex(v_.v[(c * Ns + s) * 2 + 0], v_.v[(c * Ns + s) * 2 + 1]); }

     }

 #else

     for (int s=0; s<Ns; s++) {

       for (int c=0; c<Nc; c++) {

         v[s * Nc + c] = complex(field[parity * offset + ((x * Nc + c) * Ns + s) * 2 + 0],

                                 field[parity * offset + ((x * Nc + c) * Ns + s) * 2 + 1]);

       }

     }

 #endif

   }


   __device__ __host__ inline void save(const complex v[length / 2], int x, int parity = 0)

   {

 #if defined( __CUDA_ARCH__) && !defined(DISABLE_TROVE)

     typedef S<Float,length> structure;

     trove::coalesced_ptr<structure> field_((structure*)field);

     structure v_;

     for (int s=0; s<Ns; s++) {

       for (int c=0; c<Nc; c++) {

         v_.v[(c*Ns + s)*2 + 0] = (Float)v[s*Nc+c].real();

         v_.v[(c*Ns + s)*2 + 1] = (Float)v[s*Nc+c].imag();

       }

     }

     field_[parity*volumeCB + x] = v_;

 #else

     for (int s=0; s<Ns; s++) {

       for (int c=0; c<Nc; c++) {

         field[parity*offset + ((x*Nc + c)*Ns + s)*2 + 0] = v[s*Nc+c].real();

         field[parity*offset + ((x*Nc + c)*Ns + s)*2 + 1] = v[s*Nc+c].imag();

       }

     }

 #endif

   }


   __device__ __host__ inline colorspinor_wrapper<real, Accessor> operator()(int x_cb, int parity)

   {

     return colorspinor_wrapper<real, Accessor>(*this, x_cb, parity);

   }


   __device__ __host__ inline const colorspinor_wrapper<real, Accessor> operator()(int x_cb, int parity) const

   {

     return colorspinor_wrapper<real, Accessor>(const_cast<Accessor &>(*this), x_cb, parity);

   }


   __device__ __host__ inline void loadGhost(complex v[length / 2], int x, int dim, int dir, int parity = 0) const

   {

     for (int s=0; s<Ns; s++) {

       for (int c=0; c<Nc; c++) {

         v[s * Nc + c] = complex(ghost[2 * dim + dir][(((parity * faceVolumeCB[dim] + x) * Nc + c) * Ns + s) * 2 + 0],

                                 ghost[2 * dim + dir][(((parity * faceVolumeCB[dim] + x) * Nc + c) * Ns + s) * 2 + 1]);

       }

     }

   }


   __device__ __host__ inline void saveGhost(const complex v[length / 2], int x, int dim, int dir, int parity = 0)

   {

     for (int s=0; s<Ns; s++) {

       for (int c=0; c<Nc; c++) {

         ghost[2 * dim + dir][(((parity * faceVolumeCB[dim] + x) * Nc + c) * Ns + s) * 2 + 0] = v[s * Nc + c].real();

         ghost[2 * dim + dir][(((parity * faceVolumeCB[dim] + x) * Nc + c) * Ns + s) * 2 + 1] = v[s * Nc + c].imag();

       }

     }

   }


   size_t Bytes() const { return nParity * volumeCB * Nc * Ns * 2 * sizeof(Float); }

       };


     template <typename Float, int Ns, int Nc>

       struct SpaceSpinorColorOrder {

       using Accessor = SpaceSpinorColorOrder<Float, Ns, Nc>;

       using real = typename mapper<Float>::type;

       using complex = complex<real>;

       static const int length = 2 * Ns * Nc;

       Float *field;

       size_t offset;

       Float *ghost[8];

       int volumeCB;

       int faceVolumeCB[4];

       int stride;

       int nParity;

       SpaceSpinorColorOrder(const ColorSpinorField &a, int nFace=1, Float *field_=0, float *dummy=0, Float **ghost_=0)

       : field(field_ ? field_ : (Float*)a.V()), offset(a.Bytes()/(2*sizeof(Float))),

     volumeCB(a.VolumeCB()), stride(a.Stride()), nParity(a.SiteSubset())

   {

     if (volumeCB != stride) errorQuda("Stride must equal volume for this field order");

     for (int i=0; i<4; i++) {

       ghost[2*i] = ghost_ ? ghost_[2*i] : 0;

       ghost[2*i+1] = ghost_ ? ghost_[2*i+1] : 0;

       faceVolumeCB[i] = a.SurfaceCB(i)*nFace;

     }

   }


   __device__ __host__ inline void load(complex v[length / 2], int x, int parity = 0) const

   {

 #if defined( __CUDA_ARCH__) && !defined(DISABLE_TROVE)

     typedef S<Float,length> structure;

     trove::coalesced_ptr<structure> field_((structure*)field);

     structure v_ = field_[parity*volumeCB + x];

     for (int s=0; s<Ns; s++) {

       for (int c = 0; c < Nc; c++) { v[s * Nc + c] = complex(v_.v[(s * Nc + c) * 2 + 0], v_.v[(s * Nc + c) * 2 + 1]); }

     }

 #else

     for (int s=0; s<Ns; s++) {

       for (int c=0; c<Nc; c++) {

         v[s * Nc + c] = complex(field[parity * offset + ((x * Ns + s) * Nc + c) * 2 + 0],

                                 field[parity * offset + ((x * Ns + s) * Nc + c) * 2 + 1]);

       }

     }

 #endif

   }


   __device__ __host__ inline void save(const complex v[length / 2], int x, int parity = 0)

   {

 #if defined( __CUDA_ARCH__) && !defined(DISABLE_TROVE)

     typedef S<Float,length> structure;

     trove::coalesced_ptr<structure> field_((structure*)field);

     structure v_;

     for (int s=0; s<Ns; s++) {

       for (int c=0; c<Nc; c++) {

         v_.v[(s * Nc + c) * 2 + 0] = v[s * Nc + c].real();

         v_.v[(s * Nc + c) * 2 + 1] = v[s * Nc + c].imag();

       }

     }

     field_[parity*volumeCB + x] = v_;

 #else

     for (int s=0; s<Ns; s++) {

       for (int c=0; c<Nc; c++) {

         field[parity * offset + ((x * Ns + s) * Nc + c) * 2 + 0] = v[s * Nc + c].real();

         field[parity * offset + ((x * Ns + s) * Nc + c) * 2 + 1] = v[s * Nc + c].imag();

       }

     }

 #endif

   }


   __device__ __host__ inline colorspinor_wrapper<real, Accessor> operator()(int x_cb, int parity)

   {

     return colorspinor_wrapper<real, Accessor>(*this, x_cb, parity);

   }


   __device__ __host__ inline const colorspinor_wrapper<real, Accessor> operator()(int x_cb, int parity) const

   {

     return colorspinor_wrapper<real, Accessor>(const_cast<Accessor &>(*this), x_cb, parity);

   }


   __device__ __host__ inline void loadGhost(complex v[length / 2], int x, int dim, int dir, int parity = 0) const

   {

     for (int s=0; s<Ns; s++) {

       for (int c=0; c<Nc; c++) {

         v[s * Nc + c] = complex(ghost[2 * dim + dir][(((parity * faceVolumeCB[dim] + x) * Ns + s) * Nc + c) * 2 + 0],

                                 ghost[2 * dim + dir][(((parity * faceVolumeCB[dim] + x) * Ns + s) * Nc + c) * 2 + 1]);

       }

     }

   }


   __device__ __host__ inline void saveGhost(const complex v[length / 2], int x, int dim, int dir, int parity = 0)

   {

     for (int s=0; s<Ns; s++) {

       for (int c=0; c<Nc; c++) {

         ghost[2 * dim + dir][(((parity * faceVolumeCB[dim] + x) * Ns + s) * Nc + c) * 2 + 0] = v[s * Nc + c].real();

         ghost[2 * dim + dir][(((parity * faceVolumeCB[dim] + x) * Ns + s) * Nc + c) * 2 + 1] = v[s * Nc + c].imag();

       }

     }

   }


   size_t Bytes() const { return nParity * volumeCB * Nc * Ns * 2 * sizeof(Float); }

       };


     // custom accessor for TIFR z-halo padded arrays

     template <typename Float, int Ns, int Nc>

       struct PaddedSpaceSpinorColorOrder {

       using Accessor = PaddedSpaceSpinorColorOrder<Float, Ns, Nc>;

       using real = typename mapper<Float>::type;

       using complex = complex<real>;

       static const int length = 2 * Ns * Nc;

       Float *field;

       size_t offset;

       Float *ghost[8];

       int volumeCB;

       int exVolumeCB;

       int faceVolumeCB[4];

       int stride;

       int nParity;

       int dim[4];   // full field dimensions

       int exDim[4]; // full field dimensions

       PaddedSpaceSpinorColorOrder(const ColorSpinorField &a, int nFace=1, Float *field_=0, float *dummy=0, Float **ghost_=0)

       : field(field_ ? field_ : (Float*)a.V()),

     volumeCB(a.VolumeCB()), exVolumeCB(1), stride(a.Stride()), nParity(a.SiteSubset()),

     dim{ a.X(0), a.X(1), a.X(2), a.X(3)}, exDim{ a.X(0), a.X(1), a.X(2) + 4, a.X(3)}

   {

     if (volumeCB != stride) errorQuda("Stride must equal volume for this field order");

     for (int i=0; i<4; i++) {

       ghost[2*i] = ghost_ ? ghost_[2*i] : 0;

       ghost[2*i+1] = ghost_ ? ghost_[2*i+1] : 0;

       faceVolumeCB[i] = a.SurfaceCB(i)*nFace;

       exVolumeCB *= exDim[i];

     }

     exVolumeCB /= nParity;

     dim[0] *= (nParity == 1) ? 2 : 1; // need to full dimensions

     exDim[0] *= (nParity == 1) ? 2 : 1; // need to full dimensions


     offset = exVolumeCB*Ns*Nc*2; // compute manually since Bytes is likely wrong due to z-padding

   }


   __device__ __host__ int getPaddedIndex(int x_cb, int parity) const {

     // find coordinates

     int coord[4];

     getCoords(coord, x_cb, dim, parity);


     // get z-extended index

     coord[2] += 2; // offset for halo

     return linkIndex(coord, exDim);

   }


   __device__ __host__ inline void load(complex v[length / 2], int x, int parity = 0) const

   {

     int y = getPaddedIndex(x, parity);


 #if defined( __CUDA_ARCH__) && !defined(DISABLE_TROVE)

     typedef S<Float,length> structure;

     trove::coalesced_ptr<structure> field_((structure*)field);

     structure v_ = field_[parity*exVolumeCB + y];

     for (int s=0; s<Ns; s++) {

       for (int c = 0; c < Nc; c++) { v[s * Nc + c] = complex(v_.v[(s * Nc + c) * 2 + 0], v_.v[(s * Nc + c) * 2 + 1]); }

     }

 #else

     for (int s=0; s<Ns; s++) {

       for (int c=0; c<Nc; c++) {

         v[s * Nc + c] = complex(field[parity * offset + ((y * Ns + s) * Nc + c) * 2 + 0],

                                 field[parity * offset + ((y * Ns + s) * Nc + c) * 2 + 1]);

       }

     }

 #endif

   }


   __device__ __host__ inline void save(const complex v[length / 2], int x, int parity = 0)

   {

     int y = getPaddedIndex(x, parity);


 #if defined( __CUDA_ARCH__) && !defined(DISABLE_TROVE)

     typedef S<Float,length> structure;

     trove::coalesced_ptr<structure> field_((structure*)field);

     structure v_;

     for (int s=0; s<Ns; s++) {

       for (int c=0; c<Nc; c++) {

         v_.v[(s * Nc + c) * 2 + 0] = v[s * Nc + c].real();

         v_.v[(s * Nc + c) * 2 + 1] = v[s * Nc + c].imag();

       }

     }

     field_[parity*exVolumeCB + y] = v_;

 #else

     for (int s=0; s<Ns; s++) {

       for (int c=0; c<Nc; c++) {

         field[parity * offset + ((y * Ns + s) * Nc + c) * 2 + 0] = v[s * Nc + c].real();

         field[parity * offset + ((y * Ns + s) * Nc + c) * 2 + 1] = v[s * Nc + c].imag();

       }

     }

 #endif

   }


   __device__ __host__ inline colorspinor_wrapper<real, Accessor> operator()(int x_cb, int parity)

   {

     return colorspinor_wrapper<real, Accessor>(*this, x_cb, parity);

   }


   __device__ __host__ inline const colorspinor_wrapper<real, Accessor> operator()(int x_cb, int parity) const

   {

     return colorspinor_wrapper<real, Accessor>(const_cast<Accessor &>(*this), x_cb, parity);

   }


   __device__ __host__ inline void loadGhost(complex v[length / 2], int x, int dim, int dir, int parity = 0) const

   {

     for (int s=0; s<Ns; s++) {

       for (int c=0; c<Nc; c++) {

         v[s * Nc + c] = complex(ghost[2 * dim + dir][(((parity * faceVolumeCB[dim] + x) * Ns + s) * Nc + c) * 2 + 0],

                                 ghost[2 * dim + dir][(((parity * faceVolumeCB[dim] + x) * Ns + s) * Nc + c) * 2 + 1]);

       }

     }

   }


   __device__ __host__ inline void saveGhost(const complex v[length / 2], int x, int dim, int dir, int parity = 0)

   {

     for (int s=0; s<Ns; s++) {

       for (int c=0; c<Nc; c++) {

         ghost[2 * dim + dir][(((parity * faceVolumeCB[dim] + x) * Ns + s) * Nc + c) * 2 + 0] = v[s * Nc + c].real();

         ghost[2 * dim + dir][(((parity * faceVolumeCB[dim] + x) * Ns + s) * Nc + c) * 2 + 1] = v[s * Nc + c].imag();

       }

     }

   }


   size_t Bytes() const { return nParity * volumeCB * Nc * Ns * 2 * sizeof(Float); }

       };


     template <typename Float, int Ns, int Nc>

       struct QDPJITDiracOrder {

       using Accessor = QDPJITDiracOrder<Float, Ns, Nc>;

       using real = typename mapper<Float>::type;

       using complex = complex<real>;

       Float *field;

       int volumeCB;

       int stride;

       int nParity;

       QDPJITDiracOrder(const ColorSpinorField &a, int nFace=1, Float *field_=0)

       : field(field_ ? field_ : (Float*)a.V()), volumeCB(a.VolumeCB()), stride(a.Stride()), nParity(a.SiteSubset())

       {

         if (volumeCB != stride) errorQuda("Stride must equal volume for this field order");

       }


   __device__ __host__ inline void load(complex v[Ns * Nc], int x, int parity = 0) const

   {

     for (int s=0; s<Ns; s++) {

       for (int c=0; c<Nc; c++) {

         v[s * Nc + c] = complex(field[(((0 * Nc + c) * Ns + s) * 2 + (1 - parity)) * volumeCB + x],

                                 field[(((1 * Nc + c) * Ns + s) * 2 + (1 - parity)) * volumeCB + x]);

       }

     }

   }


   __device__ __host__ inline void save(const complex v[Ns * Nc], int x, int parity = 0)

   {

     for (int s=0; s<Ns; s++) {

       for (int c=0; c<Nc; c++) {

         field[(((0 * Nc + c) * Ns + s) * 2 + (1 - parity)) * volumeCB + x] = v[s * Nc + c].real();

         field[(((1 * Nc + c) * Ns + s) * 2 + (1 - parity)) * volumeCB + x] = v[s * Nc + c].imag();

       }

     }

   }


   __device__ __host__ inline colorspinor_wrapper<real, Accessor> operator()(int x_cb, int parity)

   {

     return colorspinor_wrapper<real, Accessor>(*this, x_cb, parity);

   }


   __device__ __host__ inline const colorspinor_wrapper<real, Accessor> operator()(int x_cb, int parity) const

   {

     return colorspinor_wrapper<real, Accessor>(const_cast<Accessor &>(*this), x_cb, parity);

   }


   size_t Bytes() const { return nParity * volumeCB * Nc * Ns * 2 * sizeof(Float); }

       };


   } // namespace colorspinor


   template <typename otherFloat, typename storeFloat>

     __device__ __host__ inline void complex<double>::operator=(const colorspinor::fieldorder_wrapper<otherFloat,storeFloat> &a) {

     x = a.real();

     y = a.imag();

   }


   template <typename otherFloat, typename storeFloat>

     __device__ __host__ inline void complex<float>::operator=(const colorspinor::fieldorder_wrapper<otherFloat,storeFloat> &a) {

     x = a.real();

     y = a.imag();

   }


   template <typename otherFloat, typename storeFloat>

     __device__ __host__ inline complex<double>::complex(const colorspinor::fieldorder_wrapper<otherFloat,storeFloat> &a) {

     x = a.real();

     y = a.imag();

   }


   template <typename otherFloat, typename storeFloat>

     __device__ __host__ inline complex<float>::complex(const colorspinor::fieldorder_wrapper<otherFloat,storeFloat> &a) {

     x = a.real();

     y = a.imag();

   }


   // Use traits to reduce the template explosion

   template <typename T, int Ns, int Nc, bool project = false, bool huge_alloc = false> struct colorspinor_mapper {

   };


   // double precision

   template <int Nc, bool huge_alloc> struct colorspinor_mapper<double, 4, Nc, false, huge_alloc> {

     typedef colorspinor::FloatNOrder<double, 4, Nc, 2, false, huge_alloc> type;

   };

   template <int Nc, bool huge_alloc> struct colorspinor_mapper<double, 4, Nc, true, huge_alloc> {

     typedef colorspinor::FloatNOrder<double, 4, Nc, 2, true, huge_alloc> type;

   };

   template <int Nc, bool huge_alloc> struct colorspinor_mapper<double, 2, Nc, false, huge_alloc> {

     typedef colorspinor::FloatNOrder<double, 2, Nc, 2, false, huge_alloc> type;

   };

   template <int Nc, bool huge_alloc> struct colorspinor_mapper<double, 1, Nc, false, huge_alloc> {

     typedef colorspinor::FloatNOrder<double, 1, Nc, 2, false, huge_alloc> type;

   };


   // single precision

   template <int Nc, bool huge_alloc> struct colorspinor_mapper<float, 4, Nc, false, huge_alloc> {

     typedef colorspinor::FloatNOrder<float, 4, Nc, 4, false, huge_alloc> type;

   };

   template <int Nc, bool huge_alloc> struct colorspinor_mapper<float, 4, Nc, true, huge_alloc> {

     typedef colorspinor::FloatNOrder<float, 4, Nc, 4, true, huge_alloc> type;

   };

   template <int Nc, bool huge_alloc> struct colorspinor_mapper<float, 2, Nc, false, huge_alloc> {

     typedef colorspinor::FloatNOrder<float, 2, Nc, 2, false, huge_alloc> type;

   };

   template <int Nc, bool huge_alloc> struct colorspinor_mapper<float, 1, Nc, false, huge_alloc> {

     typedef colorspinor::FloatNOrder<float, 1, Nc, 2, false, huge_alloc> type;

   };


 #ifdef FLOAT8

 #define N8 8

 #else

 #define N8 4

 #endif


   // half precision

   template <int Nc, bool huge_alloc> struct colorspinor_mapper<short, 4, Nc, false, huge_alloc> {

     typedef colorspinor::FloatNOrder<short, 4, Nc, N8, false, huge_alloc> type;

   };

   template <int Nc, bool huge_alloc> struct colorspinor_mapper<short, 4, Nc, true, huge_alloc> {

     typedef colorspinor::FloatNOrder<short, 4, Nc, N8, true, huge_alloc> type;

   };

   template <int Nc, bool huge_alloc> struct colorspinor_mapper<short, 2, Nc, false, huge_alloc> {

     typedef colorspinor::FloatNOrder<short, 2, Nc, 2, false, huge_alloc> type;

   };

   template <int Nc, bool huge_alloc> struct colorspinor_mapper<short, 1, Nc, false, huge_alloc> {

     typedef colorspinor::FloatNOrder<short, 1, Nc, 2, false, huge_alloc> type;

   };


   // quarter precision

   template <int Nc, bool huge_alloc> struct colorspinor_mapper<int8_t, 4, Nc, false, huge_alloc> {

     typedef colorspinor::FloatNOrder<int8_t, 4, Nc, N8, false, huge_alloc> type;

   };

   template <int Nc, bool huge_alloc> struct colorspinor_mapper<int8_t, 4, Nc, true, huge_alloc> {

     typedef colorspinor::FloatNOrder<int8_t, 4, Nc, N8, true, huge_alloc> type;

   };

   template <int Nc, bool huge_alloc> struct colorspinor_mapper<int8_t, 2, Nc, false, huge_alloc> {

     typedef colorspinor::FloatNOrder<int8_t, 2, Nc, 2, false, huge_alloc> type;

   };

   template <int Nc, bool huge_alloc> struct colorspinor_mapper<int8_t, 1, Nc, false, huge_alloc> {

     typedef colorspinor::FloatNOrder<int8_t, 1, Nc, 2, false, huge_alloc> type;

   };


 #undef N8


   template<typename T, QudaFieldOrder order, int Ns, int Nc> struct colorspinor_order_mapper { };

   template<typename T, int Ns, int Nc> struct colorspinor_order_mapper<T,QUDA_SPACE_COLOR_SPIN_FIELD_ORDER,Ns,Nc> { typedef colorspinor::SpaceColorSpinorOrder<T, Ns, Nc> type; };

   template<typename T, int Ns, int Nc> struct colorspinor_order_mapper<T,QUDA_SPACE_SPIN_COLOR_FIELD_ORDER,Ns,Nc> { typedef colorspinor::SpaceSpinorColorOrder<T, Ns, Nc> type; };

   template<typename T, int Ns, int Nc> struct colorspinor_order_mapper<T,QUDA_FLOAT2_FIELD_ORDER,Ns,Nc> { typedef colorspinor::FloatNOrder<T, Ns, Nc, 2> type; };


 } // namespace quda


 #endif // _COLOR_SPINOR_ORDER_H

quda::ColorSpinorField
Definition: color_spinor_field.h:379

quda::ColorSpinorField::Ghost
void * Ghost(const int i)
Definition: color_spinor_field.cpp:629

quda::ColorSpinorField::Norm
void * Norm()
Definition: color_spinor_field.h:502

quda::ColorSpinorField::NormBytes
size_t NormBytes() const
Definition: color_spinor_field.h:493

quda::ColorSpinorField::X
const int * X() const
Definition: color_spinor_field.h:484

quda::LatticeField::SurfaceCB
const int * SurfaceCB() const
Definition: lattice_field.h:536

quda::LatticeField::Scale
double Scale() const
Definition: lattice_field.h:577

quda::colorspinor::FieldOrderCB
Definition: color_spinor_field_order.h:590

quda::colorspinor::FieldOrderCB::v
complex< storeFloat > * v
Definition: color_spinor_field_order.h:598

quda::colorspinor::FieldOrderCB::Nparity
__device__ __host__ int Nparity() const
Definition: color_spinor_field_order.h:935

quda::colorspinor::FieldOrderCB::scale
Float scale
Definition: color_spinor_field_order.h:603

quda::colorspinor::FieldOrderCB::FieldOrderCB
FieldOrderCB(const ColorSpinorField &field, int nFace=1, void *v_=0, void **ghost_=0)
Definition: color_spinor_field_order.h:632

quda::colorspinor::FieldOrderCB::wrap_ghost
__device__ __host__ const auto wrap_ghost(int dim, int dir, int parity, int x_cb, int s) const
This and the following method (eventually) creates a fieldorder_wrapper object whose pointer points t...
Definition: color_spinor_field_order.h:852

quda::colorspinor::FieldOrderCB::norm2
__host__ double norm2(bool global=true) const
Definition: color_spinor_field_order.h:951

quda::colorspinor::FieldOrderCB::nDim
const int nDim
Definition: color_spinor_field_order.h:614

quda::colorspinor::FieldOrderCB::Ghost
__device__ __host__ const complex< Float > Ghost(int dim, int dir, int parity, int x_cb, int s, int c, int n=0) const
Definition: color_spinor_field_order.h:796

quda::colorspinor::FieldOrderCB::nParity
const int nParity
Definition: color_spinor_field_order.h:617

quda::colorspinor::FieldOrderCB::ghost
complex< ghostFloat > * ghost[8]
Definition: color_spinor_field_order.h:610

quda::colorspinor::FieldOrderCB::Ghost
__device__ __host__ fieldorder_wrapper< Float, ghostFloat > Ghost(int dim, int dir, int parity, int x_cb, int s, int c, int n=0, Float max=0)
Definition: color_spinor_field_order.h:832

quda::colorspinor::FieldOrderCB::location
const QudaFieldLocation location
Definition: color_spinor_field_order.h:618

quda::colorspinor::FieldOrderCB::norm
norm_type * norm
Definition: color_spinor_field_order.h:602

quda::colorspinor::FieldOrderCB::ghost_scale
Float ghost_scale
Definition: color_spinor_field_order.h:620

quda::colorspinor::FieldOrderCB::ghostAccessor
const GhostAccessorCB< ghostFloat, nSpin, nColor, nVec, order > ghostAccessor
Definition: color_spinor_field_order.h:619

quda::colorspinor::FieldOrderCB::resetScale
void resetScale(Float max)
Definition: color_spinor_field_order.h:676

quda::colorspinor::FieldOrderCB::x
int x[QUDA_MAX_DIM]
Definition: color_spinor_field_order.h:612

quda::colorspinor::FieldOrderCB::GammaBasis
__device__ __host__ QudaGammaBasis GammaBasis() const
Definition: color_spinor_field_order.h:944

quda::colorspinor::FieldOrderCB::abs_max
__host__ double abs_max(bool global=true) const
Definition: color_spinor_field_order.h:964

quda::colorspinor::FieldOrderCB::ghost_scale_inv
Float ghost_scale_inv
Definition: color_spinor_field_order.h:621

quda::colorspinor::FieldOrderCB::Ncolor
__device__ __host__ int Ncolor() const
Definition: color_spinor_field_order.h:925

quda::colorspinor::FieldOrderCB::wrap_ghost
__device__ __host__ auto wrap_ghost(int dim, int dir, int parity, int x_cb, int s)
the non-const wrap_ghost method
Definition: color_spinor_field_order.h:861

quda::colorspinor::FieldOrderCB::operator()
__device__ __host__ const complex< Float > operator()(int parity, int x_cb, int s, int c, int n=0) const
Definition: color_spinor_field_order.h:730

quda::colorspinor::FieldOrderCB::VolumeCB
__device__ __host__ int VolumeCB() const
Definition: color_spinor_field_order.h:938

quda::colorspinor::FieldOrderCB::norm_offset
int norm_offset
Definition: color_spinor_field_order.h:607

quda::colorspinor::FieldOrderCB::X
__device__ __host__ int X(int d) const
Definition: color_spinor_field_order.h:918

quda::colorspinor::FieldOrderCB::operator()
__device__ __host__ fieldorder_wrapper< Float, storeFloat > operator()(int parity, int x_cb, int s, int c, int n=0)
Definition: color_spinor_field_order.h:762

quda::colorspinor::FieldOrderCB::load
__device__ __host__ void load(complex< Float > out[nSpinBlock *nColor *nVec], int parity, int x_cb, int chi) const
Definition: color_spinor_field_order.h:701

quda::colorspinor::FieldOrderCB::fixed
static constexpr bool fixed
Definition: color_spinor_field_order.h:623

quda::colorspinor::FieldOrderCB::LatticeIndex
__device__ __host__ void LatticeIndex(int y[QUDA_MAX_DIM], int i) const
Definition: color_spinor_field_order.h:873

quda::colorspinor::FieldOrderCB::wrap
__device__ __host__ auto wrap(int parity, int x_cb, int s)
Definition: color_spinor_field_order.h:781

quda::colorspinor::FieldOrderCB::ghost_fixed
static constexpr bool ghost_fixed
Definition: color_spinor_field_order.h:624

quda::colorspinor::FieldOrderCB::X
__device__ __host__ const int * X() const
Definition: color_spinor_field_order.h:921

quda::colorspinor::FieldOrderCB::ghost_norm
norm_type * ghost_norm[8]
Definition: color_spinor_field_order.h:611

quda::colorspinor::FieldOrderCB::Nvec
__device__ __host__ int Nvec() const
Definition: color_spinor_field_order.h:931

quda::colorspinor::FieldOrderCB::supports_ghost_zone
static constexpr bool supports_ghost_zone
Definition: color_spinor_field_order.h:595

quda::colorspinor::FieldOrderCB::accessor
const AccessorCB< storeFloat, nSpin, nColor, nVec, order > accessor
Definition: color_spinor_field_order.h:599

quda::colorspinor::FieldOrderCB::wrap
__device__ __host__ const auto wrap(int parity, int x_cb, int s) const
This and the following method (eventually) creates a fieldorder_wrapper object whose pointer points t...
Definition: color_spinor_field_order.h:773

quda::colorspinor::FieldOrderCB::Bytes
size_t Bytes() const
Definition: color_spinor_field_order.h:972

quda::colorspinor::FieldOrderCB::Ndim
__device__ __host__ int Ndim() const
Definition: color_spinor_field_order.h:941

quda::colorspinor::FieldOrderCB::Nspin
__device__ __host__ int Nspin() const
Definition: color_spinor_field_order.h:928

quda::colorspinor::FieldOrderCB::OffsetIndex
__device__ __host__ void OffsetIndex(int &i, int y[QUDA_MAX_DIM]) const
Definition: color_spinor_field_order.h:896

quda::colorspinor::FieldOrderCB::resetGhost
void resetGhost(const ColorSpinorField &a, void *const *ghost_) const
Definition: color_spinor_field_order.h:661

quda::colorspinor::FieldOrderCB::siteSubset
const int siteSubset
Definition: color_spinor_field_order.h:616

quda::colorspinor::FieldOrderCB::block_float_ghost
static constexpr bool block_float_ghost
Definition: color_spinor_field_order.h:625

quda::colorspinor::FieldOrderCB::gammaBasis
const QudaGammaBasis gammaBasis
Definition: color_spinor_field_order.h:615

quda::colorspinor::FieldOrderCB::scale_inv
Float scale_inv
Definition: color_spinor_field_order.h:606

quda::colorspinor::FieldOrderCB::volumeCB
const int volumeCB
Definition: color_spinor_field_order.h:613

color_spinor.h

color_spinor_field.h

comm_dim_partitioned
int comm_dim_partitioned(int dim)
Definition: communicator_stack.cpp:74

comm_allreduce_max
void comm_allreduce_max(double *data)
Definition: communicator_stack.cpp:173

comm_allreduce
void comm_allreduce(double *data)
Definition: communicator_stack.cpp:171

dim
std::array< int, 4 > dim
Definition: command_line_params.cpp:34

complex_quda.h

V
int V
Definition: host_utils.cpp:37

convert.h

parity
QudaParity parity
Definition: covdev_test.cpp:40

tmp
cudaColorSpinorField * tmp
Definition: covdev_test.cpp:34

nColor
const int nColor
Definition: covdev_test.cpp:44

QUDA_FULL_SITE_SUBSET
@ QUDA_FULL_SITE_SUBSET
Definition: enum_quda.h:333

QudaFieldOrder
enum QudaFieldOrder_s QudaFieldOrder

QudaFieldLocation
enum QudaFieldLocation_s QudaFieldLocation

QUDA_FLOAT2_FIELD_ORDER
@ QUDA_FLOAT2_FIELD_ORDER
Definition: enum_quda.h:348

QUDA_SPACE_COLOR_SPIN_FIELD_ORDER
@ QUDA_SPACE_COLOR_SPIN_FIELD_ORDER
Definition: enum_quda.h:352

QUDA_FLOAT4_FIELD_ORDER
@ QUDA_FLOAT4_FIELD_ORDER
Definition: enum_quda.h:349

QUDA_FLOAT8_FIELD_ORDER
@ QUDA_FLOAT8_FIELD_ORDER
Definition: enum_quda.h:350

QUDA_SPACE_SPIN_COLOR_FIELD_ORDER
@ QUDA_SPACE_SPIN_COLOR_FIELD_ORDER
Definition: enum_quda.h:351

QudaGammaBasis
enum QudaGammaBasis_s QudaGammaBasis

length
int length[]
Definition: gauge_force_test.cpp:18

__ldg
__device__ __forceinline__ T __ldg(const T *ptr)
Definition: ldg.h:44

safe_malloc
#define safe_malloc(size)
Definition: malloc_quda.h:106

host_free
#define host_free(ptr)
Definition: malloc_quda.h:115

quda::colorspinor::match< int, int >
__host__ constexpr __device__ bool match< int, int >()
Definition: color_spinor_field_order.h:450

quda::colorspinor::match
__host__ constexpr __device__ bool match()
Definition: color_spinor_field_order.h:448

quda::colorspinor::fixed_point< float, short >
__host__ constexpr __device__ bool fixed_point< float, short >()
Definition: color_spinor_field_order.h:445

quda::colorspinor::fixed_point< float, int8_t >
__host__ constexpr __device__ bool fixed_point< float, int8_t >()
Definition: color_spinor_field_order.h:444

quda::colorspinor::indexFloatN
__device__ __host__ int indexFloatN(int x_cb, int s, int c, int v, int stride)
Definition: color_spinor_field_order.h:289

quda::colorspinor::fixed_point< float, int >
__host__ constexpr __device__ bool fixed_point< float, int >()
Definition: color_spinor_field_order.h:446

quda::colorspinor::match< int8_t, int8_t >
__host__ constexpr __device__ bool match< int8_t, int8_t >()
Definition: color_spinor_field_order.h:449

quda::colorspinor::match< short, short >
__host__ constexpr __device__ bool match< short, short >()
Definition: color_spinor_field_order.h:451

quda::colorspinor::fixed_point
__host__ constexpr __device__ bool fixed_point()
Definition: color_spinor_field_order.h:443

quda
Definition: blas_lapack.h:24

quda::transform_reduce
void transform_reduce(Arg &arg)
Definition: transform_reduce.h:58

quda::vector_store
__device__ __host__ void vector_store(void *ptr, int idx, const VectorType &value)
Definition: register_traits.h:520

quda::norm
__host__ __device__ ValueType norm(const complex< ValueType > &z)
Returns the magnitude of z squared.
Definition: complex_quda.h:1088

quda::abs
__host__ __device__ ValueType abs(ValueType x)
Definition: complex_quda.h:125

testing::internal::Float
FloatingPoint< float > Float
Definition: gtest-internal.h:396

qudaMemcpy
#define qudaMemcpy(dst, src, count, kind)
Definition: quda_api.h:204

QUDA_MAX_DIM
#define QUDA_MAX_DIM
Maximum number of dimensions supported by QUDA. In practice, no routines make use of more than 5.
Definition: quda_constants.h:17

register_traits.h
Provides precision abstractions and defines the register precision given the storage precision using ...

quda::AllocType
Definition: register_traits.h:606

quda::ColorSpinor::operator=
__device__ __host__ ColorSpinor< Float, Nc, Ns > & operator=(const ColorSpinor< Float, Nc, Ns > &a)
Definition: color_spinor.h:40

quda::ColorSpinor::ColorSpinor
__device__ __host__ ColorSpinor()
Definition: color_spinor.h:29

quda::VectorType
Definition: register_traits.h:442

quda::colorspinor::AccessorCB< Float, nSpin, nColor, nVec, QUDA_FLOAT2_FIELD_ORDER >::index
__device__ __host__ int index(int parity, int x_cb, int s, int c, int v) const
Definition: color_spinor_field_order.h:307

quda::colorspinor::AccessorCB< Float, nSpin, nColor, nVec, QUDA_FLOAT2_FIELD_ORDER >::AccessorCB
AccessorCB(const ColorSpinorField &field)
Definition: color_spinor_field_order.h:301

quda::colorspinor::AccessorCB< Float, nSpin, nColor, nVec, QUDA_FLOAT2_FIELD_ORDER >::offset_cb
const int offset_cb
Definition: color_spinor_field_order.h:300

quda::colorspinor::AccessorCB< Float, nSpin, nColor, nVec, QUDA_FLOAT2_FIELD_ORDER >::AccessorCB
AccessorCB()
Definition: color_spinor_field_order.h:306

quda::colorspinor::AccessorCB< Float, nSpin, nColor, nVec, QUDA_FLOAT2_FIELD_ORDER >::stride
const int stride
Definition: color_spinor_field_order.h:299

quda::colorspinor::AccessorCB< Float, nSpin, nColor, nVec, QUDA_FLOAT2_FIELD_ORDER >::load
__device__ __host__ void load(complex< Float > out[nSpinBlock *nColor *nVec], complex< Float > *in, int parity, int x_cb, int chi) const
Definition: color_spinor_field_order.h:313

quda::colorspinor::AccessorCB< Float, nSpin, nColor, nVec, QUDA_FLOAT8_FIELD_ORDER >::load
__device__ __host__ void load(complex< Float > out[nSpinBlock *nColor *nVec], complex< Float > *in, int parity, int x_cb, int chi) const
Definition: color_spinor_field_order.h:403

quda::colorspinor::AccessorCB< Float, nSpin, nColor, nVec, QUDA_FLOAT8_FIELD_ORDER >::offset_cb
const int offset_cb
Definition: color_spinor_field_order.h:390

quda::colorspinor::AccessorCB< Float, nSpin, nColor, nVec, QUDA_FLOAT8_FIELD_ORDER >::AccessorCB
AccessorCB(const ColorSpinorField &field)
Definition: color_spinor_field_order.h:391

quda::colorspinor::AccessorCB< Float, nSpin, nColor, nVec, QUDA_FLOAT8_FIELD_ORDER >::stride
const int stride
Definition: color_spinor_field_order.h:389

quda::colorspinor::AccessorCB< Float, nSpin, nColor, nVec, QUDA_FLOAT8_FIELD_ORDER >::AccessorCB
AccessorCB()
Definition: color_spinor_field_order.h:396

quda::colorspinor::AccessorCB< Float, nSpin, nColor, nVec, QUDA_FLOAT8_FIELD_ORDER >::index
__device__ __host__ int index(int parity, int x_cb, int s, int c, int v) const
Definition: color_spinor_field_order.h:397

quda::colorspinor::AccessorCB< Float, nSpin, nColor, nVec, QUDA_SPACE_SPIN_COLOR_FIELD_ORDER >::index
__device__ __host__ int index(int parity, int x_cb, int s, int c, int v) const
Definition: color_spinor_field_order.h:246

quda::colorspinor::AccessorCB< Float, nSpin, nColor, nVec, QUDA_SPACE_SPIN_COLOR_FIELD_ORDER >::offset_cb
const int offset_cb
Definition: color_spinor_field_order.h:243

quda::colorspinor::AccessorCB< Float, nSpin, nColor, nVec, QUDA_SPACE_SPIN_COLOR_FIELD_ORDER >::AccessorCB
AccessorCB(const ColorSpinorField &field)
Definition: color_spinor_field_order.h:244

quda::colorspinor::AccessorCB< Float, nSpin, nColor, nVec, QUDA_SPACE_SPIN_COLOR_FIELD_ORDER >::AccessorCB
AccessorCB()
Definition: color_spinor_field_order.h:245

quda::colorspinor::AccessorCB< Float, nSpin, nColor, nVec, QUDA_SPACE_SPIN_COLOR_FIELD_ORDER >::wrap_index
__device__ __host__ int wrap_index(int parity, int x_cb, int s) const
This and the following wrap_index method returns the index for the pointer that points to the start o...
Definition: color_spinor_field_order.h:259

quda::colorspinor::AccessorCB< Float, nSpin, nColor, nVec, QUDA_FLOAT4_FIELD_ORDER >::AccessorCB
AccessorCB(const ColorSpinorField &field)
Definition: color_spinor_field_order.h:346

quda::colorspinor::AccessorCB< Float, nSpin, nColor, nVec, QUDA_FLOAT4_FIELD_ORDER >::AccessorCB
AccessorCB()
Definition: color_spinor_field_order.h:351

quda::colorspinor::AccessorCB< Float, nSpin, nColor, nVec, QUDA_FLOAT4_FIELD_ORDER >::index
__device__ __host__ int index(int parity, int x_cb, int s, int c, int v) const
Definition: color_spinor_field_order.h:352

quda::colorspinor::AccessorCB< Float, nSpin, nColor, nVec, QUDA_FLOAT4_FIELD_ORDER >::offset_cb
const int offset_cb
Definition: color_spinor_field_order.h:345

quda::colorspinor::AccessorCB< Float, nSpin, nColor, nVec, QUDA_FLOAT4_FIELD_ORDER >::load
__device__ __host__ void load(complex< Float > out[nSpinBlock *nColor *nVec], complex< Float > *in, int parity, int x_cb, int chi) const
Definition: color_spinor_field_order.h:358

quda::colorspinor::AccessorCB< Float, nSpin, nColor, nVec, QUDA_FLOAT4_FIELD_ORDER >::stride
const int stride
Definition: color_spinor_field_order.h:344

quda::colorspinor::AccessorCB
Definition: color_spinor_field_order.h:228

quda::colorspinor::AccessorCB::AccessorCB
AccessorCB(const ColorSpinorField &)
Definition: color_spinor_field_order.h:229

quda::colorspinor::AccessorCB::AccessorCB
AccessorCB()
Definition: color_spinor_field_order.h:230

quda::colorspinor::AccessorCB::index
__device__ __host__ int index(int parity, int x_cb, int s, int c, int v) const
Definition: color_spinor_field_order.h:231

quda::colorspinor::FloatNOrder
Accessor routine for ColorSpinorFields in native field order.
Definition: color_spinor_field_order.h:988

quda::colorspinor::FloatNOrder::save
void save()
Backup the field to the host when tuning.
Definition: color_spinor_field_order.h:1228

quda::colorspinor::FloatNOrder::norm
norm_type * norm
Definition: color_spinor_field_order.h:1005

quda::colorspinor::FloatNOrder::load
void load()
Restore the field from the host after tuning.
Definition: color_spinor_field_order.h:1237

quda::colorspinor::FloatNOrder::stride
int stride
Definition: color_spinor_field_order.h:1010

quda::colorspinor::FloatNOrder::Ghost
__device__ __host__ const colorspinor_ghost_wrapper< real, Accessor > Ghost(int dim, int dir, int ghost_idx, int parity) const
This accessor routine returns a const colorspinor_ghost_wrapper to this object, allowing us to overlo...
Definition: color_spinor_field_order.h:1219

quda::colorspinor::FloatNOrder::loadGhost
__device__ __host__ void loadGhost(complex out[length_ghost/2], int x, int dim, int dir, int parity=0) const
Definition: color_spinor_field_order.h:1133

quda::colorspinor::FloatNOrder::AllocInt
typename AllocType< huge_alloc >::type AllocInt
Definition: color_spinor_field_order.h:1002

quda::colorspinor::FloatNOrder::Vector
typename VectorType< Float, N >::type Vector
Definition: color_spinor_field_order.h:1000

quda::colorspinor::FloatNOrder::M
static constexpr int M
Definition: color_spinor_field_order.h:993

quda::colorspinor::FloatNOrder::N
static constexpr int N
Definition: color_spinor_field_order.h:992

quda::colorspinor::FloatNOrder::FloatNOrder
FloatNOrder(const ColorSpinorField &a, int nFace=1, Float *field_=0, norm_type *norm_=0, Float **ghost_=0, bool override=false)
Definition: color_spinor_field_order.h:1017

quda::colorspinor::FloatNOrder::nParity
int nParity
Definition: color_spinor_field_order.h:1013

quda::colorspinor::FloatNOrder::length
static constexpr int length
Definition: color_spinor_field_order.h:990

quda::colorspinor::FloatNOrder::ghost
Float * ghost[8]
Definition: color_spinor_field_order.h:1011

quda::colorspinor::FloatNOrder::field
Float * field
Definition: color_spinor_field_order.h:1004

quda::colorspinor::FloatNOrder::faceVolumeCB
int faceVolumeCB[4]
Definition: color_spinor_field_order.h:1009

quda::colorspinor::FloatNOrder::complex
complex< real > complex
Definition: color_spinor_field_order.h:999

quda::colorspinor::FloatNOrder::Ghost
__device__ __host__ colorspinor_ghost_wrapper< real, Accessor > Ghost(int dim, int dir, int ghost_idx, int parity)
This accessor routine returns a colorspinor_ghost_wrapper to this object, allowing us to overload var...
Definition: color_spinor_field_order.h:1203

quda::colorspinor::FloatNOrder::backup_h
void * backup_h
Definition: color_spinor_field_order.h:1014

quda::colorspinor::FloatNOrder::volumeCB
int volumeCB
Definition: color_spinor_field_order.h:1008

quda::colorspinor::FloatNOrder::save
__device__ __host__ void save(const complex in[length/2], int x, int parity=0)
Definition: color_spinor_field_order.h:1065

quda::colorspinor::FloatNOrder::resetGhost
void resetGhost(const ColorSpinorField &a, void *const *ghost_) const
Definition: color_spinor_field_order.h:1033

quda::colorspinor::FloatNOrder::Bytes
size_t Bytes() const
Definition: color_spinor_field_order.h:1243

quda::colorspinor::FloatNOrder::operator()
__device__ __host__ const colorspinor_wrapper< real, Accessor > operator()(int x_cb, int parity) const
This accessor routine returns a const colorspinor_wrapper to this object, allowing us to overload var...
Definition: color_spinor_field_order.h:1128

quda::colorspinor::FloatNOrder::ghost_norm
norm_type * ghost_norm[8]
Definition: color_spinor_field_order.h:1012

quda::colorspinor::FloatNOrder::norm_offset
const AllocInt norm_offset
Definition: color_spinor_field_order.h:1007

quda::colorspinor::FloatNOrder::operator()
__device__ __host__ colorspinor_wrapper< real, Accessor > operator()(int x_cb, int parity)
This accessor routine returns a colorspinor_wrapper to this object, allowing us to overload various o...
Definition: color_spinor_field_order.h:1114

quda::colorspinor::FloatNOrder::norm_type
float norm_type
Definition: color_spinor_field_order.h:1003

quda::colorspinor::FloatNOrder::GhostVector
typename VectorType< Float, N_ghost >::type GhostVector
Definition: color_spinor_field_order.h:1001

quda::colorspinor::FloatNOrder::N_ghost
static constexpr int N_ghost
Definition: color_spinor_field_order.h:995

quda::colorspinor::FloatNOrder::length_ghost
static constexpr int length_ghost
Definition: color_spinor_field_order.h:991

quda::colorspinor::FloatNOrder::bytes
size_t bytes
host memory for backing up the field when tuning
Definition: color_spinor_field_order.h:1015

quda::colorspinor::FloatNOrder::load
__device__ __host__ void load(complex out[length/2], int x, int parity=0) const
Definition: color_spinor_field_order.h:1046

quda::colorspinor::FloatNOrder::real
typename mapper< Float >::type real
Definition: color_spinor_field_order.h:998

quda::colorspinor::FloatNOrder::offset
const AllocInt offset
Definition: color_spinor_field_order.h:1006

quda::colorspinor::FloatNOrder::saveGhost
__device__ __host__ void saveGhost(const complex in[length_ghost/2], int x, int dim, int dir, int parity=0) const
Definition: color_spinor_field_order.h:1151

quda::colorspinor::FloatNOrder::M_ghost
static constexpr int M_ghost
Definition: color_spinor_field_order.h:996

quda::colorspinor::GhostAccessorCB< Float, nSpin, nColor, nVec, QUDA_SPACE_SPIN_COLOR_FIELD_ORDER >::GhostAccessorCB
GhostAccessorCB()
Definition: color_spinor_field_order.h:275

quda::colorspinor::GhostAccessorCB< Float, nSpin, nColor, nVec, QUDA_SPACE_SPIN_COLOR_FIELD_ORDER >::wrap_index
__device__ __host__ int wrap_index(int dim, int dir, int parity, int x_cb, int s) const
This wrap_index method for ghost.
Definition: color_spinor_field_order.h:282

quda::colorspinor::GhostAccessorCB< Float, nSpin, nColor, nVec, QUDA_SPACE_SPIN_COLOR_FIELD_ORDER >::GhostAccessorCB
GhostAccessorCB(const ColorSpinorField &a, int nFace=1)
Definition: color_spinor_field_order.h:269

quda::colorspinor::GhostAccessorCB< Float, nSpin, nColor, nVec, QUDA_SPACE_SPIN_COLOR_FIELD_ORDER >::index
__device__ __host__ int index(int dim, int dir, int parity, int x_cb, int s, int c, int v) const
Definition: color_spinor_field_order.h:276

quda::colorspinor::GhostAccessorCB< Float, nSpin, nColor, nVec, QUDA_FLOAT4_FIELD_ORDER >::GhostAccessorCB
GhostAccessorCB(const ColorSpinorField &a, int nFace=1)
Definition: color_spinor_field_order.h:376

quda::colorspinor::GhostAccessorCB< Float, nSpin, nColor, nVec, QUDA_FLOAT4_FIELD_ORDER >::index
__device__ __host__ int index(int dim, int dir, int parity, int x_cb, int s, int c, int v) const
Definition: color_spinor_field_order.h:383

quda::colorspinor::GhostAccessorCB< Float, nSpin, nColor, nVec, QUDA_FLOAT4_FIELD_ORDER >::GhostAccessorCB
GhostAccessorCB()
Definition: color_spinor_field_order.h:382

quda::colorspinor::GhostAccessorCB< Float, nSpin, nColor, nVec, QUDA_FLOAT8_FIELD_ORDER >::GhostAccessorCB
GhostAccessorCB()
Definition: color_spinor_field_order.h:436

quda::colorspinor::GhostAccessorCB< Float, nSpin, nColor, nVec, QUDA_FLOAT8_FIELD_ORDER >::GhostAccessorCB
GhostAccessorCB(const ColorSpinorField &a, int nFace=1)
Definition: color_spinor_field_order.h:429

quda::colorspinor::GhostAccessorCB< Float, nSpin, nColor, nVec, QUDA_FLOAT8_FIELD_ORDER >::index
__device__ __host__ int index(int dim, int dir, int parity, int x_cb, int s, int c, int v) const
Definition: color_spinor_field_order.h:437

quda::colorspinor::GhostAccessorCB< Float, nSpin, nColor, nVec, QUDA_FLOAT2_FIELD_ORDER >::GhostAccessorCB
GhostAccessorCB()
Definition: color_spinor_field_order.h:337

quda::colorspinor::GhostAccessorCB< Float, nSpin, nColor, nVec, QUDA_FLOAT2_FIELD_ORDER >::GhostAccessorCB
GhostAccessorCB(const ColorSpinorField &a, int nFace=1)
Definition: color_spinor_field_order.h:331

quda::colorspinor::GhostAccessorCB< Float, nSpin, nColor, nVec, QUDA_FLOAT2_FIELD_ORDER >::index
__device__ __host__ int index(int dim, int dir, int parity, int x_cb, int s, int c, int v) const
Definition: color_spinor_field_order.h:338

quda::colorspinor::GhostAccessorCB
Definition: color_spinor_field_order.h:234

quda::colorspinor::GhostAccessorCB::GhostAccessorCB
GhostAccessorCB(const ColorSpinorField &)
Definition: color_spinor_field_order.h:235

quda::colorspinor::GhostAccessorCB::index
__device__ __host__ int index(int dim, int dir, int parity, int x_cb, int s, int c, int v) const
Definition: color_spinor_field_order.h:237

quda::colorspinor::GhostAccessorCB::GhostAccessorCB
GhostAccessorCB()
Definition: color_spinor_field_order.h:236

quda::colorspinor::PaddedSpaceSpinorColorOrder
Definition: color_spinor_field_order.h:1495

quda::colorspinor::PaddedSpaceSpinorColorOrder::nParity
int nParity
Definition: color_spinor_field_order.h:1507

quda::colorspinor::PaddedSpaceSpinorColorOrder::volumeCB
int volumeCB
Definition: color_spinor_field_order.h:1503

quda::colorspinor::PaddedSpaceSpinorColorOrder::Bytes
size_t Bytes() const
Definition: color_spinor_field_order.h:1637

quda::colorspinor::PaddedSpaceSpinorColorOrder::saveGhost
__device__ __host__ void saveGhost(const complex v[length/2], int x, int dim, int dir, int parity=0)
Definition: color_spinor_field_order.h:1627

quda::colorspinor::PaddedSpaceSpinorColorOrder::offset
size_t offset
Definition: color_spinor_field_order.h:1501

quda::colorspinor::PaddedSpaceSpinorColorOrder::getPaddedIndex
__device__ __host__ int getPaddedIndex(int x_cb, int parity) const
Compute the index into the padded field. Assumes that parity doesn't change from unpadded to padded.
Definition: color_spinor_field_order.h:1533

quda::colorspinor::PaddedSpaceSpinorColorOrder::length
static const int length
Definition: color_spinor_field_order.h:1499

quda::colorspinor::PaddedSpaceSpinorColorOrder::operator()
__device__ __host__ colorspinor_wrapper< real, Accessor > operator()(int x_cb, int parity)
This accessor routine returns a colorspinor_wrapper to this object, allowing us to overload various o...
Definition: color_spinor_field_order.h:1598

quda::colorspinor::PaddedSpaceSpinorColorOrder::dim
int dim[4]
Definition: color_spinor_field_order.h:1508

quda::colorspinor::PaddedSpaceSpinorColorOrder::field
Float * field
Definition: color_spinor_field_order.h:1500

quda::colorspinor::PaddedSpaceSpinorColorOrder::save
__device__ __host__ void save(const complex v[length/2], int x, int parity=0)
Definition: color_spinor_field_order.h:1564

quda::colorspinor::PaddedSpaceSpinorColorOrder::exVolumeCB
int exVolumeCB
Definition: color_spinor_field_order.h:1504

quda::colorspinor::PaddedSpaceSpinorColorOrder::real
typename mapper< Float >::type real
Definition: color_spinor_field_order.h:1497

quda::colorspinor::PaddedSpaceSpinorColorOrder::complex
complex< real > complex
Definition: color_spinor_field_order.h:1498

quda::colorspinor::PaddedSpaceSpinorColorOrder::PaddedSpaceSpinorColorOrder
PaddedSpaceSpinorColorOrder(const ColorSpinorField &a, int nFace=1, Float *field_=0, float *dummy=0, Float **ghost_=0)
Definition: color_spinor_field_order.h:1510

quda::colorspinor::PaddedSpaceSpinorColorOrder::operator()
__device__ __host__ const colorspinor_wrapper< real, Accessor > operator()(int x_cb, int parity) const
This accessor routine returns a const colorspinor_wrapper to this object, allowing us to overload var...
Definition: color_spinor_field_order.h:1612

quda::colorspinor::PaddedSpaceSpinorColorOrder::exDim
int exDim[4]
Definition: color_spinor_field_order.h:1509

quda::colorspinor::PaddedSpaceSpinorColorOrder::ghost
Float * ghost[8]
Definition: color_spinor_field_order.h:1502

quda::colorspinor::PaddedSpaceSpinorColorOrder::stride
int stride
Definition: color_spinor_field_order.h:1506

quda::colorspinor::PaddedSpaceSpinorColorOrder::faceVolumeCB
int faceVolumeCB[4]
Definition: color_spinor_field_order.h:1505

quda::colorspinor::PaddedSpaceSpinorColorOrder::loadGhost
__device__ __host__ void loadGhost(complex v[length/2], int x, int dim, int dir, int parity=0) const
Definition: color_spinor_field_order.h:1617

quda::colorspinor::PaddedSpaceSpinorColorOrder::load
__device__ __host__ void load(complex v[length/2], int x, int parity=0) const
Definition: color_spinor_field_order.h:1543

quda::colorspinor::QDPJITDiracOrder
Definition: color_spinor_field_order.h:1642

quda::colorspinor::QDPJITDiracOrder::QDPJITDiracOrder
QDPJITDiracOrder(const ColorSpinorField &a, int nFace=1, Float *field_=0)
Definition: color_spinor_field_order.h:1650

quda::colorspinor::QDPJITDiracOrder::load
__device__ __host__ void load(complex v[Ns *Nc], int x, int parity=0) const
Definition: color_spinor_field_order.h:1656

quda::colorspinor::QDPJITDiracOrder::operator()
__device__ __host__ colorspinor_wrapper< real, Accessor > operator()(int x_cb, int parity)
This accessor routine returns a colorspinor_wrapper to this object, allowing us to overload various o...
Definition: color_spinor_field_order.h:1685

quda::colorspinor::QDPJITDiracOrder::field
Float * field
Definition: color_spinor_field_order.h:1646

quda::colorspinor::QDPJITDiracOrder::operator()
__device__ __host__ const colorspinor_wrapper< real, Accessor > operator()(int x_cb, int parity) const
This accessor routine returns a const colorspinor_wrapper to this object, allowing us to overload var...
Definition: color_spinor_field_order.h:1699

quda::colorspinor::QDPJITDiracOrder::complex
complex< real > complex
Definition: color_spinor_field_order.h:1645

quda::colorspinor::QDPJITDiracOrder::save
__device__ __host__ void save(const complex v[Ns *Nc], int x, int parity=0)
Definition: color_spinor_field_order.h:1666

quda::colorspinor::QDPJITDiracOrder::nParity
int nParity
Definition: color_spinor_field_order.h:1649

quda::colorspinor::QDPJITDiracOrder::stride
int stride
Definition: color_spinor_field_order.h:1648

quda::colorspinor::QDPJITDiracOrder::real
typename mapper< Float >::type real
Definition: color_spinor_field_order.h:1644

quda::colorspinor::QDPJITDiracOrder::volumeCB
int volumeCB
Definition: color_spinor_field_order.h:1647

quda::colorspinor::QDPJITDiracOrder::Bytes
size_t Bytes() const
Definition: color_spinor_field_order.h:1704

quda::colorspinor::S
This is just a dummy structure we use for trove to define the required structure size.
Definition: color_spinor_field_order.h:1255

quda::colorspinor::S::v
real v[length]
Definition: color_spinor_field_order.h:1255

quda::colorspinor::SpaceColorSpinorOrder
Definition: color_spinor_field_order.h:1258

quda::colorspinor::SpaceColorSpinorOrder::SpaceColorSpinorOrder
SpaceColorSpinorOrder(const ColorSpinorField &a, int nFace=1, Float *field_=0, float *dummy=0, Float **ghost_=0)
Definition: color_spinor_field_order.h:1270

quda::colorspinor::SpaceColorSpinorOrder::load
__device__ __host__ void load(complex v[length/2], int x, int parity=0) const
Definition: color_spinor_field_order.h:1282

quda::colorspinor::SpaceColorSpinorOrder::faceVolumeCB
int faceVolumeCB[4]
Definition: color_spinor_field_order.h:1267

quda::colorspinor::SpaceColorSpinorOrder::operator()
__device__ __host__ colorspinor_wrapper< real, Accessor > operator()(int x_cb, int parity)
This accessor routine returns a colorspinor_wrapper to this object, allowing us to overload various o...
Definition: color_spinor_field_order.h:1333

quda::colorspinor::SpaceColorSpinorOrder::volumeCB
int volumeCB
Definition: color_spinor_field_order.h:1266

quda::colorspinor::SpaceColorSpinorOrder::complex
complex< real > complex
Definition: color_spinor_field_order.h:1261

quda::colorspinor::SpaceColorSpinorOrder::ghost
Float * ghost[8]
Definition: color_spinor_field_order.h:1265

quda::colorspinor::SpaceColorSpinorOrder::length
static const int length
Definition: color_spinor_field_order.h:1262

quda::colorspinor::SpaceColorSpinorOrder::field
Float * field
Definition: color_spinor_field_order.h:1263

quda::colorspinor::SpaceColorSpinorOrder::operator()
__device__ __host__ const colorspinor_wrapper< real, Accessor > operator()(int x_cb, int parity) const
This accessor routine returns a const colorspinor_wrapper to this object, allowing us to overload var...
Definition: color_spinor_field_order.h:1347

quda::colorspinor::SpaceColorSpinorOrder::loadGhost
__device__ __host__ void loadGhost(complex v[length/2], int x, int dim, int dir, int parity=0) const
Definition: color_spinor_field_order.h:1352

quda::colorspinor::SpaceColorSpinorOrder::Bytes
size_t Bytes() const
Definition: color_spinor_field_order.h:1372

quda::colorspinor::SpaceColorSpinorOrder::offset
size_t offset
Definition: color_spinor_field_order.h:1264

quda::colorspinor::SpaceColorSpinorOrder::stride
int stride
Definition: color_spinor_field_order.h:1268

quda::colorspinor::SpaceColorSpinorOrder::nParity
int nParity
Definition: color_spinor_field_order.h:1269

quda::colorspinor::SpaceColorSpinorOrder::saveGhost
__device__ __host__ void saveGhost(const complex v[length/2], int x, int dim, int dir, int parity=0)
Definition: color_spinor_field_order.h:1362

quda::colorspinor::SpaceColorSpinorOrder::save
__device__ __host__ void save(const complex v[length/2], int x, int parity=0)
Definition: color_spinor_field_order.h:1301

quda::colorspinor::SpaceColorSpinorOrder::real
typename mapper< Float >::type real
Definition: color_spinor_field_order.h:1260

quda::colorspinor::SpaceSpinorColorOrder
Definition: color_spinor_field_order.h:1376

quda::colorspinor::SpaceSpinorColorOrder::load
__device__ __host__ void load(complex v[length/2], int x, int parity=0) const
Definition: color_spinor_field_order.h:1400

quda::colorspinor::SpaceSpinorColorOrder::faceVolumeCB
int faceVolumeCB[4]
Definition: color_spinor_field_order.h:1385

quda::colorspinor::SpaceSpinorColorOrder::save
__device__ __host__ void save(const complex v[length/2], int x, int parity=0)
Definition: color_spinor_field_order.h:1419

quda::colorspinor::SpaceSpinorColorOrder::Bytes
size_t Bytes() const
Definition: color_spinor_field_order.h:1490

quda::colorspinor::SpaceSpinorColorOrder::operator()
__device__ __host__ const colorspinor_wrapper< real, Accessor > operator()(int x_cb, int parity) const
This accessor routine returns a const colorspinor_wrapper to this object, allowing us to overload var...
Definition: color_spinor_field_order.h:1465

quda::colorspinor::SpaceSpinorColorOrder::offset
size_t offset
Definition: color_spinor_field_order.h:1382

quda::colorspinor::SpaceSpinorColorOrder::complex
complex< real > complex
Definition: color_spinor_field_order.h:1379

quda::colorspinor::SpaceSpinorColorOrder::real
typename mapper< Float >::type real
Definition: color_spinor_field_order.h:1378

quda::colorspinor::SpaceSpinorColorOrder::stride
int stride
Definition: color_spinor_field_order.h:1386

quda::colorspinor::SpaceSpinorColorOrder::SpaceSpinorColorOrder
SpaceSpinorColorOrder(const ColorSpinorField &a, int nFace=1, Float *field_=0, float *dummy=0, Float **ghost_=0)
Definition: color_spinor_field_order.h:1388

quda::colorspinor::SpaceSpinorColorOrder::field
Float * field
Definition: color_spinor_field_order.h:1381

quda::colorspinor::SpaceSpinorColorOrder::length
static const int length
Definition: color_spinor_field_order.h:1380

quda::colorspinor::SpaceSpinorColorOrder::operator()
__device__ __host__ colorspinor_wrapper< real, Accessor > operator()(int x_cb, int parity)
This accessor routine returns a colorspinor_wrapper to this object, allowing us to overload various o...
Definition: color_spinor_field_order.h:1451

quda::colorspinor::SpaceSpinorColorOrder::ghost
Float * ghost[8]
Definition: color_spinor_field_order.h:1383

quda::colorspinor::SpaceSpinorColorOrder::loadGhost
__device__ __host__ void loadGhost(complex v[length/2], int x, int dim, int dir, int parity=0) const
Definition: color_spinor_field_order.h:1470

quda::colorspinor::SpaceSpinorColorOrder::volumeCB
int volumeCB
Definition: color_spinor_field_order.h:1384

quda::colorspinor::SpaceSpinorColorOrder::saveGhost
__device__ __host__ void saveGhost(const complex v[length/2], int x, int dim, int dir, int parity=0)
Definition: color_spinor_field_order.h:1480

quda::colorspinor::SpaceSpinorColorOrder::nParity
int nParity
Definition: color_spinor_field_order.h:1387

quda::colorspinor::abs_< Float, int8_t >::operator()
__host__ __device__ Float operator()(const quda::complex< int8_t > &x)
Definition: color_spinor_field_order.h:224

quda::colorspinor::abs_< Float, int8_t >::abs_
abs_(const Float scale)
Definition: color_spinor_field_order.h:223

quda::colorspinor::abs_< Float, int8_t >::scale
Float scale
Definition: color_spinor_field_order.h:222

quda::colorspinor::abs_< Float, short >::scale
Float scale
Definition: color_spinor_field_order.h:215

quda::colorspinor::abs_< Float, short >::abs_
abs_(const Float scale)
Definition: color_spinor_field_order.h:216

quda::colorspinor::abs_< Float, short >::operator()
__host__ __device__ Float operator()(const quda::complex< short > &x)
Definition: color_spinor_field_order.h:217

quda::colorspinor::abs_
Definition: color_spinor_field_order.h:209

quda::colorspinor::abs_::operator()
__host__ __device__ Float operator()(const quda::complex< storeFloat > &x)
Definition: color_spinor_field_order.h:211

quda::colorspinor::abs_::abs_
abs_(const Float scale)
Definition: color_spinor_field_order.h:210

quda::colorspinor::fieldorder_wrapper
fieldorder_wrapper is an internal class that is used to wrap instances of FieldOrder accessors,...
Definition: color_spinor_field_order.h:461

quda::colorspinor::fieldorder_wrapper::v
complex< storeFloat > * v
Definition: color_spinor_field_order.h:467

quda::colorspinor::fieldorder_wrapper::operator-=
__device__ __host__ void operator-=(const complex< theirFloat > &a)
Operator-= with complex number instance as input.
Definition: color_spinor_field_order.h:577

quda::colorspinor::fieldorder_wrapper::imag
__device__ __host__ Float imag() const
Definition: color_spinor_field_order.h:493

quda::colorspinor::fieldorder_wrapper::real
__device__ __host__ Float real() const
Definition: color_spinor_field_order.h:485

quda::colorspinor::fieldorder_wrapper::operator+=
__device__ __host__ void operator+=(const complex< theirFloat > &a)
Operator+= with complex number instance as input.
Definition: color_spinor_field_order.h:564

quda::colorspinor::fieldorder_wrapper::operator-
__device__ __host__ complex< Float > operator-() const
negation operator
Definition: color_spinor_field_order.h:527

quda::colorspinor::fieldorder_wrapper::real
__device__ __host__ void real(const Float &a)
Definition: color_spinor_field_order.h:501

quda::colorspinor::fieldorder_wrapper::data
__device__ __host__ auto data()
returns the pointor of this wrapper object
Definition: color_spinor_field_order.h:519

quda::colorspinor::fieldorder_wrapper::store_type
storeFloat store_type
Definition: color_spinor_field_order.h:466

quda::colorspinor::fieldorder_wrapper::scale_inv
const Float scale_inv
Definition: color_spinor_field_order.h:470

quda::colorspinor::fieldorder_wrapper::operator=
__device__ __host__ void operator=(const fieldorder_wrapper< Float, storeFloat > &a)
Assignment operator with fieldorder_wrapper instance as input.
Definition: color_spinor_field_order.h:535

quda::colorspinor::fieldorder_wrapper::type
Float type
Definition: color_spinor_field_order.h:465

quda::colorspinor::fieldorder_wrapper::imag
__device__ __host__ void imag(const Float &a)
Definition: color_spinor_field_order.h:508

quda::colorspinor::fieldorder_wrapper::operator=
__device__ __host__ void operator=(const theirFloat &a)
Assignment operator with real number instance as input.
Definition: color_spinor_field_order.h:557

quda::colorspinor::fieldorder_wrapper::operator=
__device__ __host__ void operator=(const complex< theirFloat > &a)
Assignment operator with complex number instance as input.
Definition: color_spinor_field_order.h:544

quda::colorspinor::fieldorder_wrapper::fixed
static constexpr bool fixed
Definition: color_spinor_field_order.h:471

quda::colorspinor::fieldorder_wrapper::scale
const Float scale
Definition: color_spinor_field_order.h:469

quda::colorspinor::fieldorder_wrapper::idx
const int idx
Definition: color_spinor_field_order.h:468

quda::colorspinor::fieldorder_wrapper::fieldorder_wrapper
__device__ __host__ fieldorder_wrapper(complex< storeFloat > *v, int idx, Float scale, Float scale_inv)
fieldorder_wrapper constructor
Definition: color_spinor_field_order.h:477

quda::colorspinor::fieldorder_wrapper::data
__device__ __host__ const auto data() const
Definition: color_spinor_field_order.h:521

quda::colorspinor::square_< ReduceType, int8_t >::scale
const ReduceType scale
Definition: color_spinor_field_order.h:203

quda::colorspinor::square_< ReduceType, int8_t >::operator()
__host__ __device__ ReduceType operator()(const quda::complex< int8_t > &x)
Definition: color_spinor_field_order.h:205

quda::colorspinor::square_< ReduceType, int8_t >::square_
square_(ReduceType scale)
Definition: color_spinor_field_order.h:204

quda::colorspinor::square_< ReduceType, short >::operator()
__host__ __device__ ReduceType operator()(const quda::complex< short > &x)
Definition: color_spinor_field_order.h:198

quda::colorspinor::square_< ReduceType, short >::scale
const ReduceType scale
Definition: color_spinor_field_order.h:196

quda::colorspinor::square_< ReduceType, short >::square_
square_(ReduceType scale)
Definition: color_spinor_field_order.h:197

quda::colorspinor::square_
Definition: color_spinor_field_order.h:189

quda::colorspinor::square_::operator()
__host__ __device__ ReduceType operator()(const quda::complex< Float > &x)
Definition: color_spinor_field_order.h:191

quda::colorspinor::square_::square_
square_(ReduceType scale)
Definition: color_spinor_field_order.h:190

quda::colorspinor_ghost_wrapper
colorspinor_ghost_wrapper is an internal class that is used to wrap instances of colorspinor accessor...
Definition: color_spinor_field_order.h:114

quda::colorspinor_ghost_wrapper::dir
const int dir
Definition: color_spinor_field_order.h:116

quda::colorspinor_ghost_wrapper::field
T & field
Definition: color_spinor_field_order.h:119

quda::colorspinor_ghost_wrapper::dim
const int dim
Definition: color_spinor_field_order.h:115

quda::colorspinor_ghost_wrapper::ghost_idx
const int ghost_idx
Definition: color_spinor_field_order.h:117

quda::colorspinor_ghost_wrapper::parity
const int parity
Definition: color_spinor_field_order.h:118

quda::colorspinor_ghost_wrapper::operator=
__device__ __host__ void operator=(const C &a)
Assignment operator with Matrix instance as input.
Definition: color_spinor_field_order.h:144

quda::colorspinor_mapper< double, 1, Nc, false, huge_alloc >::type
colorspinor::FloatNOrder< double, 1, Nc, 2, false, huge_alloc > type
Definition: color_spinor_field_order.h:1748

quda::colorspinor_mapper< double, 2, Nc, false, huge_alloc >::type
colorspinor::FloatNOrder< double, 2, Nc, 2, false, huge_alloc > type
Definition: color_spinor_field_order.h:1745

quda::colorspinor_mapper< double, 4, Nc, false, huge_alloc >::type
colorspinor::FloatNOrder< double, 4, Nc, 2, false, huge_alloc > type
Definition: color_spinor_field_order.h:1739

quda::colorspinor_mapper< double, 4, Nc, true, huge_alloc >::type
colorspinor::FloatNOrder< double, 4, Nc, 2, true, huge_alloc > type
Definition: color_spinor_field_order.h:1742

quda::colorspinor_mapper< float, 1, Nc, false, huge_alloc >::type
colorspinor::FloatNOrder< float, 1, Nc, 2, false, huge_alloc > type
Definition: color_spinor_field_order.h:1762

quda::colorspinor_mapper< float, 2, Nc, false, huge_alloc >::type
colorspinor::FloatNOrder< float, 2, Nc, 2, false, huge_alloc > type
Definition: color_spinor_field_order.h:1759

quda::colorspinor_mapper< float, 4, Nc, false, huge_alloc >::type
colorspinor::FloatNOrder< float, 4, Nc, 4, false, huge_alloc > type
Definition: color_spinor_field_order.h:1753

quda::colorspinor_mapper< float, 4, Nc, true, huge_alloc >::type
colorspinor::FloatNOrder< float, 4, Nc, 4, true, huge_alloc > type
Definition: color_spinor_field_order.h:1756

quda::colorspinor_mapper< int8_t, 1, Nc, false, huge_alloc >::type
colorspinor::FloatNOrder< int8_t, 1, Nc, 2, false, huge_alloc > type
Definition: color_spinor_field_order.h:1796

quda::colorspinor_mapper< int8_t, 2, Nc, false, huge_alloc >::type
colorspinor::FloatNOrder< int8_t, 2, Nc, 2, false, huge_alloc > type
Definition: color_spinor_field_order.h:1793

quda::colorspinor_mapper< int8_t, 4, Nc, false, huge_alloc >::type
colorspinor::FloatNOrder< int8_t, 4, Nc, N8, false, huge_alloc > type
Definition: color_spinor_field_order.h:1787

quda::colorspinor_mapper< int8_t, 4, Nc, true, huge_alloc >::type
colorspinor::FloatNOrder< int8_t, 4, Nc, N8, true, huge_alloc > type
Definition: color_spinor_field_order.h:1790

quda::colorspinor_mapper< short, 1, Nc, false, huge_alloc >::type
colorspinor::FloatNOrder< short, 1, Nc, 2, false, huge_alloc > type
Definition: color_spinor_field_order.h:1782

quda::colorspinor_mapper< short, 2, Nc, false, huge_alloc >::type
colorspinor::FloatNOrder< short, 2, Nc, 2, false, huge_alloc > type
Definition: color_spinor_field_order.h:1779

quda::colorspinor_mapper< short, 4, Nc, false, huge_alloc >::type
colorspinor::FloatNOrder< short, 4, Nc, N8, false, huge_alloc > type
Definition: color_spinor_field_order.h:1773

quda::colorspinor_mapper< short, 4, Nc, true, huge_alloc >::type
colorspinor::FloatNOrder< short, 4, Nc, N8, true, huge_alloc > type
Definition: color_spinor_field_order.h:1776

quda::colorspinor_mapper
Definition: color_spinor_field_order.h:1734

quda::colorspinor_order_mapper< T, QUDA_FLOAT2_FIELD_ORDER, Ns, Nc >::type
colorspinor::FloatNOrder< T, Ns, Nc, 2 > type
Definition: color_spinor_field_order.h:1804

quda::colorspinor_order_mapper< T, QUDA_SPACE_COLOR_SPIN_FIELD_ORDER, Ns, Nc >::type
colorspinor::SpaceColorSpinorOrder< T, Ns, Nc > type
Definition: color_spinor_field_order.h:1802

quda::colorspinor_order_mapper< T, QUDA_SPACE_SPIN_COLOR_FIELD_ORDER, Ns, Nc >::type
colorspinor::SpaceSpinorColorOrder< T, Ns, Nc > type
Definition: color_spinor_field_order.h:1803

quda::colorspinor_order_mapper
Definition: color_spinor_field_order.h:1801

quda::colorspinor_wrapper
colorspinor_wrapper is an internal class that is used to wrap instances of colorspinor accessors,...
Definition: color_spinor_field_order.h:40

quda::colorspinor_wrapper::operator=
__device__ __host__ void operator=(const C &a)
Assignment operator with ColorSpinor instance as input.
Definition: color_spinor_field_order.h:62

quda::colorspinor_wrapper::field
T & field
Definition: color_spinor_field_order.h:41

quda::colorspinor_wrapper::x_cb
const int x_cb
Definition: color_spinor_field_order.h:42

quda::colorspinor_wrapper::parity
const int parity
Definition: color_spinor_field_order.h:43

quda::complex< int8_t >
Definition: complex_quda.h:707

quda::complex< int8_t >::imag
__host__ __device__ int8_t imag() const volatile
Definition: complex_quda.h:736

quda::complex< int8_t >::real
__host__ __device__ int8_t real() const volatile
Definition: complex_quda.h:735

quda::complex< short >
Definition: complex_quda.h:754

quda::complex< short >::real
__host__ __device__ short real() const volatile
Definition: complex_quda.h:782

quda::complex< short >::imag
__host__ __device__ short imag() const volatile
Definition: complex_quda.h:783

quda::complex< Float >

quda::complex::complex
__host__ __device__ complex(const ValueType &re=ValueType(), const ValueType &im=ValueType())
Definition: complex_quda.h:375

quda::complex::imag
__host__ __device__ ValueType imag() const volatile

quda::complex::real
__host__ __device__ ValueType real() const volatile

quda::complex::operator=
__host__ __device__ complex< ValueType > & operator=(const complex< T > z)
Definition: complex_quda.h:399

quda::fixedMaxValue
Definition: quda_internal.h:93

quda::isFixed
Definition: register_traits.h:348

quda::mapper
Definition: register_traits.h:94

quda::maximum
Definition: transform_reduce.h:22

quda::plus
Definition: transform_reduce.h:18

trove::coalesced_ptr
Definition: ptr.h:61

transform_reduce.h
QUDA reimplementation of thrust::transform_reduce as well as wrappers also implementing thrust::reduc...

errorQuda
#define errorQuda(...)
Definition: util_quda.h:120