v0.9.0/doc/copy__quda_8cu_source.html

 #include <blas_quda.h>
 #include <tune_quda.h>
 #include <float_vector.h>
 #include <register_traits.h>

 // For kernels with precision conversion built in
 #define checkSpinorLength(a, b)           \
   {                 \
     if (a.Length() != b.Length())         \
       errorQuda("lengths do not match: %lu %lu", a.Length(), b.Length()); \
     if (a.Stride() != b.Stride())         \
       errorQuda("strides do not match: %d %d", a.Stride(), b.Stride()); \
     if (a.GammaBasis() != b.GammaBasis())       \
       errorQuda("gamma basis does not match: %d %d", a.GammaBasis(), b.GammaBasis()); \
   }

 namespace quda {

   namespace blas {
     cudaStream_t* getStream();

     namespace copy_ns {

 #include <texture.h>

     static struct {
       const char *vol_str;
       const char *aux_str;
     } blasStrings;

     template <typename FloatN, int N, typename Output, typename Input>
     __global__ void copyKernel(Output Y, Input X, int length) {
       unsigned int i = blockIdx.x*(blockDim.x) + threadIdx.x;
       unsigned int parity = blockIdx.y;
       unsigned int gridSize = gridDim.x*blockDim.x;

       while (i < length) {
   FloatN x[N];
   X.load(x, i, parity);
   Y.save(x, i, parity);
   i += gridSize;
       }
     }

       template <typename FloatN, int N, typename Output, typename Input>
       class CopyCuda : public Tunable {

       private:
   Input &X;
   Output &Y;
   const int length;
   const int nParity;

   unsigned int sharedBytesPerThread() const { return 0; }
   unsigned int sharedBytesPerBlock(const TuneParam &param) const { return 0; }

   virtual bool advanceSharedBytes(TuneParam &param) const
   {
     TuneParam next(param);
     advanceBlockDim(next); // to get next blockDim
     int nthreads = next.block.x * next.block.y * next.block.z;
     param.shared_bytes = sharedBytesPerThread()*nthreads > sharedBytesPerBlock(param) ?
       sharedBytesPerThread()*nthreads : sharedBytesPerBlock(param);
     return false;
   }

     public:
   CopyCuda(Output &Y, Input &X, int length, int nParity)
     : X(X), Y(Y), length(length/nParity), nParity(nParity) { }
       virtual ~CopyCuda() { ; }

       inline TuneKey tuneKey() const {
   return TuneKey(blasStrings.vol_str, "copyKernel", blasStrings.aux_str);
       }

       inline void apply(const cudaStream_t &stream) {
   TuneParam tp = tuneLaunch(*this, getTuning(), getVerbosity());
   copyKernel<FloatN, N><<<tp.grid, tp.block, tp.shared_bytes, stream>>>(Y, X, length);
       }

   void preTune() { ; } // no need to save state for copy kernels
   void postTune() { ; } // no need to restore state for copy kernels

   void initTuneParam(TuneParam &param) const {
     Tunable::initTuneParam(param);
     param.grid.y = nParity;
   }

   void defaultTuneParam(TuneParam &param) const {
     Tunable::defaultTuneParam(param);
     param.grid.y = nParity;
   }

   long long flops() const { return 0; }
   long long bytes() const {
     const int Ninternal = (sizeof(FloatN)/sizeof(((FloatN*)0)->x))*N;
     size_t bytes = (X.Precision() + Y.Precision())*Ninternal;
     if (X.Precision() == QUDA_HALF_PRECISION) bytes += sizeof(float);
     if (Y.Precision() == QUDA_HALF_PRECISION) bytes += sizeof(float);
     return bytes*length*nParity;
   }
   int tuningIter() const { return 3; }
       };

       void copy(cudaColorSpinorField &dst, const cudaColorSpinorField &src) {
   if (&src == &dst) return; // aliasing fields

   if (src.SiteSubset() != dst.SiteSubset())
     errorQuda("Spinor fields do not have matching subsets dst=%d src=%d\n", src.SiteSubset(), dst.SiteSubset());

   checkSpinorLength(dst, src);

   blasStrings.vol_str = src.VolString();
   char tmp[256];
   strcpy(tmp, "dst=");
   strcat(tmp, dst.AuxString());
   strcat(tmp, ",src=");
   strcat(tmp, src.AuxString());
   blasStrings.aux_str = tmp;

   if (dst.Nspin() != src.Nspin())
     errorQuda("Spins (%d,%d) do not match", dst.Nspin(), src.Nspin());

   // For a given dst precision, there are two non-trivial possibilities for the
   // src precision.

   blas::bytes += (unsigned long long)src.RealLength()*(src.Precision() + dst.Precision());

   int partitions = (src.IsComposite() ? src.CompositeDim() : 1) * (src.SiteSubset());

   if (dst.Precision() == src.Precision()) {
     if (src.Bytes() != dst.Bytes()) errorQuda("Precisions match, but bytes do not");
     qudaMemcpy(dst.V(), src.V(), dst.Bytes(), cudaMemcpyDeviceToDevice);
     if (dst.Precision() == QUDA_HALF_PRECISION) {
       qudaMemcpy(dst.Norm(), src.Norm(), dst.NormBytes(), cudaMemcpyDeviceToDevice);
       blas::bytes += 2*(unsigned long long)dst.RealLength()*sizeof(float);
     }
   } else if (dst.Precision() == QUDA_DOUBLE_PRECISION && src.Precision() == QUDA_SINGLE_PRECISION) {
     if (src.Nspin() == 4){
       Spinor<float4, float4, 6, 0, 0> src_tex(src);
       Spinor<float4, double2, 6, 1> dst_spinor(dst);
       CopyCuda<float4, 6, Spinor<float4, double2, 6, 1>, Spinor<float4, float4, 6, 0, 0> >
         copy(dst_spinor, src_tex, src.Volume(), partitions);
       copy.apply(*blas::getStream());
     } else if (src.Nspin() == 2) {
       if (src.Length() != src.RealLength() || dst.Length() != dst.RealLength())
         errorQuda("Non-zero stride not supported"); // we need to know how many colors to set "M" (requires JIT)
       Spinor<float2, float2, 1, 0, 0> src_tex(src);
       Spinor<float2, double2, 1, 1> dst_spinor(dst);
       CopyCuda<float2, 1, Spinor<float2, double2, 1, 1>, Spinor<float2, float2, 1, 0, 0> >
         copy(dst_spinor, src_tex, src.Length()/2, partitions);
       copy.apply(*blas::getStream());
     } else if (src.Nspin() == 1) {
       Spinor<float2, float2, 3, 0, 0> src_tex(src);
       Spinor<float2, double2, 3, 1> dst_spinor(dst);
       CopyCuda<float2, 3, Spinor<float2, double2, 3, 1>,  Spinor<float2, float2, 3, 0, 0> >
         copy(dst_spinor, src_tex, src.Volume(), partitions);
       copy.apply(*blas::getStream());
     } else {
       errorQuda("Nspin(%d) is not supported", src.Nspin());
     }
   } else if (dst.Precision() == QUDA_SINGLE_PRECISION && src.Precision() == QUDA_DOUBLE_PRECISION) {
     if (src.Nspin() == 4){
       Spinor<float4, double2, 6, 0, 0> src_tex(src);
       Spinor<float4, float4, 6, 1> dst_spinor(dst);
       CopyCuda<float4, 6, Spinor<float4, float4, 6, 1>, Spinor<float4, double2, 6, 0, 0> >
         copy(dst_spinor, src_tex, src.Volume(), partitions);
         copy.apply(*blas::getStream());
     } else if (src.Nspin() == 2) {
       if (src.Length() != src.RealLength() || dst.Length() != dst.RealLength())
         errorQuda("Non-zero stride not supported"); // we need to know how many colors to set "M" (requires JIT)
       Spinor<float2, double2, 1, 0, 0> src_tex(src);
       Spinor<float2, float2, 1, 1> dst_spinor(dst);
       CopyCuda<float2, 1, Spinor<float2, float2, 1, 1>, Spinor<float2, double2, 1, 0, 0> >
         copy(dst_spinor, src_tex, src.Length()/2, partitions);
       copy.apply(*blas::getStream());
     } else if (src.Nspin() == 1) {
       Spinor<float2, double2, 3, 0, 0> src_tex(src);
       Spinor<float2, float2, 3, 1> dst_spinor(dst);
       CopyCuda<float2, 3, Spinor<float2, float2, 3, 1>, Spinor<float2, double2, 3, 0, 0> >
         copy(dst_spinor, src_tex, src.Volume(), partitions);
       copy.apply(*blas::getStream());
     } else {
       errorQuda("Nspin(%d) is not supported", src.Nspin());
     }
   } else if (dst.Precision() == QUDA_SINGLE_PRECISION && src.Precision() == QUDA_HALF_PRECISION) {
     blas::bytes += (unsigned long long)src.Volume()*sizeof(float);
     if (src.Nspin() == 4){
       Spinor<float4, short4, 6, 0, 0> src_tex(src);
       Spinor<float4, float4, 6, 1> dst_spinor(dst);
       CopyCuda<float4, 6, Spinor<float4, float4, 6, 1>, Spinor<float4, short4, 6, 0, 0> >
         copy(dst_spinor, src_tex, src.Volume(), partitions);
         copy.apply(*blas::getStream());
     } else if (src.Nspin() == 1) {
       Spinor<float2, short2, 3, 0, 0> src_tex(src);
       Spinor<float2, float2, 3, 1> dst_spinor(dst);
       CopyCuda<float2, 3, Spinor<float2, float2, 3, 1>, Spinor<float2, short2, 3, 0, 0> >
         copy(dst_spinor, src_tex, src.Volume(), partitions);
       copy.apply(*blas::getStream());
     } else {
       errorQuda("Nspin(%d) is not supported", src.Nspin());
     }
   } else if (dst.Precision() == QUDA_HALF_PRECISION && src.Precision() == QUDA_SINGLE_PRECISION) {
     blas::bytes += (unsigned long long)dst.Volume()*sizeof(float);
     if (src.Nspin() == 4){
       Spinor<float4, float4, 6, 0, 0> src_tex(src);
       Spinor<float4, short4, 6, 1> dst_spinor(dst);
       CopyCuda<float4, 6, Spinor<float4, short4, 6, 1>,  Spinor<float4, float4, 6, 0, 0> >
         copy(dst_spinor, src_tex, src.Volume(), partitions);
       copy.apply(*blas::getStream());
     } else if (src.Nspin() == 1) {
       Spinor<float2, float2, 3, 0, 0> src_tex(src);
       Spinor<float2, short2, 3, 1> dst_spinor(dst);
       CopyCuda<float2, 3, Spinor<float2, short2, 3, 1>, Spinor<float2, float2, 3, 0, 0> >
         copy(dst_spinor, src_tex, src.Volume(), partitions);
       copy.apply(*blas::getStream());
     } else {
       errorQuda("Nspin(%d) is not supported", src.Nspin());
     }
   } else if (dst.Precision() == QUDA_DOUBLE_PRECISION && src.Precision() == QUDA_HALF_PRECISION) {
     blas::bytes += (unsigned long long)src.Volume()*sizeof(float);
     if (src.Nspin() == 4){
       Spinor<double2, short4, 12, 0, 0> src_tex(src);
       Spinor<double2, double2, 12, 1> dst_spinor(dst);
       CopyCuda<double2, 12, Spinor<double2, double2, 12, 1>, Spinor<double2, short4, 12, 0, 0> >
         copy(dst_spinor, src_tex, src.Volume(), partitions);
       copy.apply(*blas::getStream());
     } else if (src.Nspin() == 1) {
       Spinor<double2, short2, 3, 0, 0> src_tex(src);
       Spinor<double2, double2, 3, 1> dst_spinor(dst);
       CopyCuda<double2, 3, Spinor<double2, double2, 3, 1>, Spinor<double2, short2, 3, 0, 0> >
       copy(dst_spinor, src_tex, src.Volume(), partitions);
       copy.apply(*blas::getStream());
     } else {
       errorQuda("Nspin(%d) is not supported", src.Nspin());
     }
   } else if (dst.Precision() == QUDA_HALF_PRECISION && src.Precision() == QUDA_DOUBLE_PRECISION) {
     blas::bytes += (unsigned long long)dst.Volume()*sizeof(float);
     if (src.Nspin() == 4){
       Spinor<double2, double2, 12, 0, 0> src_tex(src);
       Spinor<double2, short4, 12, 1> dst_spinor(dst);
       CopyCuda<double2, 12, Spinor<double2, short4, 12, 1>, Spinor<double2, double2, 12, 0, 0> >
         copy(dst_spinor, src_tex, src.Volume(), partitions);
       copy.apply(*blas::getStream());
     } else if (src.Nspin() == 1) {
       Spinor<double2, double2, 3, 0, 0> src_tex(src);
       Spinor<double2, short2, 3, 1> dst_spinor(dst);
       CopyCuda<double2, 3, Spinor<double2, short2, 3, 1>, Spinor<double2, double2, 3, 0, 0> >
       copy(dst_spinor, src_tex, src.Volume(), partitions);
       copy.apply(*blas::getStream());
     } else {
       errorQuda("Nspin(%d) is not supported", src.Nspin());
     }
   } else {
     errorQuda("Invalid precision combination dst=%d and src=%d", dst.Precision(), src.Precision());
   }

   checkCudaError();
       }

     } // namespace copy_nw

     void copy(ColorSpinorField &dst, const ColorSpinorField &src) {
       if (dst.Location() == QUDA_CUDA_FIELD_LOCATION &&
     src.Location() == QUDA_CUDA_FIELD_LOCATION) {
   copy_ns::copy(static_cast<cudaColorSpinorField&>(dst),
           static_cast<const cudaColorSpinorField&>(src));
       } else {
   dst = src;
       }
     }

   } // namespace blas
 } // namespace quda
qudaMemcpy
#define qudaMemcpy(dst, src, count, kind)
Definition: quda_cuda_api.h:32

quda::ColorSpinorField::Nspin
int Nspin() const
Definition: color_spinor_field.h:361

quda::blas::copy_ns::CopyCuda::bytes
long long bytes() const
Definition: copy_quda.cu:95

quda::TuneParam
Definition: tune_quda.h:17

blockDim
dim3 dim3 blockDim
Definition: CMakeCUDACompilerId.cpp1.ii:2471

quda::blas::copy_ns::CopyCuda::defaultTuneParam
void defaultTuneParam(TuneParam &param) const
Definition: copy_quda.cu:89

float_vector.h

quda::ColorSpinorField
Definition: color_spinor_field.h:271

quda::blas::copy_ns::CopyCuda::tuneKey
TuneKey tuneKey() const
Definition: copy_quda.cu:72

quda::ColorSpinorField::AuxString
const char * AuxString() const
Definition: color_spinor_field.h:378

getVerbosity
QudaVerbosity getVerbosity()
Definition: util_quda.cpp:20

src
const void * src
Definition: CMakeCUDACompilerId.cpp1.ii:2290

quda::blas::copy_ns::CopyCuda::initTuneParam
void initTuneParam(TuneParam &param) const
Definition: copy_quda.cu:84

errorQuda
#define errorQuda(...)
Definition: util_quda.h:90

quda::blas::copy_ns::blasStrings
static struct quda::blas::copy_ns::@5 blasStrings

QUDA_CUDA_FIELD_LOCATION
Definition: enum_quda.h:297

quda::blas::copy_ns::CopyCuda::Y
Output & Y
Definition: copy_quda.cu:50

QUDA_HALF_PRECISION
Definition: enum_quda.h:59

quda::blas::copy_ns::aux_str
const char * aux_str
Definition: copy_quda.cu:28

quda::stream
cudaStream_t * stream
Definition: cuda_color_spinor_field.cu:898

tmp
cudaColorSpinorField * tmp
Definition: covdev_test.cpp:44

quda::blas::copy_ns::CopyCuda::advanceSharedBytes
virtual bool advanceSharedBytes(TuneParam &param) const
Definition: copy_quda.cu:57

strcpy
char * strcpy(char *__dst, const char *__src)

quda::blas::copy_ns::CopyCuda::sharedBytesPerBlock
unsigned int sharedBytesPerBlock(const TuneParam &param) const
Definition: copy_quda.cu:55

quda::TuneParam::shared_bytes
int shared_bytes
Definition: tune_quda.h:22

quda::blas::copy
void copy(ColorSpinorField &dst, const ColorSpinorField &src)
Definition: copy_quda.cu:263

strcat
char * strcat(char *__s1, const char *__s2)

quda::cudaColorSpinorField
Definition: color_spinor_field.h:504

quda::blas::copy_ns::CopyCuda::~CopyCuda
virtual ~CopyCuda()
Definition: copy_quda.cu:70

quda::ColorSpinorField::Volume
int Volume() const
Definition: color_spinor_field.h:369

quda::TuneParam::grid
dim3 grid
Definition: tune_quda.h:21

quda::blas::copy_ns::CopyCuda::tuningIter
int tuningIter() const
Definition: copy_quda.cu:102

texture.h

quda
Definition: blas_cublas.h:6

quda::ColorSpinorField::NormBytes
size_t NormBytes() const
Definition: color_spinor_field.h:373

quda::ColorSpinorField::RealLength
size_t RealLength() const
Definition: color_spinor_field.h:366

gridDim
dim3 gridDim
Definition: CMakeCUDACompilerId.cpp1.ii:2471

param
QudaGaugeParam param
Definition: pack_test.cpp:17

x
p x
Definition: CMakeCUDACompilerId.cpp1.ii:3011

quda::blas::getStream
cudaStream_t * getStream()
Definition: blas_quda.cu:75

quda::Tunable
Definition: tune_quda.h:60

quda::TuneParam::block
dim3 block
Definition: tune_quda.h:20

quda::ColorSpinorField::SiteSubset
QudaSiteSubset SiteSubset() const
Definition: color_spinor_field.h:435

quda::tuneLaunch
TuneParam & tuneLaunch(Tunable &tunable, QudaTune enabled, QudaVerbosity verbosity)
Definition: tune.cpp:603

fused_exterior_ndeg_tm_dslash_cuda_gen.i
int i
start here
Definition: fused_exterior_ndeg_tm_dslash_cuda_gen.py:816

register_traits.h
Provides precision abstractions and defines the register precision given the storage precision using ...

quda::blas::copy_ns::vol_str
const char * vol_str
Definition: copy_quda.cu:27

quda::blas::copy_ns::CopyCuda::length
const int length
Definition: copy_quda.cu:51

tune_quda.h

checkSpinorLength
#define checkSpinorLength(a, b)
Definition: copy_quda.cu:7

quda::ColorSpinorField::Norm
void * Norm()
Definition: color_spinor_field.h:382

X
int X
Definition: asym_wilson_clover_dslash_dagger_fermi_core.h:394

quda::LatticeField::Location
QudaFieldLocation Location() const
Definition: lattice_field.cpp:522

blas_quda.h

quda::blas::copy_ns::CopyCuda::apply
void apply(const cudaStream_t &stream)
Definition: copy_quda.cu:76

quda::blas::copy_ns::CopyCuda::X
Input & X
Definition: copy_quda.cu:49

QUDA_DOUBLE_PRECISION
Definition: enum_quda.h:61

quda::blas::copy_ns::copyKernel
__global__ void copyKernel(Output Y, Input X, int length)
Definition: copy_quda.cu:32

QUDA_SINGLE_PRECISION
Definition: enum_quda.h:60

quda::blas::copy_ns::CopyCuda::postTune
void postTune()
Definition: copy_quda.cu:82

quda::ColorSpinorField::Bytes
size_t Bytes() const
Definition: color_spinor_field.h:372

length
void size_t length
Definition: CMakeCUDACompilerId.cpp1.ii:2433

quda::ColorSpinorField::Length
size_t Length() const
Definition: color_spinor_field.h:367

quda::Tunable::initTuneParam
virtual void initTuneParam(TuneParam &param) const
Definition: tune_quda.h:230

Spinor
Definition: texture.h:528

quda::blas::copy_ns::CopyCuda::sharedBytesPerThread
unsigned int sharedBytesPerThread() const
Definition: copy_quda.cu:54

checkCudaError
#define checkCudaError()
Definition: util_quda.h:129

float
float
Definition: CMakeCUDACompilerId.cpp1.ii:12791

quda::blas::copy_ns::CopyCuda::preTune
void preTune()
Definition: copy_quda.cu:81

quda::Tunable::advanceBlockDim
virtual bool advanceBlockDim(TuneParam &param) const
Definition: tune_quda.h:102

getTuning
QudaTune getTuning()
Query whether autotuning is enabled or not. Default is enabled but can be overridden by setting QUDA_...
Definition: util_quda.cpp:51

quda::blas::copy_ns::CopyCuda::nParity
const int nParity
Definition: copy_quda.cu:52

quda::LatticeField::Precision
QudaPrecision Precision() const
Definition: lattice_field.h:462

quda::blas::copy_ns::copy
void copy(cudaColorSpinorField &dst, const cudaColorSpinorField &src)
Definition: copy_quda.cu:105

parity
QudaParity parity
Definition: covdev_test.cpp:53

quda::blas::copy_ns::CopyCuda
Definition: copy_quda.cu:46

quda::blas::copy_ns::CopyCuda::CopyCuda
CopyCuda(Output &Y, Input &X, int length, int nParity)
Definition: copy_quda.cu:68

quda::TuneKey
Definition: tune_key.h:8

quda::blas::bytes
unsigned long long bytes
Definition: blas_quda.cu:43

quda::ColorSpinorField::V
void * V()
Definition: color_spinor_field.h:380

quda::blas::copy_ns::CopyCuda::flops
long long flops() const
Definition: copy_quda.cu:94

quda::Tunable::defaultTuneParam
virtual void defaultTuneParam(TuneParam &param) const
Definition: tune_quda.h:254