v0.9.0/doc/quda__cuda__api_8cpp_source.html

 #include <tune_quda.h>
 #include <uint_to_char.h>
 #include <quda_internal.h>

 // if this macro is defined then we use the driver API, else use the
 // runtime API.  Typically the driver API has 10-20% less overhead
 #define USE_DRIVER_API

 // if this macro is defined then we profile the CUDA API calls
 //#define API_PROFILE

 #ifdef API_PROFILE
 #define PROFILE(f, idx)                                 \
   apiTimer.TPSTART(idx);        \
   f;                                                    \
   apiTimer.TPSTOP(idx);
 #else
 #define PROFILE(f, idx) f;
 #endif

 namespace quda {

 #ifdef USE_DRIVER_API
   static TimeProfile apiTimer("CUDA API calls (driver)");
 #else
   static TimeProfile apiTimer("CUDA API calls (runtime)");
 #endif

   class QudaMemCopy : public Tunable {

     void *dst;
     const void *src;
     const size_t count;
     const cudaMemcpyKind kind;
     const char *name;

     unsigned int sharedBytesPerThread() const { return 0; }
     unsigned int sharedBytesPerBlock(const TuneParam &param) const { return 0; }

   public:
     inline QudaMemCopy(void *dst, const void *src, size_t count, cudaMemcpyKind kind,
            const char *func, const char *file, const char *line)
       : dst(dst), src(src), count(count), kind(kind) {

       switch(kind) {
       case cudaMemcpyDeviceToHost:
   name = "cudaMemcpyDeviceToHost";
   break;
       case cudaMemcpyHostToDevice:
   name = "cudaMemcpyHostToDevice";
   break;
       case cudaMemcpyHostToHost:
   name = "cudaMemcpyHostToHost";
   break;
       case cudaMemcpyDeviceToDevice:
   name = "cudaMemcpyDeviceToDevice";
   break;
       case cudaMemcpyDefault:
         name = "cudaMemcpyDefault";
         break;
       default:
   errorQuda("Unsupported cudaMemcpyType %d", kind);
       }
       strcpy(aux, func);
       strcat(aux, ",");
       strcat(aux, file);
       strcat(aux, ",");
       strcat(aux, line);
     }

     virtual ~QudaMemCopy() { }

     inline void apply(const cudaStream_t &stream) {
       tuneLaunch(*this, getTuning(), getVerbosity());
 #ifdef USE_DRIVER_API
       switch(kind) {
       case cudaMemcpyDeviceToHost:
         cuMemcpyDtoH(dst, (CUdeviceptr)src, count);
   break;
       case cudaMemcpyHostToDevice:
         cuMemcpyHtoD((CUdeviceptr)dst, src, count);
   break;
       case cudaMemcpyHostToHost:
         memcpy(dst, src, count);
   break;
       case cudaMemcpyDeviceToDevice:
         cuMemcpyDtoD((CUdeviceptr)dst, (CUdeviceptr)src, count);
   break;
       case cudaMemcpyDefault:
         cuMemcpy((CUdeviceptr)dst, (CUdeviceptr)src, count);
       default:
   errorQuda("Unsupported cudaMemcpyType %d", kind);
       }
 #else
       cudaMemcpy(dst, src, count, kind);
 #endif
     }

     bool advanceTuneParam(TuneParam &param) const { return false; }

     TuneKey tuneKey() const {
       char vol[128];
       strcpy(vol,"bytes=");
       u64toa(vol+6, (uint64_t)count);
       return TuneKey(vol, name, aux);
     }

     long long flops() const { return 0; }
     long long bytes() const { return kind == cudaMemcpyDeviceToDevice ? 2*count : count; }

   };

   void qudaMemcpy_(void *dst, const void *src, size_t count, cudaMemcpyKind kind,
                    const char *func, const char *file, const char *line) {
     if (getVerbosity() == QUDA_DEBUG_VERBOSE)
       printfQuda("%s bytes = %llu\n", __func__, (long long unsigned int)count);

     if (count == 0) return;
 #if 1
     QudaMemCopy copy(dst, src, count, kind, func, file, line);
     copy.apply(0);
 #else
     cudaMemcpy(dst, src, count, kind);
 #endif
     checkCudaError();
   }

   void qudaMemcpyAsync_(void *dst, const void *src, size_t count, cudaMemcpyKind kind, const cudaStream_t &stream,
                         const char *func, const char *file, const char *line)
   {
 #ifdef USE_DRIVER_API
     switch (kind) {
     case cudaMemcpyDeviceToHost:
       PROFILE(cuMemcpyDtoHAsync(dst, (CUdeviceptr)src, count, stream), QUDA_PROFILE_MEMCPY_D2H_ASYNC);
       break;
     case cudaMemcpyHostToDevice:
       PROFILE(cuMemcpyHtoDAsync((CUdeviceptr)dst, src, count, stream), QUDA_PROFILE_MEMCPY_H2D_ASYNC);
       break;
     case cudaMemcpyDeviceToDevice:
       PROFILE(cuMemcpyDtoDAsync((CUdeviceptr)dst, (CUdeviceptr)src, count, stream), QUDA_PROFILE_MEMCPY_D2D_ASYNC);
       break;
     default:
       errorQuda("Unsupported cuMemcpyTypeAsync %d", kind);
     }
 #else
     PROFILE(cudaMemcpyAsync(dst, src, count, kind, stream),
             kind == cudaMemcpyDeviceToHost ? QUDA_PROFILE_MEMCPY_D2H_ASYNC : QUDA_PROFILE_MEMCPY_H2D_ASYNC);
 #endif
   }

   void qudaMemcpy2DAsync_(void *dst, size_t dpitch, const void *src, size_t spitch,
                           size_t width, size_t height, cudaMemcpyKind kind, const cudaStream_t &stream,
                           const char *func, const char *file, const char *line)
   {
 #ifdef USE_DRIVER_API
     CUDA_MEMCPY2D param;
     param.srcPitch = spitch;
     param.srcY = 0;
     param.srcXInBytes = 0;
     param.dstPitch = dpitch;
     param.dstY = 0;
     param.dstXInBytes = 0;
     param.WidthInBytes = width;
     param.Height = height;

     switch (kind) {
     case cudaMemcpyDeviceToHost:
       param.srcDevice = (CUdeviceptr)src;
       param.srcMemoryType = CU_MEMORYTYPE_DEVICE;
       param.dstHost = dst;
       param.dstMemoryType = CU_MEMORYTYPE_HOST;
       break;
     default:
       errorQuda("Unsupported cuMemcpyType2DAsync %d", kind);
     }
     PROFILE(cuMemcpy2DAsync(&param, stream), QUDA_PROFILE_MEMCPY2D_D2H_ASYNC);
 #else
     PROFILE(cudaMemcpy2DAsync(dst, dpitch, src, spitch, width, height, kind, stream), QUDA_PROFILE_MEMCPY2D_D2H_ASYNC);
 #endif
   }

   cudaError_t qudaLaunchKernel(const void* func, dim3 gridDim, dim3 blockDim, void** args, size_t sharedMem, cudaStream_t stream)
   {
     // no driver API variant here since we have C++ functions
     PROFILE(cudaError_t error = cudaLaunchKernel(func, gridDim, blockDim, args, sharedMem, stream), QUDA_PROFILE_LAUNCH_KERNEL);
     if (error != cudaSuccess && !activeTuning()) errorQuda("(CUDA) %s", cudaGetErrorString(error));
     return error;
   }

   cudaError_t qudaEventQuery(cudaEvent_t &event)
   {
 #ifdef USE_DRIVER_API
     PROFILE(CUresult error = cuEventQuery(event), QUDA_PROFILE_EVENT_QUERY);
     switch (error) {
     case CUDA_SUCCESS:
       return cudaSuccess;
     case CUDA_ERROR_NOT_READY: // this is the only return value care about
       return cudaErrorNotReady;
     default:
       errorQuda("cuEventQuery return error code %d", error);
     }
     return cudaErrorUnknown;
 #else
     PROFILE(cudaError_t error = cudaEventQuery(event), QUDA_PROFILE_EVENT_QUERY);
     return error;
 #endif
   }

   cudaError_t qudaEventRecord(cudaEvent_t &event, cudaStream_t stream)
   {
 #ifdef USE_DRIVER_API
     PROFILE(CUresult error = cuEventRecord(event, stream), QUDA_PROFILE_EVENT_RECORD);
     switch (error) {
     case CUDA_SUCCESS:
       return cudaSuccess;
     default: // should always return successful
       errorQuda("cuEventRecord return error code %d", error);
     }
     return cudaErrorUnknown;
 #else
     PROFILE(cudaError_t error = cudaEventRecord(event, stream), QUDA_PROFILE_EVENT_RECORD);
     return error;
 #endif
   }

   cudaError_t qudaStreamWaitEvent(cudaStream_t stream, cudaEvent_t event, unsigned int flags)
   {
 #ifdef USE_DRIVER_API
     PROFILE(CUresult error = cuStreamWaitEvent(stream, event, flags), QUDA_PROFILE_STREAM_WAIT_EVENT);
     switch (error) {
     case CUDA_SUCCESS:
       return cudaSuccess;
     default: // should always return successful
       errorQuda("cuStreamWaitEvent return error code %d", error);
     }
     return cudaErrorUnknown;
 #else
     PROFILE(cudaError_t error = cudaStreamWaitEvent(stream, event, flags), QUDA_PROFILE_STREAM_WAIT_EVENT);
     return error;
 #endif
   }

   cudaError_t qudaStreamSynchronize(cudaStream_t &stream)
   {
 #ifdef USE_DRIVER_API
     PROFILE(CUresult error = cuStreamSynchronize(stream), QUDA_PROFILE_STREAM_SYNCHRONIZE);
     switch (error) {
     case CUDA_SUCCESS:
       return cudaSuccess;
     default: // should always return successful
       errorQuda("cuStreamSynchronize return error code %d", error);
     }
     return cudaErrorUnknown;
 #else
     PROFILE(cudaError_t error = cudaStreamSynchronize(stream), QUDA_PROFILE_STREAM_SYNCHRONIZE);
     return error;
 #endif
   }

   cudaError_t qudaEventSynchronize(cudaEvent_t &event)
   {
 #ifdef USE_DRIVER_API
     PROFILE(CUresult error = cuEventSynchronize(event), QUDA_PROFILE_EVENT_SYNCHRONIZE);
     switch (error) {
     case CUDA_SUCCESS:
       return cudaSuccess;
     default: // should always return successful
       errorQuda("cuEventSynchronize return error code %d", error);
     }
     return cudaErrorUnknown;
 #else
     PROFILE(cudaError_t error = cudaEventSynchronize(event), QUDA_PROFILE_EVENT_SYNCHRONIZE);
     return error;
 #endif
   }

   cudaError_t qudaDeviceSynchronize()
   {
 #ifdef USE_DRIVER_API
     PROFILE(CUresult error = cuCtxSynchronize(), QUDA_PROFILE_DEVICE_SYNCHRONIZE);
     switch (error) {
     case CUDA_SUCCESS:
       return cudaSuccess;
     default: // should always return successful
       errorQuda("cuCtxSynchronize return error code %d", error);
     }
     return cudaErrorUnknown;
 #else
     PROFILE(cudaError_t error = cudaDeviceSynchronize(), QUDA_PROFILE_DEVICE_SYNCHRONIZE);
     return error;
 #endif
   }

 #if (CUDA_VERSION >= 9000)
   cudaError_t qudaFuncSetAttribute(const void* func, cudaFuncAttribute attr, int value)
   {
     // no driver API variant here since we have C++ functions
     PROFILE(cudaError_t error = cudaFuncSetAttribute(func, attr, value), QUDA_PROFILE_FUNC_SET_ATTRIBUTE);
     return error;
   }
 #endif

   void printAPIProfile() {
 #ifdef API_PROFILE
     apiTimer.Print();
 #endif
   }

 } // namespace quda
spitch
size_t const void size_t spitch
Definition: CMakeCUDACompilerId.cpp1.ii:2292

event
cudaEvent_t event
Definition: CMakeCUDACompilerId.cpp1.ii:2281

quda::QudaMemCopy::count
const size_t count
Definition: quda_cuda_api.cpp:33

quda::QUDA_PROFILE_STREAM_WAIT_EVENT
Definition: quda_internal.h:188

quda::TuneParam
Definition: tune_quda.h:17

blockDim
dim3 dim3 blockDim
Definition: CMakeCUDACompilerId.cpp1.ii:2471

width
size_t const void size_t size_t width
Definition: CMakeCUDACompilerId.cpp1.ii:2292

quda::QudaMemCopy
Definition: quda_cuda_api.cpp:29

quda::qudaMemcpy2DAsync_
void qudaMemcpy2DAsync_(void *dst, size_t dpitch, const void *src, size_t spitch, size_t width, size_t hieght, cudaMemcpyKind kind, const cudaStream_t &stream, const char *func, const char *file, const char *line)
Wrapper around cudaMemcpy2DAsync or driver API equivalent Potentially add auto-profiling support...
Definition: quda_cuda_api.cpp:151

quda::qudaEventSynchronize
cudaError_t qudaEventSynchronize(cudaEvent_t &event)
Wrapper around cudaEventSynchronize or cuEventSynchronize.
Definition: quda_cuda_api.cpp:260

quda::QudaMemCopy::bytes
long long bytes() const
Definition: quda_cuda_api.cpp:109

quda::qudaEventQuery
cudaError_t qudaEventQuery(cudaEvent_t &event)
Wrapper around cudaEventQuery or cuEventQuery.
Definition: quda_cuda_api.cpp:190

quda::qudaStreamWaitEvent
cudaError_t qudaStreamWaitEvent(cudaStream_t stream, cudaEvent_t event, unsigned int flags)
Wrapper around cudaEventRecord or cuEventRecord.
Definition: quda_cuda_api.cpp:226

getVerbosity
QudaVerbosity getVerbosity()
Definition: util_quda.cpp:20

func
const void * func
Definition: CMakeCUDACompilerId.cpp1.ii:2248

src
const void * src
Definition: CMakeCUDACompilerId.cpp1.ii:2290

quda::QUDA_PROFILE_EVENT_QUERY
Definition: quda_internal.h:187

errorQuda
#define errorQuda(...)
Definition: util_quda.h:90

quda::QudaMemCopy::dst
void * dst
Definition: quda_cuda_api.cpp:31

quda::stream
cudaStream_t * stream
Definition: cuda_color_spinor_field.cu:898

PROFILE
#define PROFILE(f, idx)
Definition: quda_cuda_api.cpp:18

strcpy
char * strcpy(char *__dst, const char *__src)

quda::QudaMemCopy::tuneKey
TuneKey tuneKey() const
Definition: quda_cuda_api.cpp:101

quda::copy
__host__ __device__ void copy(T1 &a, const T2 &b)
Definition: register_traits.h:114

quda::apiTimer
static TimeProfile apiTimer("CUDA API calls (driver)")

strcat
char * strcat(char *__s1, const char *__s2)

quda::QudaMemCopy::kind
const cudaMemcpyKind kind
Definition: quda_cuda_api.cpp:34

quda
Definition: blas_cublas.h:6

quda::QUDA_PROFILE_MEMCPY_D2D_ASYNC
Definition: quda_internal.h:195

quda::QUDA_PROFILE_EVENT_RECORD
Definition: quda_internal.h:186

gridDim
dim3 gridDim
Definition: CMakeCUDACompilerId.cpp1.ii:2471

param
QudaGaugeParam param
Definition: pack_test.cpp:17

quda::Tunable
Definition: tune_quda.h:60

quda::qudaStreamSynchronize
cudaError_t qudaStreamSynchronize(cudaStream_t &stream)
Wrapper around cudaStreamSynchronize or cuStreamSynchronize.
Definition: quda_cuda_api.cpp:243

quda::QUDA_PROFILE_EVENT_SYNCHRONIZE
Definition: quda_internal.h:191

quda::TimeProfile::Print
void Print()
Definition: timer.cpp:6

quda::QudaMemCopy::~QudaMemCopy
virtual ~QudaMemCopy()
Definition: quda_cuda_api.cpp:71

quda::tuneLaunch
TuneParam & tuneLaunch(Tunable &tunable, QudaTune enabled, QudaVerbosity verbosity)
Definition: tune.cpp:603

uint64_t
unsigned long long uint64_t
Definition: CMakeCUDACompilerId.cpp1.ii:4787

sharedMem
dim3 dim3 void size_t sharedMem
Definition: CMakeCUDACompilerId.cpp1.ii:2471

quda::qudaDeviceSynchronize
cudaError_t qudaDeviceSynchronize()
Wrapper around cudaDeviceSynchronize or cuDeviceSynchronize.
Definition: quda_cuda_api.cpp:277

quda::QudaMemCopy::src
const void * src
Definition: quda_cuda_api.cpp:32

quda::QUDA_PROFILE_DEVICE_SYNCHRONIZE
Definition: quda_internal.h:193

memcpy
void * memcpy(void *__dst, const void *__src, size_t __n)

cudaErrorUnknown
return cudaErrorUnknown
Definition: CMakeCUDACompilerId.cpp1.ii:2240

quda::QUDA_PROFILE_STREAM_SYNCHRONIZE
Definition: quda_internal.h:192

quda::activeTuning
bool activeTuning()
query if tuning is in progress
Definition: tune.cpp:103

tune_quda.h

args
dim3 dim3 void ** args
Definition: CMakeCUDACompilerId.cpp1.ii:2471

quda::QudaMemCopy::QudaMemCopy
QudaMemCopy(void *dst, const void *src, size_t count, cudaMemcpyKind kind, const char *func, const char *file, const char *line)
Definition: quda_cuda_api.cpp:41

quda::QudaMemCopy::advanceTuneParam
bool advanceTuneParam(TuneParam &param) const
Definition: quda_cuda_api.cpp:99

QUDA_DEBUG_VERBOSE
Definition: enum_quda.h:238

dpitch
size_t dpitch
Definition: CMakeCUDACompilerId.cpp1.ii:2292

kind
const void size_t enum cudaMemcpyKind kind
Definition: CMakeCUDACompilerId.cpp1.ii:2549

quda::qudaMemcpyAsync_
void qudaMemcpyAsync_(void *dst, const void *src, size_t count, cudaMemcpyKind kind, const cudaStream_t &stream, const char *func, const char *file, const char *line)
Wrapper around cudaMemcpyAsync or driver API equivalent Potentially add auto-profiling support...
Definition: quda_cuda_api.cpp:128

quda::QUDA_PROFILE_MEMCPY2D_D2H_ASYNC
Definition: quda_internal.h:197

quda::QudaMemCopy::sharedBytesPerBlock
unsigned int sharedBytesPerBlock(const TuneParam &param) const
Definition: quda_cuda_api.cpp:38

printfQuda
#define printfQuda(...)
Definition: util_quda.h:84

quda::QudaMemCopy::name
const char * name
Definition: quda_cuda_api.cpp:35

quda::QudaMemCopy::sharedBytesPerThread
unsigned int sharedBytesPerThread() const
Definition: quda_cuda_api.cpp:37

quda::printAPIProfile
void printAPIProfile()
Print out the timer profile for CUDA API calls.
Definition: quda_cuda_api.cpp:303

quda::qudaEventRecord
cudaError_t qudaEventRecord(cudaEvent_t &event, cudaStream_t stream=0)
Wrapper around cudaEventRecord or cuEventRecord.
Definition: quda_cuda_api.cpp:209

quda::QudaMemCopy::flops
long long flops() const
Definition: quda_cuda_api.cpp:108

checkCudaError
#define checkCudaError()
Definition: util_quda.h:129

uint_to_char.h

flags
const void int size_t unsigned int flags
Definition: CMakeCUDACompilerId.cpp1.ii:2254

getTuning
QudaTune getTuning()
Query whether autotuning is enabled or not. Default is enabled but can be overridden by setting QUDA_...
Definition: util_quda.cpp:51

quda::u64toa
void u64toa(char *buffer, uint64_t value)
Definition: uint_to_char.h:127

value
int value
Definition: CMakeCUDACompilerId.cpp1.ii:2296

height
size_t const void size_t size_t size_t height
Definition: CMakeCUDACompilerId.cpp1.ii:2292

quda::count
__device__ unsigned int count[QUDA_MAX_MULTI_REDUCE]
Definition: cub_helper.cuh:118

quda::QudaMemCopy::apply
void apply(const cudaStream_t &stream)
Definition: quda_cuda_api.cpp:73

quda::QUDA_PROFILE_MEMCPY_H2D_ASYNC
Definition: quda_internal.h:198

quda::QUDA_PROFILE_LAUNCH_KERNEL
Definition: quda_internal.h:185

quda::qudaLaunchKernel
cudaError_t qudaLaunchKernel(const void *func, dim3 gridDim, dim3 blockDim, void **args, size_t sharedMem, cudaStream_t stream)
Wrapper around cudaLaunchKernel.
Definition: quda_cuda_api.cpp:182

quda::Tunable::aux
char aux[TuneKey::aux_n]
Definition: tune_quda.h:189

quda::QUDA_PROFILE_FUNC_SET_ATTRIBUTE
Definition: quda_internal.h:189

quda::TuneKey
Definition: tune_key.h:8

quda::QUDA_PROFILE_MEMCPY_D2H_ASYNC
Definition: quda_internal.h:196

quda::qudaMemcpy_
void qudaMemcpy_(void *dst, const void *src, size_t count, cudaMemcpyKind kind, const char *func, const char *file, const char *line)
Wrapper around cudaMemcpy used for auto-profiling. Do not call directly, rather call macro below whic...
Definition: quda_cuda_api.cpp:113

quda_internal.h