quda-ref/v1.0.0/quda__cuda__api_8cpp_source.html

 #include <tune_quda.h>
 #include <uint_to_char.h>
 #include <quda_internal.h>

 // if this macro is defined then we use the driver API, else use the
 // runtime API.  Typically the driver API has 10-20% less overhead
 #define USE_DRIVER_API

 // if this macro is defined then we profile the CUDA API calls
 //#define API_PROFILE

 #ifdef API_PROFILE
 #define PROFILE(f, idx)                                 \
   apiTimer.TPSTART(idx);        \
   f;                                                    \
   apiTimer.TPSTOP(idx);
 #else
 #define PROFILE(f, idx) f;
 #endif

 namespace quda {

 #ifdef USE_DRIVER_API
   static TimeProfile apiTimer("CUDA API calls (driver)");
 #else
   static TimeProfile apiTimer("CUDA API calls (runtime)");
 #endif

   class QudaMemCopy : public Tunable {

     void *dst;
     const void *src;
     const size_t count;
     const cudaMemcpyKind kind;
     const bool async;
     const char *name;

     unsigned int sharedBytesPerThread() const { return 0; }
     unsigned int sharedBytesPerBlock(const TuneParam &param) const { return 0; }

   public:
     inline QudaMemCopy(void *dst, const void *src, size_t count, cudaMemcpyKind kind,
            bool async, const char *func, const char *file, const char *line)
       : dst(dst), src(src), count(count), kind(kind), async(async) {

       if (!async) {
         switch (kind) {
         case cudaMemcpyDeviceToHost:   name = "cudaMemcpyDeviceToHost";   break;
         case cudaMemcpyHostToDevice:   name = "cudaMemcpyHostToDevice";   break;
         case cudaMemcpyHostToHost:     name = "cudaMemcpyHostToHost";     break;
         case cudaMemcpyDeviceToDevice: name = "cudaMemcpyDeviceToDevice"; break;
         case cudaMemcpyDefault:        name = "cudaMemcpyDefault";        break;
         default: errorQuda("Unsupported cudaMemcpyType %d", kind);
         }
       } else {
         switch(kind) {
         case cudaMemcpyDeviceToHost:   name = "cudaMemcpyAsyncDeviceToHost";   break;
         case cudaMemcpyHostToDevice:   name = "cudaMemcpyAsyncHostToDevice";   break;
         case cudaMemcpyHostToHost:     name = "cudaMemcpyAsyncHostToHost";     break;
         case cudaMemcpyDeviceToDevice: name = "cudaMemcpyAsyncDeviceToDevice"; break;
         case cudaMemcpyDefault:        name = "cudaMemcpyAsyncDefault";        break;
         default: errorQuda("Unsupported cudaMemcpyType %d", kind);
         }
       }
       strcpy(aux, func);
       strcat(aux, ",");
       strcat(aux, file);
       strcat(aux, ",");
       strcat(aux, line);
     }

     virtual ~QudaMemCopy() { }

     inline void apply(const cudaStream_t &stream) {
       tuneLaunch(*this, getTuning(), getVerbosity());
       if (async) {
 #ifdef USE_DRIVER_API
         switch (kind) {
         case cudaMemcpyDeviceToHost:
           PROFILE(cuMemcpyDtoHAsync(dst, (CUdeviceptr)src, count, stream), QUDA_PROFILE_MEMCPY_D2H_ASYNC);
           break;
         case cudaMemcpyHostToDevice:
           PROFILE(cuMemcpyHtoDAsync((CUdeviceptr)dst, src, count, stream), QUDA_PROFILE_MEMCPY_H2D_ASYNC);
           break;
         case cudaMemcpyDeviceToDevice:
           PROFILE(cuMemcpyDtoDAsync((CUdeviceptr)dst, (CUdeviceptr)src, count, stream), QUDA_PROFILE_MEMCPY_D2D_ASYNC);
           break;
         default:
           errorQuda("Unsupported cuMemcpyTypeAsync %d", kind);
         }
 #else
         PROFILE(cudaMemcpyAsync(dst, src, count, kind, stream),
                 kind == cudaMemcpyDeviceToHost ? QUDA_PROFILE_MEMCPY_D2H_ASYNC : QUDA_PROFILE_MEMCPY_H2D_ASYNC);
 #endif
       } else {
 #ifdef USE_DRIVER_API
         switch(kind) {
         case cudaMemcpyDeviceToHost:   cuMemcpyDtoH(dst, (CUdeviceptr)src, count);              break;
         case cudaMemcpyHostToDevice:   cuMemcpyHtoD((CUdeviceptr)dst, src, count);              break;
         case cudaMemcpyHostToHost:     memcpy(dst, src, count);                                 break;
         case cudaMemcpyDeviceToDevice: cuMemcpyDtoD((CUdeviceptr)dst, (CUdeviceptr)src, count); break;
         case cudaMemcpyDefault:        cuMemcpy((CUdeviceptr)dst, (CUdeviceptr)src, count);     break;
         default:
   errorQuda("Unsupported cudaMemcpyType %d", kind);
         }
 #else
         cudaMemcpy(dst, src, count, kind);
 #endif
       }
     }

     bool advanceTuneParam(TuneParam &param) const { return false; }

     TuneKey tuneKey() const {
       char vol[128];
       strcpy(vol,"bytes=");
       u64toa(vol+6, (uint64_t)count);
       return TuneKey(vol, name, aux);
     }

     long long flops() const { return 0; }
     long long bytes() const { return kind == cudaMemcpyDeviceToDevice ? 2*count : count; }

   };

   void qudaMemcpy_(void *dst, const void *src, size_t count, cudaMemcpyKind kind,
                    const char *func, const char *file, const char *line) {
     if (count == 0) return;
 #if 1
     QudaMemCopy copy(dst, src, count, kind, false, func, file, line);
     copy.apply(0);
 #else
     cudaMemcpy(dst, src, count, kind);
 #endif
     cudaError_t error = cudaGetLastError();
     if (error != cudaSuccess)
       errorQuda("(CUDA) %s\n (%s:%s in %s())\n", cudaGetErrorString(error), file, line, func);
   }

   void qudaMemcpyAsync_(void *dst, const void *src, size_t count, cudaMemcpyKind kind, const cudaStream_t &stream,
                         const char *func, const char *file, const char *line)
   {
     if (count == 0) return;

     if (kind == cudaMemcpyDeviceToDevice) {
       QudaMemCopy copy(dst, src, count, kind, true, func, file, line);
       copy.apply(stream);
     } else {
 #ifdef USE_DRIVER_API
       switch (kind) {
       case cudaMemcpyDeviceToHost:
         PROFILE(cuMemcpyDtoHAsync(dst, (CUdeviceptr)src, count, stream), QUDA_PROFILE_MEMCPY_D2H_ASYNC);
         break;
       case cudaMemcpyHostToDevice:
         PROFILE(cuMemcpyHtoDAsync((CUdeviceptr)dst, src, count, stream), QUDA_PROFILE_MEMCPY_H2D_ASYNC);
         break;
       case cudaMemcpyDeviceToDevice:
         PROFILE(cuMemcpyDtoDAsync((CUdeviceptr)dst, (CUdeviceptr)src, count, stream), QUDA_PROFILE_MEMCPY_D2D_ASYNC);
         break;
       default:
         errorQuda("Unsupported cuMemcpyTypeAsync %d", kind);
       }
 #else
       PROFILE(cudaMemcpyAsync(dst, src, count, kind, stream),
               kind == cudaMemcpyDeviceToHost ? QUDA_PROFILE_MEMCPY_D2H_ASYNC : QUDA_PROFILE_MEMCPY_H2D_ASYNC);
 #endif
     }
   }

   void qudaMemcpy2DAsync_(void *dst, size_t dpitch, const void *src, size_t spitch,
                           size_t width, size_t height, cudaMemcpyKind kind, const cudaStream_t &stream,
                           const char *func, const char *file, const char *line)
   {
 #ifdef USE_DRIVER_API
     CUDA_MEMCPY2D param;
     param.srcPitch = spitch;
     param.srcY = 0;
     param.srcXInBytes = 0;
     param.dstPitch = dpitch;
     param.dstY = 0;
     param.dstXInBytes = 0;
     param.WidthInBytes = width;
     param.Height = height;

     switch (kind) {
     case cudaMemcpyDeviceToHost:
       param.srcDevice = (CUdeviceptr)src;
       param.srcMemoryType = CU_MEMORYTYPE_DEVICE;
       param.dstHost = dst;
       param.dstMemoryType = CU_MEMORYTYPE_HOST;
       break;
     default:
       errorQuda("Unsupported cuMemcpyType2DAsync %d", kind);
     }
     PROFILE(cuMemcpy2DAsync(&param, stream), QUDA_PROFILE_MEMCPY2D_D2H_ASYNC);
 #else
     PROFILE(cudaMemcpy2DAsync(dst, dpitch, src, spitch, width, height, kind, stream), QUDA_PROFILE_MEMCPY2D_D2H_ASYNC);
 #endif
   }

   cudaError_t qudaLaunchKernel(const void* func, dim3 gridDim, dim3 blockDim, void** args, size_t sharedMem, cudaStream_t stream)
   {
     // no driver API variant here since we have C++ functions
     PROFILE(cudaError_t error = cudaLaunchKernel(func, gridDim, blockDim, args, sharedMem, stream), QUDA_PROFILE_LAUNCH_KERNEL);
     if (error != cudaSuccess && !activeTuning()) errorQuda("(CUDA) %s", cudaGetErrorString(error));
     return error;
   }

   cudaError_t qudaEventQuery(cudaEvent_t &event)
   {
 #ifdef USE_DRIVER_API
     PROFILE(CUresult error = cuEventQuery(event), QUDA_PROFILE_EVENT_QUERY);
     switch (error) {
     case CUDA_SUCCESS:
       return cudaSuccess;
     case CUDA_ERROR_NOT_READY: // this is the only return value care about
       return cudaErrorNotReady;
     default:
       const char *str;
       cuGetErrorName(error, &str);
       errorQuda("cuEventQuery returned error %s", str);
     }
     return cudaErrorUnknown;
 #else
     PROFILE(cudaError_t error = cudaEventQuery(event), QUDA_PROFILE_EVENT_QUERY);
     return error;
 #endif
   }

   cudaError_t qudaEventRecord(cudaEvent_t &event, cudaStream_t stream)
   {
 #ifdef USE_DRIVER_API
     PROFILE(CUresult error = cuEventRecord(event, stream), QUDA_PROFILE_EVENT_RECORD);
     switch (error) {
     case CUDA_SUCCESS:
       return cudaSuccess;
     default: // should always return successful
       const char *str;
       cuGetErrorName(error, &str);
       errorQuda("cuEventrecord returned error %s", str);
     }
     return cudaErrorUnknown;
 #else
     PROFILE(cudaError_t error = cudaEventRecord(event, stream), QUDA_PROFILE_EVENT_RECORD);
     return error;
 #endif
   }

   cudaError_t qudaStreamWaitEvent(cudaStream_t stream, cudaEvent_t event, unsigned int flags)
   {
 #ifdef USE_DRIVER_API
     PROFILE(CUresult error = cuStreamWaitEvent(stream, event, flags), QUDA_PROFILE_STREAM_WAIT_EVENT);
     switch (error) {
     case CUDA_SUCCESS:
       return cudaSuccess;
     default: // should always return successful
       const char *str;
       cuGetErrorName(error, &str);
       errorQuda("cuStreamWaitEvent returned error %s", str);
     }
     return cudaErrorUnknown;
 #else
     PROFILE(cudaError_t error = cudaStreamWaitEvent(stream, event, flags), QUDA_PROFILE_STREAM_WAIT_EVENT);
     return error;
 #endif
   }

   cudaError_t qudaStreamSynchronize(cudaStream_t &stream)
   {
 #ifdef USE_DRIVER_API
     PROFILE(CUresult error = cuStreamSynchronize(stream), QUDA_PROFILE_STREAM_SYNCHRONIZE);
     switch (error) {
     case CUDA_SUCCESS:
       return cudaSuccess;
     default: // should always return successful
       const char *str;
       cuGetErrorName(error, &str);
       errorQuda("cuStreamSynchronize returned error %s", str);
     }
     return cudaErrorUnknown;
 #else
     PROFILE(cudaError_t error = cudaStreamSynchronize(stream), QUDA_PROFILE_STREAM_SYNCHRONIZE);
     return error;
 #endif
   }

   cudaError_t qudaEventSynchronize(cudaEvent_t &event)
   {
 #ifdef USE_DRIVER_API
     PROFILE(CUresult error = cuEventSynchronize(event), QUDA_PROFILE_EVENT_SYNCHRONIZE);
     switch (error) {
     case CUDA_SUCCESS:
       return cudaSuccess;
     default: // should always return successful
       const char *str;
       cuGetErrorName(error, &str);
       errorQuda("cuEventSynchronize returned error %s", str);
     }
     return cudaErrorUnknown;
 #else
     PROFILE(cudaError_t error = cudaEventSynchronize(event), QUDA_PROFILE_EVENT_SYNCHRONIZE);
     return error;
 #endif
   }

   cudaError_t qudaDeviceSynchronize_(const char *func, const char *file, const char *line)
   {
 #ifdef USE_DRIVER_API
     PROFILE(CUresult error = cuCtxSynchronize(), QUDA_PROFILE_DEVICE_SYNCHRONIZE);
     switch (error) {
     case CUDA_SUCCESS:
       return cudaSuccess;
     default: // should always return successful
       const char *str;
       cuGetErrorName(error, &str);
       errorQuda("cuCtxSynchronize returned error %s (%s:%s in %s())\n", str, file, line, func);
     }
     return cudaErrorUnknown;
 #else
     PROFILE(cudaError_t error = cudaDeviceSynchronize(), QUDA_PROFILE_DEVICE_SYNCHRONIZE);
     if (error != cudaSuccess)
       errorQuda("(CUDA) %s\n (%s:%s in %s())\n", cudaGetErrorString(error), file, line, func);
     return error;
 #endif
   }

 #if (CUDA_VERSION >= 9000)
   cudaError_t qudaFuncSetAttribute(const void* func, cudaFuncAttribute attr, int value)
   {
     // no driver API variant here since we have C++ functions
     PROFILE(cudaError_t error = cudaFuncSetAttribute(func, attr, value), QUDA_PROFILE_FUNC_SET_ATTRIBUTE);
     return error;
   }
 #endif

   void printAPIProfile() {
 #ifdef API_PROFILE
     apiTimer.Print();
 #endif
   }

 } // namespace quda
quda::QudaMemCopy::count
const size_t count
Definition: quda_cuda_api.cpp:33

quda::QUDA_PROFILE_STREAM_WAIT_EVENT
Definition: timer.h:127

quda::TuneParam
Definition: tune_quda.h:17

quda::QudaMemCopy
Definition: quda_cuda_api.cpp:29

quda::qudaMemcpy2DAsync_
void qudaMemcpy2DAsync_(void *dst, size_t dpitch, const void *src, size_t spitch, size_t width, size_t hieght, cudaMemcpyKind kind, const cudaStream_t &stream, const char *func, const char *file, const char *line)
Wrapper around cudaMemcpy2DAsync or driver API equivalent Potentially add auto-profiling support...
Definition: quda_cuda_api.cpp:170

quda::qudaEventSynchronize
cudaError_t qudaEventSynchronize(cudaEvent_t &event)
Wrapper around cudaEventSynchronize or cuEventSynchronize.
Definition: quda_cuda_api.cpp:287

quda::QudaMemCopy::bytes
long long bytes() const
Definition: quda_cuda_api.cpp:122

quda::qudaEventQuery
cudaError_t qudaEventQuery(cudaEvent_t &event)
Wrapper around cudaEventQuery or cuEventQuery.
Definition: quda_cuda_api.cpp:209

quda::qudaStreamWaitEvent
cudaError_t qudaStreamWaitEvent(cudaStream_t stream, cudaEvent_t event, unsigned int flags)
Wrapper around cudaEventRecord or cuEventRecord.
Definition: quda_cuda_api.cpp:249

getVerbosity
QudaVerbosity getVerbosity()
Definition: util_quda.cpp:21

quda::QUDA_PROFILE_EVENT_QUERY
Definition: timer.h:126

errorQuda
#define errorQuda(...)
Definition: util_quda.h:121

quda::QudaMemCopy::dst
void * dst
Definition: quda_cuda_api.cpp:31

quda::stream
cudaStream_t * stream
Definition: cuda_color_spinor_field.cpp:897

PROFILE
#define PROFILE(f, idx)
Definition: quda_cuda_api.cpp:18

quda::QudaMemCopy::tuneKey
TuneKey tuneKey() const
Definition: quda_cuda_api.cpp:114

quda::copy
__host__ __device__ void copy(T1 &a, const T2 &b)
Definition: register_traits.h:152

quda::apiTimer
static TimeProfile apiTimer("CUDA API calls (driver)")

quda::QudaMemCopy::kind
const cudaMemcpyKind kind
Definition: quda_cuda_api.cpp:34

quda
Definition: blas_cublas.h:5

quda::QUDA_PROFILE_MEMCPY_D2D_ASYNC
Definition: timer.h:134

quda::QUDA_PROFILE_EVENT_RECORD
Definition: timer.h:125

param
QudaGaugeParam param
Definition: pack_test.cpp:17

quda::Tunable
Definition: tune_quda.h:59

quda::qudaStreamSynchronize
cudaError_t qudaStreamSynchronize(cudaStream_t &stream)
Wrapper around cudaStreamSynchronize or cuStreamSynchronize.
Definition: quda_cuda_api.cpp:268

quda::qudaDeviceSynchronize_
cudaError_t qudaDeviceSynchronize_(const char *func, const char *file, const char *line)
Wrapper around cudaDeviceSynchronize or cuDeviceSynchronize.
Definition: quda_cuda_api.cpp:306

quda::QUDA_PROFILE_EVENT_SYNCHRONIZE
Definition: timer.h:130

quda::QudaMemCopy::~QudaMemCopy
virtual ~QudaMemCopy()
Definition: quda_cuda_api.cpp:72

quda::tuneLaunch
TuneParam & tuneLaunch(Tunable &tunable, QudaTune enabled, QudaVerbosity verbosity)
Definition: tune.cpp:643

quda::QudaMemCopy::src
const void * src
Definition: quda_cuda_api.cpp:32

quda::QUDA_PROFILE_DEVICE_SYNCHRONIZE
Definition: timer.h:132

quda::QUDA_PROFILE_STREAM_SYNCHRONIZE
Definition: timer.h:131

quda::activeTuning
bool activeTuning()
query if tuning is in progress
Definition: tune.cpp:121

tune_quda.h

quda::QudaMemCopy::advanceTuneParam
bool advanceTuneParam(TuneParam &param) const
Definition: quda_cuda_api.cpp:112

quda::qudaMemcpyAsync_
void qudaMemcpyAsync_(void *dst, const void *src, size_t count, cudaMemcpyKind kind, const cudaStream_t &stream, const char *func, const char *file, const char *line)
Wrapper around cudaMemcpyAsync or driver API equivalent Potentially add auto-profiling support...
Definition: quda_cuda_api.cpp:140

quda::QUDA_PROFILE_MEMCPY2D_D2H_ASYNC
Definition: timer.h:136

quda::QudaMemCopy::sharedBytesPerBlock
unsigned int sharedBytesPerBlock(const TuneParam &param) const
Definition: quda_cuda_api.cpp:39

quda::QudaMemCopy::name
const char * name
Definition: quda_cuda_api.cpp:36

quda::QudaMemCopy::sharedBytesPerThread
unsigned int sharedBytesPerThread() const
Definition: quda_cuda_api.cpp:38

quda::QudaMemCopy::QudaMemCopy
QudaMemCopy(void *dst, const void *src, size_t count, cudaMemcpyKind kind, bool async, const char *func, const char *file, const char *line)
Definition: quda_cuda_api.cpp:42

quda::printAPIProfile
void printAPIProfile()
Print out the timer profile for CUDA API calls.
Definition: quda_cuda_api.cpp:336

quda::qudaEventRecord
cudaError_t qudaEventRecord(cudaEvent_t &event, cudaStream_t stream=0)
Wrapper around cudaEventRecord or cuEventRecord.
Definition: quda_cuda_api.cpp:230

quda::QudaMemCopy::flops
long long flops() const
Definition: quda_cuda_api.cpp:121

uint_to_char.h

getTuning
QudaTune getTuning()
Query whether autotuning is enabled or not. Default is enabled but can be overridden by setting QUDA_...
Definition: util_quda.cpp:52

flags
bool flags
Definition: eigensolve_quda.cpp:18

quda::u64toa
void u64toa(char *buffer, uint64_t value)
Definition: uint_to_char.h:127

quda::QudaMemCopy::apply
void apply(const cudaStream_t &stream)
Definition: quda_cuda_api.cpp:74

quda::QUDA_PROFILE_MEMCPY_H2D_ASYNC
Definition: timer.h:137

quda::QUDA_PROFILE_LAUNCH_KERNEL
Definition: timer.h:124

quda::qudaLaunchKernel
cudaError_t qudaLaunchKernel(const void *func, dim3 gridDim, dim3 blockDim, void **args, size_t sharedMem, cudaStream_t stream)
Wrapper around cudaLaunchKernel.
Definition: quda_cuda_api.cpp:201

quda::Tunable::aux
char aux[TuneKey::aux_n]
Definition: tune_quda.h:265

quda::QUDA_PROFILE_FUNC_SET_ATTRIBUTE
Definition: timer.h:128

quda::TuneKey
Definition: tune_key.h:8

quda::QUDA_PROFILE_MEMCPY_D2H_ASYNC
Definition: timer.h:135

quda::QudaMemCopy::async
const bool async
Definition: quda_cuda_api.cpp:35

quda::qudaMemcpy_
void qudaMemcpy_(void *dst, const void *src, size_t count, cudaMemcpyKind kind, const char *func, const char *file, const char *line)
Wrapper around cudaMemcpy used for auto-profiling. Do not call directly, rather call macro below whic...
Definition: quda_cuda_api.cpp:126

quda_internal.h