v0.9.0/doc/quda__cuda__api_8h_source.html

 #pragma once

 #include <cuda.h>
 #include <cuda_runtime.h>
 #include <quda_cuda_api.h>

 namespace quda {

   void qudaMemcpy_(void *dst, const void *src, size_t count, cudaMemcpyKind kind,
        const char *func, const char *file, const char *line);

 }

 #define STRINGIFY__(x) #x
 #define __STRINGIFY__(x) STRINGIFY__(x)
 #define qudaMemcpy(dst, src, count, kind) \
   ::quda::qudaMemcpy_(dst, src, count, kind, __func__, quda::file_name(__FILE__), __STRINGIFY__(__LINE__));

 #define STRINGIFY__(x) #x
 #define __STRINGIFY__(x) STRINGIFY__(x)
 #define qudaMemcpyAsync(dst, src, count, kind, stream) \
   ::quda::qudaMemcpyAsync_(dst, src, count, kind, stream, __func__, quda::file_name(__FILE__), __STRINGIFY__(__LINE__));

 #define STRINGIFY__(x) #x
 #define __STRINGIFY__(x) STRINGIFY__(x)
 #define qudaMemcpy2DAsync(dst, dpitch, src, spitch, width, height, kind, stream) \
   ::quda::qudaMemcpy2DAsync_(dst, dpitch, src, spitch, width, height, kind, stream, __func__, quda::file_name(__FILE__), __STRINGIFY__(__LINE__));

 namespace quda {

   void qudaMemcpyAsync_(void *dst, const void *src, size_t count, cudaMemcpyKind kind, const cudaStream_t &stream,
                         const char *func, const char *file, const char *line);

   void qudaMemcpy2DAsync_(void *dst, size_t dpitch, const void *src, size_t spitch,
                           size_t width, size_t hieght, cudaMemcpyKind kind, const cudaStream_t &stream,
                           const char *func, const char *file, const char *line);

   cudaError_t qudaLaunchKernel(const void* func, dim3 gridDim, dim3 blockDim, void** args, size_t sharedMem, cudaStream_t stream);

   cudaError_t qudaEventQuery(cudaEvent_t &event);

   cudaError_t qudaEventRecord(cudaEvent_t &event, cudaStream_t stream=0);

   cudaError_t qudaStreamWaitEvent(cudaStream_t stream, cudaEvent_t event, unsigned int flags);

   cudaError_t qudaStreamSynchronize(cudaStream_t &stream);

   cudaError_t qudaEventSynchronize(cudaEvent_t &event);

   cudaError_t qudaDeviceSynchronize();

 #if (CUDA_VERSION >= 9000)

   cudaError_t qudaFuncSetAttribute(const void* func, cudaFuncAttribute attr, int value);
 #endif

   void printAPIProfile();

 } // namespace quda
spitch
size_t const void size_t spitch
Definition: CMakeCUDACompilerId.cpp1.ii:2292

event
cudaEvent_t event
Definition: CMakeCUDACompilerId.cpp1.ii:2281

blockDim
dim3 dim3 blockDim
Definition: CMakeCUDACompilerId.cpp1.ii:2471

width
size_t const void size_t size_t width
Definition: CMakeCUDACompilerId.cpp1.ii:2292

quda::qudaMemcpy2DAsync_
void qudaMemcpy2DAsync_(void *dst, size_t dpitch, const void *src, size_t spitch, size_t width, size_t hieght, cudaMemcpyKind kind, const cudaStream_t &stream, const char *func, const char *file, const char *line)
Wrapper around cudaMemcpy2DAsync or driver API equivalent Potentially add auto-profiling support...
Definition: quda_cuda_api.cpp:151

quda::qudaEventSynchronize
cudaError_t qudaEventSynchronize(cudaEvent_t &event)
Wrapper around cudaEventSynchronize or cuEventSynchronize.
Definition: quda_cuda_api.cpp:260

quda::qudaEventQuery
cudaError_t qudaEventQuery(cudaEvent_t &event)
Wrapper around cudaEventQuery or cuEventQuery.
Definition: quda_cuda_api.cpp:190

quda::qudaStreamWaitEvent
cudaError_t qudaStreamWaitEvent(cudaStream_t stream, cudaEvent_t event, unsigned int flags)
Wrapper around cudaEventRecord or cuEventRecord.
Definition: quda_cuda_api.cpp:226

func
const void * func
Definition: CMakeCUDACompilerId.cpp1.ii:2248

src
const void * src
Definition: CMakeCUDACompilerId.cpp1.ii:2290

quda::stream
cudaStream_t * stream
Definition: cuda_color_spinor_field.cu:898

quda_cuda_api.h

quda
Definition: blas_cublas.h:6

gridDim
dim3 gridDim
Definition: CMakeCUDACompilerId.cpp1.ii:2471

quda::qudaStreamSynchronize
cudaError_t qudaStreamSynchronize(cudaStream_t &stream)
Wrapper around cudaStreamSynchronize or cuStreamSynchronize.
Definition: quda_cuda_api.cpp:243

sharedMem
dim3 dim3 void size_t sharedMem
Definition: CMakeCUDACompilerId.cpp1.ii:2471

quda::qudaDeviceSynchronize
cudaError_t qudaDeviceSynchronize()
Wrapper around cudaDeviceSynchronize or cuDeviceSynchronize.
Definition: quda_cuda_api.cpp:277

args
dim3 dim3 void ** args
Definition: CMakeCUDACompilerId.cpp1.ii:2471

dpitch
size_t dpitch
Definition: CMakeCUDACompilerId.cpp1.ii:2292

kind
const void size_t enum cudaMemcpyKind kind
Definition: CMakeCUDACompilerId.cpp1.ii:2549

quda::qudaMemcpyAsync_
void qudaMemcpyAsync_(void *dst, const void *src, size_t count, cudaMemcpyKind kind, const cudaStream_t &stream, const char *func, const char *file, const char *line)
Wrapper around cudaMemcpyAsync or driver API equivalent Potentially add auto-profiling support...
Definition: quda_cuda_api.cpp:128

quda::printAPIProfile
void printAPIProfile()
Print out the timer profile for CUDA API calls.
Definition: quda_cuda_api.cpp:303

quda::qudaEventRecord
cudaError_t qudaEventRecord(cudaEvent_t &event, cudaStream_t stream=0)
Wrapper around cudaEventRecord or cuEventRecord.
Definition: quda_cuda_api.cpp:209

flags
const void int size_t unsigned int flags
Definition: CMakeCUDACompilerId.cpp1.ii:2254

value
int value
Definition: CMakeCUDACompilerId.cpp1.ii:2296

quda::count
__device__ unsigned int count[QUDA_MAX_MULTI_REDUCE]
Definition: cub_helper.cuh:118

quda::qudaLaunchKernel
cudaError_t qudaLaunchKernel(const void *func, dim3 gridDim, dim3 blockDim, void **args, size_t sharedMem, cudaStream_t stream)
Wrapper around cudaLaunchKernel.
Definition: quda_cuda_api.cpp:182

quda::qudaMemcpy_
void qudaMemcpy_(void *dst, const void *src, size_t count, cudaMemcpyKind kind, const char *func, const char *file, const char *line)
Wrapper around cudaMemcpy used for auto-profiling. Do not call directly, rather call macro below whic...
Definition: quda_cuda_api.cpp:113