quda-ref/v1.0.0/quda__cuda__api_8h_source.html

 #pragma once

 #ifndef __CUDACC_RTC__
 #include <cuda.h>
 #include <cuda_runtime.h>
 #include <quda_cuda_api.h>

 namespace quda {

   void qudaMemcpy_(void *dst, const void *src, size_t count, cudaMemcpyKind kind,
        const char *func, const char *file, const char *line);

 }

 #define STRINGIFY__(x) #x
 #define __STRINGIFY__(x) STRINGIFY__(x)
 #define qudaMemcpy(dst, src, count, kind) \
   ::quda::qudaMemcpy_(dst, src, count, kind, __func__, quda::file_name(__FILE__), __STRINGIFY__(__LINE__));

 #define STRINGIFY__(x) #x
 #define __STRINGIFY__(x) STRINGIFY__(x)
 #define qudaMemcpyAsync(dst, src, count, kind, stream) \
   ::quda::qudaMemcpyAsync_(dst, src, count, kind, stream, __func__, quda::file_name(__FILE__), __STRINGIFY__(__LINE__));

 #define STRINGIFY__(x) #x
 #define __STRINGIFY__(x) STRINGIFY__(x)
 #define qudaMemcpy2DAsync(dst, dpitch, src, spitch, width, height, kind, stream) \
   ::quda::qudaMemcpy2DAsync_(dst, dpitch, src, spitch, width, height, kind, stream, __func__, quda::file_name(__FILE__), __STRINGIFY__(__LINE__));

 namespace quda {

   void qudaMemcpyAsync_(void *dst, const void *src, size_t count, cudaMemcpyKind kind, const cudaStream_t &stream,
                         const char *func, const char *file, const char *line);

   void qudaMemcpy2DAsync_(void *dst, size_t dpitch, const void *src, size_t spitch,
                           size_t width, size_t hieght, cudaMemcpyKind kind, const cudaStream_t &stream,
                           const char *func, const char *file, const char *line);

   cudaError_t qudaLaunchKernel(const void* func, dim3 gridDim, dim3 blockDim, void** args, size_t sharedMem, cudaStream_t stream);

   cudaError_t qudaEventQuery(cudaEvent_t &event);

   cudaError_t qudaEventRecord(cudaEvent_t &event, cudaStream_t stream=0);

   cudaError_t qudaStreamWaitEvent(cudaStream_t stream, cudaEvent_t event, unsigned int flags);

   cudaError_t qudaStreamSynchronize(cudaStream_t &stream);

   cudaError_t qudaEventSynchronize(cudaEvent_t &event);

   cudaError_t qudaDeviceSynchronize_(const char *func, const char *file, const char *line);

 #if CUDA_VERSION >= 9000

   cudaError_t qudaFuncSetAttribute(const void* func, cudaFuncAttribute attr, int value);
 #endif

   void printAPIProfile();

 } // namespace quda

 #define STRINGIFY__(x) #x
 #define __STRINGIFY__(x) STRINGIFY__(x)
 #define qudaDeviceSynchronize() \
   ::quda::qudaDeviceSynchronize_(__func__, quda::file_name(__FILE__), __STRINGIFY__(__LINE__));

 #endif
quda::qudaMemcpy2DAsync_
void qudaMemcpy2DAsync_(void *dst, size_t dpitch, const void *src, size_t spitch, size_t width, size_t hieght, cudaMemcpyKind kind, const cudaStream_t &stream, const char *func, const char *file, const char *line)
Wrapper around cudaMemcpy2DAsync or driver API equivalent Potentially add auto-profiling support...
Definition: quda_cuda_api.cpp:170

quda::qudaEventSynchronize
cudaError_t qudaEventSynchronize(cudaEvent_t &event)
Wrapper around cudaEventSynchronize or cuEventSynchronize.
Definition: quda_cuda_api.cpp:287

quda::qudaEventQuery
cudaError_t qudaEventQuery(cudaEvent_t &event)
Wrapper around cudaEventQuery or cuEventQuery.
Definition: quda_cuda_api.cpp:209

quda::qudaStreamWaitEvent
cudaError_t qudaStreamWaitEvent(cudaStream_t stream, cudaEvent_t event, unsigned int flags)
Wrapper around cudaEventRecord or cuEventRecord.
Definition: quda_cuda_api.cpp:249

quda::stream
cudaStream_t * stream
Definition: cuda_color_spinor_field.cpp:897

quda_cuda_api.h

quda
Definition: blas_cublas.h:5

quda::qudaStreamSynchronize
cudaError_t qudaStreamSynchronize(cudaStream_t &stream)
Wrapper around cudaStreamSynchronize or cuStreamSynchronize.
Definition: quda_cuda_api.cpp:268

quda::qudaDeviceSynchronize_
cudaError_t qudaDeviceSynchronize_(const char *func, const char *file, const char *line)
Wrapper around cudaDeviceSynchronize or cuDeviceSynchronize.
Definition: quda_cuda_api.cpp:306

quda::qudaMemcpyAsync_
void qudaMemcpyAsync_(void *dst, const void *src, size_t count, cudaMemcpyKind kind, const cudaStream_t &stream, const char *func, const char *file, const char *line)
Wrapper around cudaMemcpyAsync or driver API equivalent Potentially add auto-profiling support...
Definition: quda_cuda_api.cpp:140

quda::printAPIProfile
void printAPIProfile()
Print out the timer profile for CUDA API calls.
Definition: quda_cuda_api.cpp:336

quda::qudaEventRecord
cudaError_t qudaEventRecord(cudaEvent_t &event, cudaStream_t stream=0)
Wrapper around cudaEventRecord or cuEventRecord.
Definition: quda_cuda_api.cpp:230

flags
bool flags
Definition: eigensolve_quda.cpp:18

quda::count
__device__ unsigned int count[QUDA_MAX_MULTI_REDUCE]
Definition: cub_helper.cuh:90

quda::qudaLaunchKernel
cudaError_t qudaLaunchKernel(const void *func, dim3 gridDim, dim3 blockDim, void **args, size_t sharedMem, cudaStream_t stream)
Wrapper around cudaLaunchKernel.
Definition: quda_cuda_api.cpp:201

quda::qudaMemcpy_
void qudaMemcpy_(void *dst, const void *src, size_t count, cudaMemcpyKind kind, const char *func, const char *file, const char *line)
Wrapper around cudaMemcpy used for auto-profiling. Do not call directly, rather call macro below whic...
Definition: quda_cuda_api.cpp:126