v0.9.0/doc/tune__quda_8h_source.html

 #ifndef _TUNE_QUDA_H
 #define _TUNE_QUDA_H

 #include <quda_internal.h>
 #include <dirac_quda.h>

 #include <string>
 #include <iostream>
 #include <iomanip>
 #include <cstring>
 #include <cfloat>
 #include <stdarg.h>
 #include <tune_key.h>

 namespace quda {

   class TuneParam {

   public:
     dim3 block;
     dim3 grid;
     int shared_bytes;
     int4 aux; // free parameter that can be used as an arbitrary autotuning dimension outside of launch parameters

     std::string comment;
     float time;
     long long n_calls;

     inline TuneParam() : block(32, 1, 1), grid(1, 1, 1), shared_bytes(0), aux(), time(FLT_MAX), n_calls(0) {
       aux = make_int4(1,1,1,1);
     }

     inline TuneParam(const TuneParam &param)
       : block(param.block), grid(param.grid), shared_bytes(param.shared_bytes), aux(param.aux), comment(param.comment), time(param.time), n_calls(param.n_calls) { }

     inline TuneParam& operator=(const TuneParam &param) {
       if (&param != this) {
   block = param.block;
   grid = param.grid;
   shared_bytes = param.shared_bytes;
   aux = param.aux;
   comment = param.comment;
   time = param.time;
   n_calls = param.n_calls;
       }
       return *this;
     }

     friend std::ostream& operator<<(std::ostream& output, const TuneParam& param) {
       output << "block = (" << param.block.x << ", " << param.block.y << ", " << param.block.z << ")" << std::endl;
       output << "grid = (" << param.grid.x << ", " << param.grid.y << ", " << param.grid.z << ")" << std::endl;
       output << "shared_bytes = " << param.shared_bytes << std::endl;
       output << "aux = (" << param.aux.x << ", " << param.aux.y << ", " << param.aux.z << ", " << param.aux.w << ")" << std::endl;
       output << param.comment << std::endl;
       return output;
     }
   };


   class Tunable {

   protected:
     virtual long long flops() const = 0;
     virtual long long bytes() const { return 0; } // FIXME

     // the minimum number of shared bytes per thread
     virtual unsigned int sharedBytesPerThread() const = 0;

     // the minimum number of shared bytes per thread block
     virtual unsigned int sharedBytesPerBlock(const TuneParam &param) const = 0;

     // override this if a specific thread count is required (e.g., if not grid size tuning)
     virtual unsigned int minThreads() const { return 1; }
     virtual bool tuneGridDim() const { return true; }
     virtual bool tuneAuxDim() const { return false; }
     virtual bool tuneSharedBytes() const { return true; }

     virtual bool advanceGridDim(TuneParam &param) const
     {
       if (tuneGridDim()) {
   const unsigned int max_blocks = maxGridSize();
   const int step = 1;
   param.grid.x += step;
   if (param.grid.x > max_blocks) {
     param.grid.x = minGridSize();
     return false;
   } else {
     return true;
   }
       } else {
   return false;
       }
     }

     virtual unsigned int maxBlockSize() const { return deviceProp.maxThreadsDim[0]; }
     virtual unsigned int maxGridSize() const { return 2*deviceProp.multiProcessorCount; }
     virtual unsigned int minGridSize() const { return 1; }

     virtual int blockStep() const { return deviceProp.warpSize; }
     virtual int blockMin() const { return deviceProp.warpSize; }

     virtual bool advanceBlockDim(TuneParam &param) const
     {
       const unsigned int max_threads = maxBlockSize();
       const unsigned int max_blocks = deviceProp.maxGridSize[0];
       const unsigned int max_shared = deviceProp.sharedMemPerBlock;
       const int step = blockStep();
       bool ret;

       param.block.x += step;
       int nthreads = param.block.x*param.block.y*param.block.z;
       if (param.block.x > max_threads || sharedBytesPerThread()*nthreads > max_shared) {

   if (tuneGridDim()) {
     param.block.x = step;
   } else { // not tuning the grid dimension so have to set a valid grid size
     // ensure the blockDim is large enough given the limit on gridDim
     param.block.x = (minThreads()+max_blocks-1)/max_blocks;
     param.block.x = ((param.block.x+step-1)/step)*step; // round up to nearest step size
     if(param.block.x > max_threads) errorQuda("Local lattice volume is too large for device");
   }

   ret = false;
       } else {
   ret = true;
       }

       if (!tuneGridDim())
   param.grid = dim3((minThreads()+param.block.x-1)/param.block.x, 1, 1);

       return ret;
     }

     unsigned int maxBlocksPerSM() const {
       switch (deviceProp.major) {
       case 2:
   return 8;
       case 3:
   return 16;
       case 5:
       case 6:
       case 7:
   return 32;
       default:
   errorQuda("Unknown SM architecture %d.%d\n", deviceProp.major, deviceProp.minor);
   return 0;
       }
     }

     virtual bool advanceSharedBytes(TuneParam &param) const
     {
       if (tuneSharedBytes()) {
   const int max_shared = deviceProp.sharedMemPerBlock;
   const int max_blocks_per_sm = std::min(deviceProp.maxThreadsPerMultiProcessor / (param.block.x*param.block.y*param.block.z), maxBlocksPerSM());
   int blocks_per_sm = max_shared / (param.shared_bytes ? param.shared_bytes : 1);
   if (blocks_per_sm > max_blocks_per_sm) blocks_per_sm = max_blocks_per_sm;
   param.shared_bytes = (blocks_per_sm > 0 ? max_shared / blocks_per_sm + 1 : max_shared + 1);

   if (param.shared_bytes > max_shared) {
     TuneParam next(param);
     advanceBlockDim(next); // to get next blockDim
     int nthreads = next.block.x * next.block.y * next.block.z;
     param.shared_bytes = sharedBytesPerThread()*nthreads > sharedBytesPerBlock(param) ?
       sharedBytesPerThread()*nthreads : sharedBytesPerBlock(param);
     return false;
   } else {
     return true;
   }
       } else {
   return false;
       }
     }

     virtual bool advanceAux(TuneParam &param) const { return false; }

     char aux[TuneKey::aux_n];

     int writeAuxString(const char *format, ...) {
       va_list arguments;
       va_start(arguments, format);
       int n = vsnprintf(aux, TuneKey::aux_n, format, arguments);
       if (n < 0 || n >=TuneKey::aux_n) errorQuda("Error writing auxiliary string");
       return n;
     }

   public:
     Tunable() { }
     virtual ~Tunable() { }
     virtual TuneKey tuneKey() const = 0;
     virtual void apply(const cudaStream_t &stream) = 0;
     virtual void preTune() { }
     virtual void postTune() { }
     virtual int tuningIter() const { return 1; }

     virtual std::string paramString(const TuneParam &param) const
       {
   std::stringstream ps;
   ps << "block=(" << param.block.x << "," << param.block.y << "," << param.block.z << "), ";
   if (tuneGridDim()) ps << "grid=(" << param.grid.x << "," << param.grid.y << "," << param.grid.z << "), ";
   ps << "shared=" << param.shared_bytes << ", ";

   // determine if we are tuning the auxiliary dimension
   if (tuneAuxDim()) ps << "aux=(" << param.aux.x << "," << param.aux.y << "," << param.aux.z << "," << param.aux.w << ")";
   return ps.str();
       }

     virtual std::string perfString(float time) const
       {
   float gflops = flops() / (1e9 * time);
   float gbytes = bytes() / (1e9 * time);
   std::stringstream ss;
   ss << std::setiosflags(std::ios::fixed) << std::setprecision(2) << gflops << " Gflop/s, ";
   ss << gbytes << " GB/s";
   return ss.str();
       }

     virtual void initTuneParam(TuneParam &param) const
     {
       const unsigned int max_threads = deviceProp.maxThreadsDim[0];
       const unsigned int max_blocks = deviceProp.maxGridSize[0];
       const int min_grid_size = minGridSize();
       const int min_block_size = blockMin();

       if (tuneGridDim()) {
   param.block = dim3(min_block_size,1,1);

   param.grid = dim3(min_grid_size,1,1);
       } else {
   // find the minimum valid blockDim
   param.block = dim3((minThreads()+max_blocks-1)/max_blocks, 1, 1);
   param.block.x = ((param.block.x+min_block_size-1) / min_block_size) * min_block_size; // round up to the nearest multiple of desired minimum block size
   if (param.block.x > max_threads) errorQuda("Local lattice volume is too large for device");

   param.grid = dim3((minThreads()+param.block.x-1)/param.block.x, 1, 1);
       }
       param.shared_bytes = sharedBytesPerThread()*param.block.x > sharedBytesPerBlock(param) ?
   sharedBytesPerThread()*param.block.x : sharedBytesPerBlock(param);
     }

     virtual void defaultTuneParam(TuneParam &param) const
     {
       initTuneParam(param);
       if (tuneGridDim()) param.grid = dim3(128,1,1);
     }

     virtual bool advanceTuneParam(TuneParam &param) const
     {
       return advanceSharedBytes(param) || advanceBlockDim(param) || advanceGridDim(param) || advanceAux(param);
     }

     void checkLaunchParam(TuneParam &param) {

       if (param.block.x > (unsigned int)deviceProp.maxThreadsDim[0])
   errorQuda("Requested X-dimension block size %d greater than hardware limit %d",
       param.block.x, deviceProp.maxThreadsDim[0]);

       if (param.block.y > (unsigned int)deviceProp.maxThreadsDim[1])
   errorQuda("Requested Y-dimension block size %d greater than hardware limit %d",
       param.block.y, deviceProp.maxThreadsDim[1]);

       if (param.block.z > (unsigned int)deviceProp.maxThreadsDim[2])
   errorQuda("Requested Z-dimension block size %d greater than hardware limit %d",
       param.block.z, deviceProp.maxThreadsDim[2]);

       if (param.grid.x > (unsigned int)deviceProp.maxGridSize[0]){
   errorQuda("Requested X-dimension grid size %d greater than hardware limit %d",
       param.grid.x, deviceProp.maxGridSize[0]);

       }
       if (param.grid.y > (unsigned int)deviceProp.maxGridSize[1])
   errorQuda("Requested Y-dimension grid size %d greater than hardware limit %d",
       param.grid.y, deviceProp.maxGridSize[1]);

       if (param.grid.z > (unsigned int)deviceProp.maxGridSize[2])
   errorQuda("Requested Z-dimension grid size %d greater than hardware limit %d",
       param.grid.z, deviceProp.maxGridSize[2]);
     }

   };


   class TunableLocalParity : public Tunable {

   protected:
     unsigned int sharedBytesPerThread() const { return 0; }
     unsigned int sharedBytesPerBlock(const TuneParam &param) const { return 0; }

     // don't tune the grid dimension
     bool tuneGridDim() const { return false; }

     unsigned int maxBlockSize() const { return deviceProp.maxThreadsPerBlock / 2; }

   public:
     bool advanceBlockDim(TuneParam &param) const {
       bool rtn = Tunable::advanceBlockDim(param);
       param.block.y = 2;
       return rtn;
     }

     void initTuneParam(TuneParam &param) const {
       Tunable::initTuneParam(param);
       param.block.y = 2;
     }

     void defaultTuneParam(TuneParam &param) const {
       Tunable::defaultTuneParam(param);
       param.block.y = 2;
     }

   };

   class TunableVectorY : public Tunable {

   protected:
     virtual unsigned int sharedBytesPerThread() const { return 0; }
     virtual unsigned int sharedBytesPerBlock(const TuneParam &param) const { return 0; }

     unsigned int vector_length_y;

   public:
     TunableVectorY(unsigned int vector_length_y) : vector_length_y(vector_length_y) { }

     bool advanceBlockDim(TuneParam &param) const
     {
       dim3 block = param.block;
       dim3 grid = param.grid;
       bool ret = Tunable::advanceBlockDim(param);
       param.block.y = block.y;
       param.grid.y = grid.y;

       if (ret) { // we advanced the block.x so we're done
   return true;
       } else { // block.x (spacetime) was reset

   // we can advance spin/block-color since this is valid
   if (param.block.y < vector_length_y && param.block.y < (unsigned int)deviceProp.maxThreadsDim[1]) {
     param.block.y++;
     param.grid.y = (vector_length_y + param.block.y - 1) / param.block.y;
     return true;
   } else { // we have run off the end so let's reset
     param.block.y = 1;
     param.grid.y = vector_length_y;
     return false;
   }
       }
     }

     void initTuneParam(TuneParam &param) const
     {
       Tunable::initTuneParam(param);
       param.block.y = 1;
       param.grid.y = vector_length_y;
     }

     void defaultTuneParam(TuneParam &param) const
     {
       Tunable::defaultTuneParam(param);
       param.block.y = 1;
       param.grid.y = vector_length_y;
     }

     void resizeVector(int y) { vector_length_y = y;  }
   };

   class TunableVectorYZ : public TunableVectorY {

     mutable unsigned vector_length_z;

   public:
     TunableVectorYZ(unsigned int vector_length_y, unsigned int vector_length_z)
       : TunableVectorY(vector_length_y), vector_length_z(vector_length_z) { }

     bool advanceBlockDim(TuneParam &param) const
     {
       dim3 block = param.block;
       dim3 grid = param.grid;
       bool ret = TunableVectorY::advanceBlockDim(param);
       param.block.z = block.z;
       param.grid.z = grid.z;

       if (ret) { // we advanced the block.y / block.x so we're done
   return true;
       } else { // block.x/block.y (spacetime) was reset

   // we can advance spin/block-color since this is valid
   if (param.block.z < vector_length_z && param.block.z < (unsigned int)deviceProp.maxThreadsDim[1]) {
     param.block.z++;
     param.grid.z = (vector_length_z + param.block.z - 1) / param.block.z;
     return true;
   } else { // we have run off the end so let's reset
     param.block.z = 1;
     param.grid.z = vector_length_z;
     return false;
   }
       }
     }

     void initTuneParam(TuneParam &param) const
     {
       TunableVectorY::initTuneParam(param);
       param.block.z = 1;
       param.grid.z = vector_length_z;
     }

     void defaultTuneParam(TuneParam &param) const
     {
       TunableVectorY::defaultTuneParam(param);
       param.block.z = 1;
       param.grid.z = vector_length_z;
     }

     void resizeVector(int y, int z) { vector_length_z = z;  TunableVectorY::resizeVector(y); }
   };

   bool activeTuning();

   void loadTuneCache();
   void saveTuneCache();

   void saveProfile(const std::string label = "");

   void flushProfile();

   TuneParam& tuneLaunch(Tunable &tunable, QudaTune enabled, QudaVerbosity verbosity);

 } // namespace quda

 #endif // _TUNE_QUDA_H
quda::Tunable::maxBlockSize
virtual unsigned int maxBlockSize() const
Definition: tune_quda.h:95

quda::TuneParam
Definition: tune_quda.h:17

quda::TunableVectorYZ::resizeVector
void resizeVector(int y, int z)
Definition: tune_quda.h:448

verbosity
QudaVerbosity verbosity
Definition: dslash_ctest.cpp:81

quda::TunableLocalParity
Definition: tune_quda.h:306

deviceProp
cudaDeviceProp deviceProp
Definition: interface_quda.cpp:152

quda::Tunable::tuningIter
virtual int tuningIter() const
Definition: tune_quda.h:206

quda::Tunable::advanceSharedBytes
virtual bool advanceSharedBytes(TuneParam &param) const
Definition: tune_quda.h:163

errorQuda
#define errorQuda(...)
Definition: util_quda.h:90

quda::TuneParam::TuneParam
TuneParam()
Definition: tune_quda.h:29

quda::stream
cudaStream_t * stream
Definition: cuda_color_spinor_field.cu:898

z
int int z
Definition: CMakeCUDACompilerId.cpp1.ii:2637

quda::TuneParam::shared_bytes
int shared_bytes
Definition: tune_quda.h:22

tune_key.h

quda::TuneParam::operator<<
friend std::ostream & operator<<(std::ostream &output, const TuneParam &param)
Definition: tune_quda.h:49

quda::TunableVectorY::initTuneParam
void initTuneParam(TuneParam &param) const
Definition: tune_quda.h:382

quda::Tunable::paramString
virtual std::string paramString(const TuneParam &param) const
Definition: tune_quda.h:208

quda::Tunable::Tunable
Tunable()
Definition: tune_quda.h:200

quda::TunableVectorY::TunableVectorY
TunableVectorY(unsigned int vector_length_y)
Definition: tune_quda.h:355

quda::TunableVectorY::advanceBlockDim
bool advanceBlockDim(TuneParam &param) const
Definition: tune_quda.h:357

quda::Tunable::tuneKey
virtual TuneKey tuneKey() const =0

ret
return ret
Definition: CMakeCUDACompilerId.cpp1.ii:13161

quda::TuneParam::grid
dim3 grid
Definition: tune_quda.h:21

quda::TuneParam::aux
int4 aux
Definition: tune_quda.h:23

quda::Tunable::advanceGridDim
virtual bool advanceGridDim(TuneParam &param) const
Definition: tune_quda.h:78

quda::Tunable::advanceAux
virtual bool advanceAux(TuneParam &param) const
Definition: tune_quda.h:187

quda
Definition: blas_cublas.h:6

quda::TunableVectorY::sharedBytesPerThread
virtual unsigned int sharedBytesPerThread() const
Definition: tune_quda.h:349

quda::TuneParam::time
float time
Definition: tune_quda.h:26

quda::TuneParam::TuneParam
TuneParam(const TuneParam &param)
Definition: tune_quda.h:33

dirac_quda.h

quda::TunableLocalParity::tuneGridDim
bool tuneGridDim() const
Definition: tune_quda.h:313

param
QudaGaugeParam param
Definition: pack_test.cpp:17

time
time_t time(time_t *)

quda::Tunable
Definition: tune_quda.h:60

quda::Tunable::maxGridSize
virtual unsigned int maxGridSize() const
Definition: tune_quda.h:96

quda::Tunable::blockMin
virtual int blockMin() const
Definition: tune_quda.h:100

quda::TunableVectorY::vector_length_y
unsigned int vector_length_y
Definition: tune_quda.h:352

quda::Tunable::sharedBytesPerThread
virtual unsigned int sharedBytesPerThread() const =0

quda::Tunable::sharedBytesPerBlock
virtual unsigned int sharedBytesPerBlock(const TuneParam &param) const =0

quda::flushProfile
void flushProfile()
Flush profile contents, setting all counts to zero.
Definition: tune.cpp:462

quda::TunableLocalParity::sharedBytesPerThread
unsigned int sharedBytesPerThread() const
Definition: tune_quda.h:309

quda::TuneParam::block
dim3 block
Definition: tune_quda.h:20

quda::Tunable::bytes
virtual long long bytes() const
Definition: tune_quda.h:64

quda::TunableVectorY
Definition: tune_quda.h:346

quda::tuneLaunch
TuneParam & tuneLaunch(Tunable &tunable, QudaTune enabled, QudaVerbosity verbosity)
Definition: tune.cpp:603

deg_tm_dslash_cuda_gen.block
def block(code)
Definition: deg_tm_dslash_cuda_gen.py:101

quda::TunableVectorY::defaultTuneParam
void defaultTuneParam(TuneParam &param) const
Definition: tune_quda.h:390

quda::saveProfile
void saveProfile(const std::string label="")
Save profile to disk.
Definition: tune.cpp:472

quda::TuneParam::operator=
TuneParam & operator=(const TuneParam &param)
Definition: tune_quda.h:36

quda::TunableVectorYZ::TunableVectorYZ
TunableVectorYZ(unsigned int vector_length_y, unsigned int vector_length_z)
Definition: tune_quda.h:405

va_list
__darwin_va_list va_list
Definition: CMakeCUDACompilerId.cpp1.ii:7647

vsnprintf
int int int int vsnprintf(char *__str, size_t __size, const char *__format, va_list) __attribute__((__format__(__printf__

quda::TunableVectorYZ::initTuneParam
void initTuneParam(TuneParam &param) const
Definition: tune_quda.h:433

quda::TunableVectorYZ::vector_length_z
unsigned vector_length_z
Definition: tune_quda.h:402

quda::activeTuning
bool activeTuning()
query if tuning is in progress
Definition: tune.cpp:103

quda::Tunable::tuneAuxDim
virtual bool tuneAuxDim() const
Definition: tune_quda.h:75

quda::Tunable::maxBlocksPerSM
unsigned int maxBlocksPerSM() const
For reason this can&#39;t be queried from the device properties, so here we set set this. Based on Table 14 of the CUDA Programming Guide 9.0 (Technical Specifications per Compute Capability)
Definition: tune_quda.h:140

quda::Tunable::tuneSharedBytes
virtual bool tuneSharedBytes() const
Definition: tune_quda.h:76

quda::Tunable::preTune
virtual void preTune()
Definition: tune_quda.h:204

quda::Tunable::minGridSize
virtual unsigned int minGridSize() const
Definition: tune_quda.h:97

quda::Tunable::postTune
virtual void postTune()
Definition: tune_quda.h:205

quda::TunableLocalParity::advanceBlockDim
bool advanceBlockDim(TuneParam &param) const
Definition: tune_quda.h:322

quda::Tunable::~Tunable
virtual ~Tunable()
Definition: tune_quda.h:201

quda::TunableVectorYZ
Definition: tune_quda.h:400

quda::loadTuneCache
void loadTuneCache()
Definition: tune.cpp:302

quda::TuneKey::aux_n
static const int aux_n
Definition: tune_key.h:12

quda::TunableLocalParity::defaultTuneParam
void defaultTuneParam(TuneParam &param) const
Definition: tune_quda.h:333

n
int n
Definition: CMakeCUDACompilerId.cpp1.ii:8086

QudaTune
enum QudaTune_s QudaTune

quda::Tunable::writeAuxString
int writeAuxString(const char *format,...)
Definition: tune_quda.h:191

quda::TuneParam::n_calls
long long n_calls
Definition: tune_quda.h:27

quda::TunableLocalParity::initTuneParam
void initTuneParam(TuneParam &param) const
Definition: tune_quda.h:328

quda::TunableLocalParity::sharedBytesPerBlock
unsigned int sharedBytesPerBlock(const TuneParam &param) const
Definition: tune_quda.h:310

quda::Tunable::blockStep
virtual int blockStep() const
Definition: tune_quda.h:99

quda::Tunable::minThreads
virtual unsigned int minThreads() const
Definition: tune_quda.h:73

quda::Tunable::checkLaunchParam
void checkLaunchParam(TuneParam &param)
Definition: tune_quda.h:269

quda::Tunable::initTuneParam
virtual void initTuneParam(TuneParam &param) const
Definition: tune_quda.h:230

QudaVerbosity
enum QudaVerbosity_s QudaVerbosity

quda::TunableLocalParity::maxBlockSize
unsigned int maxBlockSize() const
Definition: tune_quda.h:319

quda::Tunable::advanceBlockDim
virtual bool advanceBlockDim(TuneParam &param) const
Definition: tune_quda.h:102

quda::TunableVectorY::resizeVector
void resizeVector(int y)
Definition: tune_quda.h:397

quda::TunableVectorY::sharedBytesPerBlock
virtual unsigned int sharedBytesPerBlock(const TuneParam &param) const
Definition: tune_quda.h:350

quda::Tunable::tuneGridDim
virtual bool tuneGridDim() const
Definition: tune_quda.h:74

quda::saveTuneCache
void saveTuneCache()
Definition: tune.cpp:388

quda::Tunable::aux
char aux[TuneKey::aux_n]
Definition: tune_quda.h:189

quda::TuneKey
Definition: tune_key.h:8

quda::Tunable::perfString
virtual std::string perfString(float time) const
Definition: tune_quda.h:220

quda::TunableVectorYZ::defaultTuneParam
void defaultTuneParam(TuneParam &param) const
Definition: tune_quda.h:441

quda::Tunable::flops
virtual long long flops() const =0

quda::Tunable::apply
virtual void apply(const cudaStream_t &stream)=0

quda::TunableVectorYZ::advanceBlockDim
bool advanceBlockDim(TuneParam &param) const
Definition: tune_quda.h:408

y
int y
Definition: CMakeCUDACompilerId.cpp1.ii:2637

quda::Tunable::defaultTuneParam
virtual void defaultTuneParam(TuneParam &param) const
Definition: tune_quda.h:254

quda_internal.h

quda::Tunable::advanceTuneParam
virtual bool advanceTuneParam(TuneParam &param) const
Definition: tune_quda.h:260

quda::TuneParam::comment
std::string comment
Definition: tune_quda.h:25