quda-ref/v1.1.0/transform__reduce_8h_source.html

 #pragma once

 #include <typeinfo>


 #include <reduce_helper.h>

 #include <uint_to_char.h>

 #include <tune_quda.h>


 namespace quda

 {


   template <typename T> struct plus {

     __device__ __host__ T operator()(T a, T b) { return a + b; }

   };


   template <typename T> struct maximum {

     __device__ __host__ T operator()(T a, T b) { return a > b ? a : b; }

   };


   template <typename T> struct minimum {

     __device__ __host__ T operator()(T a, T b) { return a < b ? a : b; }

   };


   template <typename T> struct identity {

     __device__ __host__ T operator()(T a) { return a; }

   };


   template <typename reduce_t, typename T, typename count_t, typename transformer, typename reducer>

   struct TransformReduceArg : public ReduceArg<reduce_t> {

     static constexpr int block_size = 512;

     static constexpr int n_batch_max = 8;

     const T *v[n_batch_max];

     count_t n_items;

     int n_batch;

     reduce_t init;

     reduce_t result[n_batch_max];

     transformer h;

     reducer r;

     TransformReduceArg(const std::vector<T *> &v, count_t n_items, transformer h, reduce_t init, reducer r) :

       ReduceArg<reduce_t>(v.size()),

       n_items(n_items),

       n_batch(v.size()),

       init(init),

       h(h),

       r(r)

     {

       if (n_batch > n_batch_max) errorQuda("Requested batch %d greater than max supported %d", n_batch, n_batch_max);

       for (size_t j = 0; j < v.size(); j++) this->v[j] = v[j];

     }

   };


   template <typename Arg> void transform_reduce(Arg &arg)

   {

     using count_t = decltype(arg.n_items);

     using reduce_t = decltype(arg.init);


     for (int j = 0; j < arg.n_batch; j++) {

       auto v = arg.v[j];

       reduce_t r_ = arg.init;

       for (count_t i = 0; i < arg.n_items; i++) {

         auto v_ = arg.h(v[i]);

         r_ = arg.r(r_, v_);

       }

       arg.result[j] = r_;

     }

   }


   template <typename Arg> __launch_bounds__(Arg::block_size) __global__ void transform_reduce_kernel(Arg arg)

   {

     using count_t = decltype(arg.n_items);

     using reduce_t = decltype(arg.init);


     count_t i = blockIdx.x * blockDim.x + threadIdx.x;

     int j = blockIdx.y;

     auto v = arg.v[j];

     reduce_t r_ = arg.init;


     while (i < arg.n_items) {

       auto v_ = arg.h(v[i]);

       r_ = arg.r(r_, v_);

       i += blockDim.x * gridDim.x;

     }


     arg.template reduce<Arg::block_size, false, decltype(arg.r)>(r_, j);

   }


   template <typename reduce_t, typename T, typename I, typename transformer, typename reducer>

   class TransformReduce : Tunable

   {

     using Arg = TransformReduceArg<reduce_t, T, I, transformer, reducer>;

     QudaFieldLocation location;

     std::vector<reduce_t> &result;

     const std::vector<T *> &v;

     I n_items;

     transformer &h;

     reduce_t init;

     reducer &r;


     bool tuneSharedBytes() const { return false; }

     unsigned int sharedBytesPerThread() const { return 0; }

     unsigned int sharedBytesPerBlock(const TuneParam &param) const { return 0; }

     int blockMin() const { return Arg::block_size; }

     unsigned int maxBlockSize(const TuneParam &param) const { return Arg::block_size; }


     bool advanceTuneParam(TuneParam &param) const // only do autotuning if we have device fields

     {

       return location == QUDA_CUDA_FIELD_LOCATION ? Tunable::advanceTuneParam(param) : false;

     }


     void initTuneParam(TuneParam &param) const

     {

       Tunable::initTuneParam(param);

       param.grid.y = v.size();

     }


   public:

     TransformReduce(QudaFieldLocation location, std::vector<reduce_t> &result, const std::vector<T *> &v, I n_items,

                     transformer &h, reduce_t init, reducer &r) :

       location(location),

       result(result),

       v(v),

       n_items(n_items),

       h(h),

       init(init),

       r(r)

     {

       strcpy(aux, "batch_size=");

       u32toa(aux + 11, v.size());

       if (location == QUDA_CPU_FIELD_LOCATION) strcat(aux, ",cpu");

       apply(0);

     }


     void apply(const qudaStream_t &stream)

     {

       TuneParam tp = tuneLaunch(*this, getTuning(), getVerbosity());

       Arg arg(v, n_items, h, init, r);


       if (location == QUDA_CUDA_FIELD_LOCATION) {

         arg.launch_error = qudaLaunchKernel(transform_reduce_kernel<Arg>, tp, stream, arg);

         arg.complete(result, stream);

       } else {

         transform_reduce(arg);

         for (size_t j = 0; j < result.size(); j++) result[j] = arg.result[j];

       }

     }


     TuneKey tuneKey() const

     {

       char count[16];

       u32toa(count, n_items);

       return TuneKey(count, typeid(*this).name(), aux);

     }


     long long flops() const { return 0; } // just care about bandwidth

     long long bytes() const { return v.size() * n_items * sizeof(T); }

   };


   template <typename reduce_t, typename T, typename I, typename transformer, typename reducer>

   void transform_reduce(QudaFieldLocation location, std::vector<reduce_t> &result, const std::vector<T *> &v, I n_items,

                         transformer h, reduce_t init, reducer r)

   {

     if (result.size() != v.size())

       errorQuda("result %lu and input %lu set sizes do not match", result.size(), v.size());

     TransformReduce<reduce_t, T, I, transformer, reducer> reduce(location, result, v, n_items, h, init, r);

   }


   template <typename reduce_t, typename T, typename I, typename transformer, typename reducer>

   reduce_t transform_reduce(QudaFieldLocation location, const T *v, I n_items, transformer h, reduce_t init, reducer r)

   {

     std::vector<reduce_t> result = {0.0};

     std::vector<const T *> v_ = {v};

     transform_reduce(location, result, v_, n_items, h, init, r);

     return result[0];

   }


   template <typename reduce_t, typename T, typename I, typename transformer, typename reducer>

   void reduce(QudaFieldLocation location, std::vector<reduce_t> &result, const std::vector<T *> &v, I n_items,

               reduce_t init, reducer r)

   {

     transform_reduce(location, result, v, n_items, identity<T>(), init, r);

   }


   template <typename reduce_t, typename T, typename I, typename reducer>

   reduce_t reduce(QudaFieldLocation location, const T *v, I n_items, reduce_t init, reducer r)

   {

     std::vector<reduce_t> result = {0.0};

     std::vector<const T *> v_ = {v};

     transform_reduce(location, result, v_, n_items, identity<T>(), init, r);

     return result[0];

   }

 } // namespace quda

quda::TransformReduce
Definition: transform_reduce.h:95

quda::TransformReduce::bytes
long long bytes() const
Definition: transform_reduce.h:161

quda::TransformReduce::flops
long long flops() const
Definition: transform_reduce.h:160

quda::TransformReduce::tuneKey
TuneKey tuneKey() const
Definition: transform_reduce.h:153

quda::TransformReduce::TransformReduce
TransformReduce(QudaFieldLocation location, std::vector< reduce_t > &result, const std::vector< T * > &v, I n_items, transformer &h, reduce_t init, reducer &r)
Definition: transform_reduce.h:123

quda::TransformReduce::apply
void apply(const qudaStream_t &stream)
Definition: transform_reduce.h:139

quda::Tunable
Definition: tune_quda.h:95

quda::Tunable::aux
char aux[TuneKey::aux_n]
Definition: tune_quda.h:269

quda::Tunable::advanceTuneParam
virtual bool advanceTuneParam(TuneParam &param) const
Definition: tune_quda.h:363

quda::Tunable::initTuneParam
virtual void initTuneParam(TuneParam &param) const
Definition: tune_quda.h:332

quda::TuneParam
Definition: tune_quda.h:25

QUDA_CUDA_FIELD_LOCATION
@ QUDA_CUDA_FIELD_LOCATION
Definition: enum_quda.h:326

QUDA_CPU_FIELD_LOCATION
@ QUDA_CPU_FIELD_LOCATION
Definition: enum_quda.h:325

QudaFieldLocation
enum QudaFieldLocation_s QudaFieldLocation

quda::blas_lapack::native::init
void init()
Create the BLAS context.
Definition: blas_lapack_cublas.cpp:28

quda
Definition: blas_lapack.h:24

quda::transform_reduce
void transform_reduce(Arg &arg)
Definition: transform_reduce.h:58

quda::__launch_bounds__
__launch_bounds__(Arg::block_size) __global__ void transform_reduce_kernel(Arg arg)
Definition: transform_reduce.h:74

quda::tuneLaunch
TuneParam tuneLaunch(Tunable &tunable, QudaTune enabled, QudaVerbosity verbosity)
Definition: tune.cpp:677

quda::arg
__host__ __device__ ValueType arg(const complex< ValueType > &z)
Returns the phase angle of z.
Definition: complex_quda.h:1072

quda::u32toa
void u32toa(char *buffer, uint32_t value)
Definition: uint_to_char.h:45

quda::reduce
void reduce(QudaFieldLocation location, std::vector< reduce_t > &result, const std::vector< T * > &v, I n_items, reduce_t init, reducer r)
QUDA implementation providing thrust::reduce like functionality. Improves upon thrust's implementatio...
Definition: transform_reduce.h:221

quda::stream
qudaStream_t * stream
Definition: cuda_color_spinor_field.cpp:644

quda::qudaLaunchKernel
qudaError_t qudaLaunchKernel(const void *func, const TuneParam &tp, void **args, qudaStream_t stream)
Wrapper around cudaLaunchKernel.
Definition: quda_api.cpp:57

param
QudaGaugeParam param
Definition: pack_test.cpp:18

qudaStream_t
cudaStream_t qudaStream_t
Definition: quda_api.h:9

reduce_helper.h

count_t
unsigned int count_t
Definition: reduce_helper.h:15

quda::ReduceArg
Definition: reduce_helper.h:58

quda::TransformReduceArg
Definition: transform_reduce.h:35

quda::TransformReduceArg::TransformReduceArg
TransformReduceArg(const std::vector< T * > &v, count_t n_items, transformer h, reduce_t init, reducer r)
Definition: transform_reduce.h:45

quda::TransformReduceArg::n_batch_max
static constexpr int n_batch_max
Definition: transform_reduce.h:37

quda::TransformReduceArg::n_items
count_t n_items
Definition: transform_reduce.h:39

quda::TransformReduceArg::r
reducer r
Definition: transform_reduce.h:44

quda::TransformReduceArg::v
const T * v[n_batch_max]
Definition: transform_reduce.h:38

quda::TransformReduceArg::block_size
static constexpr int block_size
Definition: transform_reduce.h:36

quda::TransformReduceArg::h
transformer h
Definition: transform_reduce.h:43

quda::TransformReduceArg::n_batch
int n_batch
Definition: transform_reduce.h:40

quda::TransformReduceArg::init
reduce_t init
Definition: transform_reduce.h:41

quda::TransformReduceArg::result
reduce_t result[n_batch_max]
Definition: transform_reduce.h:42

quda::TuneKey
Definition: tune_key.h:8

quda::identity
Definition: transform_reduce.h:30

quda::identity::operator()
__device__ __host__ T operator()(T a)
Definition: transform_reduce.h:31

quda::maximum
Definition: transform_reduce.h:22

quda::maximum::operator()
__device__ __host__ T operator()(T a, T b)
Definition: transform_reduce.h:23

quda::minimum
Definition: transform_reduce.h:26

quda::minimum::operator()
__device__ __host__ T operator()(T a, T b)
Definition: transform_reduce.h:27

quda::plus
Definition: transform_reduce.h:18

quda::plus::operator()
__device__ __host__ T operator()(T a, T b)
Definition: transform_reduce.h:19

tune_quda.h

uint_to_char.h

getTuning
QudaTune getTuning()
Query whether autotuning is enabled or not. Default is enabled but can be overridden by setting QUDA_...
Definition: util_quda.cpp:52

getVerbosity
QudaVerbosity getVerbosity()
Definition: util_quda.cpp:21

errorQuda
#define errorQuda(...)
Definition: util_quda.h:120