v0.9.0/doc/gauge__random_8cu_source.html

 #include <quda_internal.h>
 #include <quda_matrix.h>
 #include <tune_quda.h>
 #include <gauge_field.h>
 #include <gauge_field_order.h>
 #include <launch_kernel.cuh>
 #include <atomic.cuh>
 #include <cub_helper.cuh>
 #include <index_helper.cuh>
 #include <random_quda.h>

 namespace quda {

 #ifdef GPU_GAUGE_TOOLS

   template <typename Gauge>
   struct GaugeGaussArg {
     int threads; // number of active threads required
     int E[4]; // extended grid dimensions
     int X[4]; // true grid dimensions
     int border[4];
     Gauge dataDs;
     RNG rngstate;

     GaugeGaussArg(const Gauge &dataDs, const GaugeField &data, RNG &rngstate)
       : dataDs(dataDs), rngstate(rngstate)
     {
       int R = 0;
       for (int dir=0; dir<4; ++dir){
   border[dir] = data.R()[dir];
   E[dir] = data.X()[dir];
   X[dir] = data.X()[dir] - border[dir]*2;
   R += border[dir];
       }
       threads = X[0]*X[1]*X[2]*X[3]/2;
     }
   };


   template<typename Float>
   __device__ __host__  Matrix<complex<Float>,3> genGaussSU3(cuRNGState &localState){
        Matrix<complex<Float>, 3> ret;
          //ret(i,j) = 0.0;
          //ret(i,j) = complex<Float>( (Float)(Random<Float>(localState) - 0.5), (Float)(Random<Float>(localState) - 0.5) );

        Float  rand1[4], rand2[4], phi[4], radius[4], temp1[4], temp2[4];

        for (int i=0; i<4; ++i)
        {
      rand1[i]= Random<Float>(localState);
      rand2[i]= Random<Float>(localState);
        }

        for (int i=0; i<4; ++i)
        {
      phi[i]=2.0*M_PI*rand1[i];
      rand2[i] = rand2[i];
      radius[i]=sqrt( -log(rand2[i]) );

      temp1[i] = radius[i]*cos(phi[i]);
      temp2[i] = radius[i]*sin(phi[i]);
        }

        ret(0,0) = complex<Float>( temp1[2] + 1./sqrt(3.0)*temp2[3], 0.0);
        ret(0,1) = complex<Float>( temp1[0], -temp1[1]);
        ret(0,2) = complex<Float>( temp1[3], -temp2[0]);
        ret(1,0) = complex<Float>( temp1[0], temp1[1] );
        ret(1,1) = complex<Float>( -temp1[2] + 1./sqrt(3.0) * temp2[3], 0.0 );
        ret(1,2) = complex<Float>( temp2[1], -temp2[2] );
        ret(2,0) = complex<Float>( temp1[3], temp2[0] );
        ret(2,1) = complex<Float>( temp2[1], temp2[2] );
        ret(2,2) = complex<Float>( - 2./sqrt(3.0) * temp2[3], 0.0 );

        return ret;
   }


   template<typename Float, typename Gauge>
   __global__ void computeGenGauss(GaugeGaussArg<Gauge> arg){
     typedef Matrix<complex<Float>,3> Link;
     int idx = threadIdx.x + blockIdx.x*blockDim.x;
     int parity = threadIdx.y + blockIdx.y*blockDim.y;

     typedef Matrix<complex<Float>,3> Link;


     if(idx < arg.threads) {
   int x[4];
   getCoords(x, idx, arg.X, parity);
   for (int dr=0; dr<4; ++dr) x[dr] += arg.border[dr]; // extended grid coordinates

   int dx[4] = {0, 0, 0, 0};
   for(int mu = 0; mu < 4; mu++){
       cuRNGState localState = arg.rngstate.State()[idx + parity*arg.threads];

       Link U = genGaussSU3<Float>(localState);

       arg.rngstate.State()[ idx + parity*arg.threads ] = localState;
       arg.dataDs(mu, linkIndexShift(x,dx,arg.X), parity) = U;
   }

     }
   }

   template<typename Float, typename Gauge>
     class GaugeGauss : TunableVectorY {
       GaugeGaussArg<Gauge> arg;
       GaugeField &gf;

       private:
       unsigned int minThreads() const { return arg.threads; }
       bool tuneGridDim() const { return false; } // Don't tune the grid dimensions.

       public:
       GaugeGauss(GaugeGaussArg<Gauge> &arg, GaugeField &gf)
         : TunableVectorY(2), arg(arg), gf(gf){}
       ~GaugeGauss () { }

       void apply(const cudaStream_t &stream){
         if(gf.Location() == QUDA_CUDA_FIELD_LOCATION){
           TuneParam tp = tuneLaunch(*this, getTuning(), getVerbosity());

           computeGenGauss<Float><<<tp.grid,tp.block,tp.shared_bytes>>>(arg);
     qudaDeviceSynchronize();
         } else {
           errorQuda("Randomize GaugeFields on CPU not supported yet\n");
         }
       }

       TuneKey tuneKey() const {
         std::stringstream vol, aux;
         vol << arg.X[0] << "x" << arg.X[1] << "x" << arg.X[2] << "x" << arg.X[3];
   aux << "threads=" << arg.threads << ",prec="  << sizeof(Float);
         return TuneKey(vol.str().c_str(), typeid(*this).name(), aux.str().c_str());
       }

       long long flops() const { return 0; }
       long long bytes() const { return 0; }


       void preTune(){
     //gf.backup();
     arg.rngstate.backup();
       }
       void postTune(){
     //gf.restore();
     arg.rngstate.restore();
       }

     };

   template<typename Float, typename Gauge>
   void genGauss(const Gauge dataDs, GaugeField& data, RNG &rngstate) {
       GaugeGaussArg<Gauge> arg(dataDs, data, rngstate);
       GaugeGauss<Float,Gauge> gaugeGauss(arg, data);
       gaugeGauss.apply(0);

     }


   template<typename Float>
   void gaugeGauss(GaugeField &dataDs, RNG &rngstate) {

       if(dataDs.Reconstruct() == QUDA_RECONSTRUCT_NO) {
     typedef typename gauge_mapper<Float,QUDA_RECONSTRUCT_NO>::type Gauge;
     genGauss<Float>(Gauge(dataDs), dataDs, rngstate);
       }else if(dataDs.Reconstruct() == QUDA_RECONSTRUCT_12){
     typedef typename gauge_mapper<Float,QUDA_RECONSTRUCT_12>::type Gauge;
     genGauss<Float>(Gauge(dataDs), dataDs, rngstate);
       }else if(dataDs.Reconstruct() == QUDA_RECONSTRUCT_8){
     typedef typename gauge_mapper<Float,QUDA_RECONSTRUCT_8>::type Gauge;
     genGauss<Float>(Gauge(dataDs), dataDs, rngstate);
       }else{
     errorQuda("Reconstruction type %d of origin gauge field not supported", dataDs.Reconstruct());
       }

   }

 #endif

   void gaugeGauss(GaugeField &dataDs, RNG &rngstate) {

 #ifdef GPU_GAUGE_TOOLS

       if(dataDs.Precision() == QUDA_HALF_PRECISION){
     errorQuda("Half precision not supported\n");
       }

       if (!dataDs.isNative())
     errorQuda("Order %d with %d reconstruct not supported", dataDs.Order(), dataDs.Reconstruct());

       if (dataDs.Precision() == QUDA_SINGLE_PRECISION){
     gaugeGauss<float>(dataDs, rngstate);
       } else if(dataDs.Precision() == QUDA_DOUBLE_PRECISION) {
     gaugeGauss<double>(dataDs, rngstate);
       } else {
     errorQuda("Precision %d not supported", dataDs.Precision());
       }
       return;
 #else
       errorQuda("Gauge tools are not build");
 #endif
   }

 }
QUDA_RECONSTRUCT_NO
Definition: enum_quda.h:66

quda::TuneParam
Definition: tune_quda.h:17

blockDim
dim3 dim3 blockDim
Definition: CMakeCUDACompilerId.cpp1.ii:2471

mu
double mu
Definition: test_util.cpp:1643

quda::cuRNGState
struct curandStateMRG32k3a cuRNGState
Definition: random_quda.h:17

stream
cudaStream_t stream
Definition: CMakeCUDACompilerId.cpp1.ii:2284

quda::linkIndexShift
static __device__ __host__ int linkIndexShift(const I x[], const J dx[], const K X[4])
Definition: index_helper.cuh:13

getVerbosity
QudaVerbosity getVerbosity()
Definition: util_quda.cpp:20

errorQuda
#define errorQuda(...)
Definition: util_quda.h:90

QUDA_CUDA_FIELD_LOCATION
Definition: enum_quda.h:297

QUDA_HALF_PRECISION
Definition: enum_quda.h:59

quda::sqrt
__host__ __device__ ValueType sqrt(ValueType x)
Definition: complex_quda.h:105

cub_helper.cuh

quda::TuneParam::shared_bytes
int shared_bytes
Definition: tune_quda.h:22

R
static int R[4]
Definition: interface_quda.cpp:83

E
int E[4]
Definition: test_util.cpp:36

quda::Tunable::tuneKey
virtual TuneKey tuneKey() const =0

ret
return ret
Definition: CMakeCUDACompilerId.cpp1.ii:13161

quda::TuneParam::grid
dim3 grid
Definition: tune_quda.h:21

quda
Definition: blas_cublas.h:6

quda::gaugeGauss
void gaugeGauss(GaugeField &dataDs, RNG &rngstate)
Definition: gauge_random.cu:182

x
p x
Definition: CMakeCUDACompilerId.cpp1.ii:3011

quda::LatticeField::R
const int * R() const
Definition: lattice_field.h:452

launch_kernel.cuh

QUDA_RECONSTRUCT_12
Definition: enum_quda.h:67

quda::sin
__host__ __device__ ValueType sin(ValueType x)
Definition: complex_quda.h:40

quda::TuneParam::block
dim3 block
Definition: tune_quda.h:20

quda::Tunable::bytes
virtual long long bytes() const
Definition: tune_quda.h:64

quda::genGauss
__device__ __host__ void genGauss(InOrder &inOrder, cuRNGState &localState, int x, int s, int c)
Definition: spinor_gauss.cu:23

quda::TunableVectorY
Definition: tune_quda.h:346

quda::RNG
Class declaration to initialize and hold CURAND RNG states.
Definition: random_quda.h:23

quda::tuneLaunch
TuneParam & tuneLaunch(Tunable &tunable, QudaTune enabled, QudaVerbosity verbosity)
Definition: tune.cpp:603

fused_exterior_ndeg_tm_dslash_cuda_gen.i
int i
start here
Definition: fused_exterior_ndeg_tm_dslash_cuda_gen.py:816

gauge_field_order.h
Main header file for host and device accessors to GaugeFields.

quda::qudaDeviceSynchronize
cudaError_t qudaDeviceSynchronize()
Wrapper around cudaDeviceSynchronize or cuDeviceSynchronize.
Definition: quda_cuda_api.cpp:277

tune_quda.h

X
int X
Definition: asym_wilson_clover_dslash_dagger_fermi_core.h:394

quda::LatticeField::Location
QudaFieldLocation Location() const
Definition: lattice_field.cpp:522

QUDA_RECONSTRUCT_8
Definition: enum_quda.h:68

quda::log
__host__ __device__ ValueType log(ValueType x)
Definition: complex_quda.h:90

quda_matrix.h

QUDA_DOUBLE_PRECISION
Definition: enum_quda.h:61

quda::Tunable::preTune
virtual void preTune()
Definition: tune_quda.h:204

index_helper.cuh

quda::Tunable::postTune
virtual void postTune()
Definition: tune_quda.h:205

atomic.cuh

idx
int idx
Definition: staggered_fused_exterior_dslash_core.h:355

QUDA_SINGLE_PRECISION
Definition: enum_quda.h:60

quda::gauge_mapper
Definition: gauge_field_order.h:2083

quda::arg
__host__ __device__ ValueType arg(const complex< ValueType > &z)
Returns the phase angle of z.
Definition: complex_quda.h:880

quda::Tunable::minThreads
virtual unsigned int minThreads() const
Definition: tune_quda.h:73

quda::cos
__host__ __device__ ValueType cos(ValueType x)
Definition: complex_quda.h:35

quda::GaugeField::Reconstruct
QudaReconstructType Reconstruct() const
Definition: gauge_field.h:203

quda::GaugeField::Order
QudaGaugeFieldOrder Order() const
Definition: gauge_field.h:204

random_quda.h

getTuning
QudaTune getTuning()
Query whether autotuning is enabled or not. Default is enabled but can be overridden by setting QUDA_...
Definition: util_quda.cpp:51

quda::LatticeField::Precision
QudaPrecision Precision() const
Definition: lattice_field.h:462

quda::GaugeField::isNative
bool isNative() const
Definition: gauge_field.cpp:138

quda::Tunable::tuneGridDim
virtual bool tuneGridDim() const
Definition: tune_quda.h:74

parity
QudaParity parity
Definition: covdev_test.cpp:53

gauge_field.h

quda::Matrix
Definition: quda_matrix.h:68

quda::Tunable::aux
char aux[TuneKey::aux_n]
Definition: tune_quda.h:189

quda::TuneKey
Definition: tune_key.h:8

quda::Tunable::flops
virtual long long flops() const =0

quda::Tunable::apply
virtual void apply(const cudaStream_t &stream)=0

quda::LatticeField::X
const int * X() const
Definition: lattice_field.h:415

quda_internal.h

quda::GaugeField
Definition: gauge_field.h:123

quda::getCoords
static __device__ __host__ void getCoords(int x[], int cb_index, const I X[], int parity)
Definition: index_helper.cuh:129