quda-ref/v0.7.0/inv__pcg__quda_8cpp_source.html

 #include <cstdio>

 #include <cstdlib>

 #include <cmath>


 #include <quda_internal.h>

 #include <color_spinor_field.h>

 #include <blas_quda.h>

 #include <dslash_quda.h>

 #include <invert_quda.h>

 #include <util_quda.h>

 #include <sys/time.h>


 #include <face_quda.h>

 #include <iostream>


 namespace quda {


   // set the required parameters for the inner solver

   static void fillInnerSolverParam(SolverParam &inner, const SolverParam &outer)

   {

     inner.tol = outer.tol_precondition;

     inner.maxiter = outer.maxiter_precondition;

     inner.delta = 1e-20; // no reliable updates within the inner solver

     inner.precision = outer.precision_precondition; // preconditioners are uni-precision solvers

     inner.precision_sloppy = outer.precision_precondition;


     inner.iter = 0;

     inner.gflops = 0;

     inner.secs = 0;


     inner.inv_type_precondition = QUDA_PCG_INVERTER; // used to tell the inner solver it is an inner solver


     if(outer.inv_type == QUDA_PCG_INVERTER && outer.precision_sloppy != outer.precision_precondition)

       inner.preserve_source = QUDA_PRESERVE_SOURCE_NO;

     else inner.preserve_source = QUDA_PRESERVE_SOURCE_YES;

   }


   PreconCG::PreconCG(DiracMatrix &mat, DiracMatrix &matSloppy, DiracMatrix &matPrecon, SolverParam &param, TimeProfile &profile) :

     Solver(param, profile), mat(mat), matSloppy(matSloppy), matPrecon(matPrecon), K(0), Kparam(param)

   {


     fillInnerSolverParam(Kparam, param);


     if(param.inv_type_precondition == QUDA_CG_INVERTER){

       K = new CG(matPrecon, matPrecon, Kparam, profile);

     }else if(param.inv_type_precondition == QUDA_MR_INVERTER){

       K = new MR(matPrecon, Kparam, profile);

     }else if(param.inv_type_precondition == QUDA_SD_INVERTER){

       K = new SD(matPrecon, Kparam, profile);

     }else if(param.inv_type_precondition != QUDA_INVALID_INVERTER){ // unknown preconditioner

       errorQuda("Unknown inner solver %d", param.inv_type_precondition);

     }

   }


   PreconCG::~PreconCG(){

     profile.Start(QUDA_PROFILE_FREE);


     if(K) delete K;


     profile.Stop(QUDA_PROFILE_FREE);

   }


   void PreconCG::operator()(cudaColorSpinorField &x, cudaColorSpinorField &b)

   {


     profile.Start(QUDA_PROFILE_INIT);

     // Check to see that we're not trying to invert on a zero-field source

     const double b2 = norm2(b);

     if(b2 == 0){

       profile.Stop(QUDA_PROFILE_INIT);

       printfQuda("Warning: inverting on zero-field source\n");

       x=b;

       param.true_res = 0.0;

       param.true_res_hq = 0.0;

     }


     int k=0;

     int rUpdate=0;


     cudaColorSpinorField* minvrPre = NULL;

     cudaColorSpinorField* rPre = NULL;

     cudaColorSpinorField* minvr = NULL;

     cudaColorSpinorField* minvrSloppy = NULL;

     cudaColorSpinorField* p = NULL;


     ColorSpinorParam csParam(b);

     cudaColorSpinorField r(b);

     if(K) minvr = new cudaColorSpinorField(b);

     csParam.create = QUDA_ZERO_FIELD_CREATE;

     cudaColorSpinorField y(b,csParam);


     mat(r, x, y); // => r = A*x;

     double r2 = xmyNormCuda(b,r);


     csParam.setPrecision(param.precision_sloppy);

     cudaColorSpinorField tmpSloppy(x,csParam);

     cudaColorSpinorField Ap(x,csParam);


     cudaColorSpinorField *r_sloppy;

     if(param.precision_sloppy == x.Precision())

     {

       r_sloppy = &r;

       minvrSloppy = minvr;

     }else{

       csParam.create = QUDA_COPY_FIELD_CREATE;

       r_sloppy = new cudaColorSpinorField(r,csParam);

       if(K) minvrSloppy = new cudaColorSpinorField(*minvr,csParam);

     }


     cudaColorSpinorField *x_sloppy;

     if(param.precision_sloppy == x.Precision() ||

         !param.use_sloppy_partial_accumulator) {

       csParam.create = QUDA_REFERENCE_FIELD_CREATE;

       x_sloppy = &x;

     }else{

       csParam.create = QUDA_COPY_FIELD_CREATE;

       x_sloppy = new cudaColorSpinorField(x,csParam);

     }


     cudaColorSpinorField &xSloppy = *x_sloppy;

     cudaColorSpinorField &rSloppy = *r_sloppy;


     if(&x != &xSloppy){

       copyCuda(y, x); // copy x to y

       zeroCuda(xSloppy);

     }else{

       zeroCuda(y); // no reliable updates // NB: check this

     }


     const bool use_heavy_quark_res = (param.residual_type & QUDA_HEAVY_QUARK_RESIDUAL) ? true : false;


     if(K){

       csParam.create = QUDA_COPY_FIELD_CREATE;

       csParam.setPrecision(param.precision_precondition);

       rPre = new cudaColorSpinorField(rSloppy,csParam);

       // Create minvrPre

       minvrPre = new cudaColorSpinorField(*rPre);

       globalReduce = false;

       (*K)(*minvrPre, *rPre);

       globalReduce = true;

       *minvrSloppy = *minvrPre;

       p = new cudaColorSpinorField(*minvrSloppy);

     }else{

       p = new cudaColorSpinorField(rSloppy);

     }


     profile.Stop(QUDA_PROFILE_INIT);


     profile.Start(QUDA_PROFILE_PREAMBLE);


     double stop = stopping(param.tol, b2, param.residual_type); // stopping condition of solver

     double heavy_quark_res = 0.0; // heavy quark residual

     if(use_heavy_quark_res) heavy_quark_res = sqrt(HeavyQuarkResidualNormCuda(x,r).z);


     double alpha = 0.0, beta=0.0;

     double pAp;

     double rMinvr  = 0;

     double rMinvr_old = 0.0;

     double r_new_Minvr_old = 0.0;

     double r2_old = 0;

     r2 = norm2(r);


     double rNorm = sqrt(r2);

     double r0Norm = rNorm;

     double maxrx = rNorm;

     double maxrr = rNorm;

     double delta = param.delta;


     if(K) rMinvr = reDotProductCuda(rSloppy,*minvrSloppy);


     profile.Stop(QUDA_PROFILE_PREAMBLE);

     profile.Start(QUDA_PROFILE_COMPUTE);


     quda::blas_flops = 0;


     const int maxResIncrease = param.max_res_increase; // check if we reached the limit of our tolerance

     const int maxResIncreaseTotal = param.max_res_increase_total;


     int resIncrease = 0;

     int resIncreaseTotal = 0;


     while(!convergence(r2, heavy_quark_res, stop, param.tol_hq) && k < param.maxiter){


       matSloppy(Ap, *p, tmpSloppy);


       double sigma;

       pAp   = reDotProductCuda(*p,Ap);


       alpha = (K) ? rMinvr/pAp : r2/pAp;

       Complex cg_norm = axpyCGNormCuda(-alpha, Ap, rSloppy);

       // r --> r - alpha*A*p

       r2_old = r2;

       r2 = real(cg_norm);


       sigma = imag(cg_norm) >= 0.0 ? imag(cg_norm) : r2; // use r2 if (r_k+1, r_k-1 - r_k) breaks


       if(K) rMinvr_old = rMinvr;


       rNorm = sqrt(r2);

       if(rNorm > maxrx) maxrx = rNorm;

       if(rNorm > maxrr) maxrr = rNorm;


       int updateX = (rNorm < delta*r0Norm && r0Norm <= maxrx) ? 1 : 0;

       int updateR = ((rNorm < delta*maxrr && r0Norm <= maxrr) || updateX) ? 1 : 0;


       // force a reliable update if we are within target tolerance (only if doing reliable updates)

       if( convergence(r2, heavy_quark_res, stop, param.tol_hq) && delta >= param.tol) updateX = 1;


       if( !(updateR || updateX) ){


         if(K){

           r_new_Minvr_old = reDotProductCuda(rSloppy,*minvrSloppy);

           *rPre = rSloppy;

           globalReduce = false;

           (*K)(*minvrPre, *rPre);

           globalReduce = true;


           *minvrSloppy = *minvrPre;


           rMinvr = reDotProductCuda(rSloppy,*minvrSloppy);

           beta = (rMinvr - r_new_Minvr_old)/rMinvr_old;

           axpyZpbxCuda(alpha, *p, xSloppy, *minvrSloppy, beta);

         }else{

           beta = sigma/r2_old; // use the alternative beta computation

           axpyZpbxCuda(alpha, *p, xSloppy, rSloppy, beta);

         }

       } else { // reliable update


         axpyCuda(alpha, *p, xSloppy); // xSloppy += alpha*p

         copyCuda(x, xSloppy);

         xpyCuda(x, y); // y += x

         // Now compute r

         mat(r, y, x); // x is just a temporary here

         r2 = xmyNormCuda(b, r);

         copyCuda(rSloppy, r); // copy r to rSloppy

         zeroCuda(xSloppy);


         // break-out check if we have reached the limit of the precision

         if(sqrt(r2) > r0Norm && updateX) {

         resIncrease++;

         resIncreaseTotal++;

         // reuse r0Norm for this

         warningQuda("PCG: new reliable residual norm %e is greater than previous reliable residual norm %e (total #inc %i)", sqrt(r2), r0Norm, resIncreaseTotal);


           if (resIncrease > maxResIncrease or resIncreaseTotal > maxResIncreaseTotal)break;

         }else{

           resIncrease = 0;

         }


         rNorm = sqrt(r2);

         maxrr = rNorm;

         maxrx = rNorm;

         r0Norm = rNorm;

         ++rUpdate;


         if(K){

           *rPre = rSloppy;

           globalReduce = false;

           (*K)(*minvrPre, *rPre);

           globalReduce = true;


           *minvrSloppy = *minvrPre;


           rMinvr = reDotProductCuda(rSloppy,*minvrSloppy);

           beta = rMinvr/rMinvr_old;


           xpayCuda(*minvrSloppy, beta, *p); // p = minvrSloppy + beta*p

         }else{ // standard CG - no preconditioning


           // explicitly restore the orthogonality of the gradient vector

           double rp = reDotProductCuda(rSloppy, *p)/(r2);

           axpyCuda(-rp, rSloppy, *p);


           beta = r2/r2_old;

           xpayCuda(rSloppy, beta, *p);

         }

       }

       ++k;

       PrintStats("PCG", k, r2, b2, heavy_quark_res);

     }


     profile.Stop(QUDA_PROFILE_COMPUTE);


     profile.Start(QUDA_PROFILE_EPILOGUE);


     if(x.Precision() != param.precision_sloppy) copyCuda(x, xSloppy);

     xpyCuda(y, x); // x += y


     param.secs = profile.Last(QUDA_PROFILE_COMPUTE);

     double gflops = (quda::blas_flops + mat.flops() + matSloppy.flops() + matPrecon.flops())*1e-9;

     reduceDouble(gflops);

     param.gflops = gflops;

     param.iter += k;


     if (k==param.maxiter)

       warningQuda("Exceeded maximum iterations %d", param.maxiter);


     if (getVerbosity() >= QUDA_VERBOSE)

       printfQuda("CG: Reliable updates = %d\n", rUpdate);


     // compute the true residual

     mat(r, x, y);

     double true_res = xmyNormCuda(b, r);

     param.true_res = sqrt(true_res / b2);


     // reset the flops counters

     quda::blas_flops = 0;

     mat.flops();

     matSloppy.flops();

     matPrecon.flops();


     profile.Stop(QUDA_PROFILE_EPILOGUE);

     profile.Start(QUDA_PROFILE_FREE);


     if(K){ // These are only needed if preconditioning is used

       delete minvrPre;

       delete rPre;

       delete minvr;

       if(x.Precision() != param.precision_sloppy)  delete minvrSloppy;

     }

     delete p;


     if(x.Precision() != param.precision_sloppy){

       delete x_sloppy;

       delete r_sloppy;

     }


     profile.Stop(QUDA_PROFILE_FREE);

     return;

   }


 } // namespace quda

invert_quda.h

quda::Solver::convergence
bool convergence(const double &r2, const double &hq2, const double &r2_tol, const double &hq_tol)
Definition: solver.cpp:82

QUDA_VERBOSE
Definition: enum_quda.h:217

quda::ColorSpinorParam::setPrecision
void setPrecision(QudaPrecision precision)
Definition: color_spinor_field.h:109

quda::Solver::stopping
static double stopping(const double &tol, const double &b2, QudaResidualType residual_type)
Definition: solver.cpp:65

quda::SolverParam::delta
double delta
Definition: invert_quda.h:41

y
int y[4]
Definition: staggered_dslash_core.h:356

QUDA_PRESERVE_SOURCE_YES
Definition: enum_quda.h:190

getVerbosity
QudaVerbosity getVerbosity()
Definition: util_quda.cpp:20

quda::QUDA_PROFILE_FREE
Definition: quda_internal.h:150

errorQuda
#define errorQuda(...)
Definition: util_quda.h:73

color_spinor_field.h

quda::SolverParam::secs
double secs
Definition: invert_quda.h:140

quda::SolverParam::true_res_hq
double true_res_hq
Definition: invert_quda.h:72

QUDA_MR_INVERTER
Definition: enum_quda.h:101

quda::sqrt
__host__ __device__ ValueType sqrt(ValueType x)
Definition: complex_quda.h:105

quda::Complex
std::complex< double > Complex
Definition: eig_variables.h:13

quda::axpyZpbxCuda
void axpyZpbxCuda(const double &a, cudaColorSpinorField &x, cudaColorSpinorField &y, cudaColorSpinorField &z, const double &b)
Definition: blas_quda.cu:338

mat
void mat(void *out, void **fatlink, void **longlink, void *in, double kappa, int dagger_bit, QudaPrecision sPrecision, QudaPrecision gPrecision)
Definition: staggered_dslash_reference.cpp:136

quda::Solver::profile
TimeProfile & profile
Definition: invert_quda.h:224

quda::cudaColorSpinorField
Definition: color_spinor_field.h:302

quda::MR
Definition: invert_quda.h:408

QUDA_CG_INVERTER
Definition: enum_quda.h:98

quda::SolverParam::inv_type_precondition
QudaInverterType inv_type_precondition
Definition: invert_quda.h:24

util_quda.h

quda::SolverParam::iter
int iter
Definition: invert_quda.h:78

quda::SolverParam::max_res_increase_total
int max_res_increase_total
Definition: invert_quda.h:54

quda::TimeProfile
Definition: quda_internal.h:171

quda::axpyCGNormCuda
Complex axpyCGNormCuda(const double &a, cudaColorSpinorField &x, cudaColorSpinorField &y)
Definition: reduce_quda.cu:682

QUDA_REFERENCE_FIELD_CREATE
Definition: enum_quda.h:306

quda::DiracMatrix::flops
unsigned long long flops() const
Definition: dirac_quda.h:587

param
QudaGaugeParam param
Definition: pack_test.cpp:17

quda::PreconCG::~PreconCG
virtual ~PreconCG()
Definition: inv_pcg_quda.cpp:57

QUDA_COPY_FIELD_CREATE
Definition: enum_quda.h:305

quda::SolverParam::gflops
double gflops
Definition: invert_quda.h:143

quda::SolverParam::residual_type
QudaResidualType residual_type
Definition: invert_quda.h:35

QUDA_PRESERVE_SOURCE_NO
Definition: enum_quda.h:189

quda::QUDA_PROFILE_EPILOGUE
Definition: quda_internal.h:149

quda::SolverParam::maxiter
int maxiter
Definition: invert_quda.h:75

csParam
ColorSpinorParam csParam
Definition: pack_test.cpp:24

face_quda.h

quda::QUDA_PROFILE_COMPUTE
Definition: quda_internal.h:148

warningQuda
#define warningQuda(...)
Definition: util_quda.h:84

QUDA_PCG_INVERTER
Definition: enum_quda.h:105

quda::copyCuda
void copyCuda(cudaColorSpinorField &dst, const cudaColorSpinorField &src)
Definition: copy_quda.cu:235

quda::SolverParam::tol_hq
double tol_hq
Definition: invert_quda.h:66

quda::QUDA_PROFILE_PREAMBLE
Definition: quda_internal.h:147

quda::PreconCG::operator()
void operator()(cudaColorSpinorField &out, cudaColorSpinorField &in)
Definition: inv_pcg_quda.cpp:66

quda::axpyCuda
void axpyCuda(const double &a, cudaColorSpinorField &x, cudaColorSpinorField &y)
Definition: blas_quda.cu:115

QUDA_HEAVY_QUARK_RESIDUAL
Definition: enum_quda.h:149

quda::SolverParam::max_res_increase
int max_res_increase
Definition: invert_quda.h:49

QUDA_SD_INVERTER
Definition: enum_quda.h:103

x
int x[4]
Definition: hisq_paths_force_core.h:99

quda::SolverParam::precision_precondition
QudaPrecision precision_precondition
Definition: invert_quda.h:87

quda::blas_flops
unsigned long long blas_flops
Definition: blas_quda.cu:37

blas_quda.h

quda::QUDA_PROFILE_INIT
Definition: quda_internal.h:146

quda::SolverParam::true_res
double true_res
Definition: invert_quda.h:69

quda::Solver
Definition: invert_quda.h:220

quda::ColorSpinorParam
Definition: color_spinor_field.h:14

quda::Solver::param
SolverParam & param
Definition: invert_quda.h:223

quda::xpyCuda
void xpyCuda(cudaColorSpinorField &x, cudaColorSpinorField &y)
Definition: blas_quda.cu:98

quda::reDotProductCuda
double reDotProductCuda(cudaColorSpinorField &a, cudaColorSpinorField &b)
Definition: reduce_quda.cu:170

quda::TimeProfile::Stop
void Stop(QudaProfileType idx)
Definition: quda_internal.h:194

QUDA_INVALID_INVERTER
Definition: enum_quda.h:109

quda::CG
Definition: invert_quda.h:287

quda::ColorSpinorField::Precision
QudaPrecision Precision() const
Definition: color_spinor_field.h:242

quda::Solver::PrintStats
void PrintStats(const char *, int k, const double &r2, const double &b2, const double &hq2)
Definition: solver.cpp:122

quda::TimeProfile::Last
double Last(QudaProfileType idx)
Definition: quda_internal.h:204

quda::DiracMatrix
Definition: dirac_quda.h:571

reduceDouble
void reduceDouble(double &)
Definition: face_buffer.cpp:530

dslash_quda.h

printfQuda
#define printfQuda(...)
Definition: util_quda.h:67

quda::zeroCuda
void zeroCuda(cudaColorSpinorField &a)
Definition: blas_quda.cu:40

quda::TimeProfile::Start
void Start(QudaProfileType idx)
Definition: quda_internal.h:184

quda::SolverParam::precision_sloppy
QudaPrecision precision_sloppy
Definition: invert_quda.h:84

quda::SolverParam::use_sloppy_partial_accumulator
bool use_sloppy_partial_accumulator
Definition: invert_quda.h:44

quda::PreconCG::PreconCG
PreconCG(DiracMatrix &mat, DiracMatrix &matSloppy, DiracMatrix &matPrecon, SolverParam &param, TimeProfile &profile)
Definition: inv_pcg_quda.cpp:40

QUDA_ZERO_FIELD_CREATE
Definition: enum_quda.h:304

quda::xpayCuda
void xpayCuda(cudaColorSpinorField &x, const double &a, cudaColorSpinorField &y)
Definition: blas_quda.cu:138

quda::ColorSpinorParam::create
QudaFieldCreate create
Definition: color_spinor_field.h:25

quda::SolverParam
Definition: invert_quda.h:14

quda::HeavyQuarkResidualNormCuda
double3 HeavyQuarkResidualNormCuda(cudaColorSpinorField &x, cudaColorSpinorField &r)
Definition: reduce_quda.cu:777

quda::norm2
double norm2(const ColorSpinorField &)
Definition: color_spinor_field.cpp:486

quda::xmyNormCuda
double xmyNormCuda(cudaColorSpinorField &a, cudaColorSpinorField &b)
Definition: reduce_quda.cu:343

globalReduce
bool globalReduce
Definition: face_buffer.cpp:11

quda::SolverParam::tol
double tol
Definition: invert_quda.h:60

quda_internal.h

quda::SD
Definition: invert_quda.h:426