quda-ref/v0.7.0/inv__multi__cg__quda_8cpp_source.html

 #include <stdio.h>

 #include <stdlib.h>

 #include <math.h>


 #include <quda_internal.h>

 #include <color_spinor_field.h>

 #include <blas_quda.h>

 #include <dslash_quda.h>

 #include <invert_quda.h>

 #include <util_quda.h>

 #include <face_quda.h>


 namespace quda {


   MultiShiftCG::MultiShiftCG(DiracMatrix &mat, DiracMatrix &matSloppy, SolverParam &param,

                              TimeProfile &profile)

     : MultiShiftSolver(param, profile), mat(mat), matSloppy(matSloppy) {


   }


   MultiShiftCG::~MultiShiftCG() {


   }


   void updateAlphaZeta(double *alpha, double *zeta, double *zeta_old,

                        const double *r2, const double *beta, const double pAp,

                        const double *offset, const int nShift, const int j_low) {

     double alpha_old[QUDA_MAX_MULTI_SHIFT];

     for (int j=0; j<nShift; j++) alpha_old[j] = alpha[j];


     alpha[0] = r2[0] / pAp;

     zeta[0] = 1.0;

     for (int j=1; j<nShift; j++) {

       double c0 = zeta[j] * zeta_old[j] * alpha_old[j_low];

       double c1 = alpha[j_low] * beta[j_low] * (zeta_old[j]-zeta[j]);

       double c2 = zeta_old[j] * alpha_old[j_low] * (1.0+(offset[j]-offset[0])*alpha[j_low]);


       zeta_old[j] = zeta[j];

       if (c1+c2 != 0.0){

         zeta[j] = c0 / (c1 + c2);

       }

       else {

         zeta[j] = 0.0;

       }

       if (zeta[j] != 0.0){

         alpha[j] = alpha[j_low] * zeta[j] / zeta_old[j];

       }

       else {

         alpha[j] = 0.0;

       }

     }

   }


   void MultiShiftCG::operator()(cudaColorSpinorField **x, cudaColorSpinorField &b)

   {

     profile.Start(QUDA_PROFILE_INIT);


     int num_offset = param.num_offset;

     double *offset = param.offset;


     if (num_offset == 0) return;


     const double b2 = normCuda(b);

     // Check to see that we're not trying to invert on a zero-field source

     if(b2 == 0){

       profile.Stop(QUDA_PROFILE_INIT);

       printfQuda("Warning: inverting on zero-field source\n");

       for(int i=0; i<num_offset; ++i){

         *(x[i]) = b;

         param.true_res_offset[i] = 0.0;

         param.true_res_hq_offset[i] = 0.0;

       }

       return;

     }


     double *zeta = new double[num_offset];

     double *zeta_old = new double[num_offset];

     double *alpha = new double[num_offset];

     double *beta = new double[num_offset];


     int j_low = 0;

     int num_offset_now = num_offset;

     for (int i=0; i<num_offset; i++) {

       zeta[i] = zeta_old[i] = 1.0;

       beta[i] = 0.0;

       alpha[i] = 1.0;

     }


     // flag whether we will be using reliable updates or not

     bool reliable = false;

     for (int j=0; j<num_offset; j++)

       if (param.tol_offset[j] < param.delta) reliable = true;


     cudaColorSpinorField *r = new cudaColorSpinorField(b);

     cudaColorSpinorField **y = reliable ? new cudaColorSpinorField*[num_offset] : NULL;


     ColorSpinorParam csParam(b);

     csParam.create = QUDA_ZERO_FIELD_CREATE;


     if (reliable)

       for (int i=0; i<num_offset; i++) y[i] = new cudaColorSpinorField(*r, csParam);


     csParam.setPrecision(param.precision_sloppy);


     cudaColorSpinorField *r_sloppy;

     if (param.precision_sloppy == x[0]->Precision()) {

       r_sloppy = r;

     } else {

       csParam.create = QUDA_COPY_FIELD_CREATE;

       r_sloppy = new cudaColorSpinorField(*r, csParam);

     }


     cudaColorSpinorField **x_sloppy = new cudaColorSpinorField*[num_offset];

     if (param.precision_sloppy == x[0]->Precision() ||

         !param.use_sloppy_partial_accumulator) {

       for (int i=0; i<num_offset; i++) x_sloppy[i] = x[i];

     } else {

       csParam.create = QUDA_ZERO_FIELD_CREATE;

       for (int i=0; i<num_offset; i++)

         x_sloppy[i] = new cudaColorSpinorField(*x[i], csParam);

     }


     cudaColorSpinorField **p = new cudaColorSpinorField*[num_offset];

     for (int i=0; i<num_offset; i++) p[i]= new cudaColorSpinorField(*r_sloppy);


     csParam.create = QUDA_ZERO_FIELD_CREATE;

     cudaColorSpinorField* Ap = new cudaColorSpinorField(*r_sloppy, csParam);


     cudaColorSpinorField tmp1(*Ap, csParam);


     // tmp2 only needed for multi-gpu Wilson-like kernels

     cudaColorSpinorField *tmp2_p = !mat.isStaggered() ?

       new cudaColorSpinorField(*Ap, csParam) : &tmp1;

     cudaColorSpinorField &tmp2 = *tmp2_p;


     // additional high-precision temporary if Wilson and mixed-precision

     csParam.setPrecision(param.precision);

     cudaColorSpinorField *tmp3_p =

       (param.precision != param.precision_sloppy && !mat.isStaggered()) ?

       new cudaColorSpinorField(*r, csParam) : &tmp1;

     cudaColorSpinorField &tmp3 = *tmp3_p;


     profile.Stop(QUDA_PROFILE_INIT);

     profile.Start(QUDA_PROFILE_PREAMBLE);


     // stopping condition of each shift

     double stop[QUDA_MAX_MULTI_SHIFT];

     double r2[QUDA_MAX_MULTI_SHIFT];

     for (int i=0; i<num_offset; i++) {

       r2[i] = b2;

       stop[i] = Solver::stopping(param.tol_offset[i], b2, param.residual_type);

     }


     double r2_old;

     double pAp;


     double rNorm[QUDA_MAX_MULTI_SHIFT];

     double r0Norm[QUDA_MAX_MULTI_SHIFT];

     double maxrx[QUDA_MAX_MULTI_SHIFT];

     double maxrr[QUDA_MAX_MULTI_SHIFT];

     for (int i=0; i<num_offset; i++) {

       rNorm[i] = sqrt(r2[i]);

       r0Norm[i] = rNorm[i];

       maxrx[i] = rNorm[i];

       maxrr[i] = rNorm[i];

     }

     double delta = param.delta;


     // this parameter determines how many consective reliable update

     // reisudal increases we tolerate before terminating the solver,

     // i.e., how long do we want to keep trying to converge

     const int maxResIncrease =  param.max_res_increase; // check if we reached the limit of our tolerance

     const int maxResIncreaseTotal = param.max_res_increase_total;


     int resIncrease = 0;

     int resIncreaseTotal[QUDA_MAX_MULTI_SHIFT];

     for (int i=0; i<num_offset; i++) {

       resIncreaseTotal[i]=0;

     }


     int k = 0;

     int rUpdate = 0;

     quda::blas_flops = 0;


     profile.Stop(QUDA_PROFILE_PREAMBLE);

     profile.Start(QUDA_PROFILE_COMPUTE);


     if (getVerbosity() >= QUDA_VERBOSE)

       printfQuda("MultiShift CG: %d iterations, <r,r> = %e, |r|/|b| = %e\n", k, r2[0], sqrt(r2[0]/b2));


     while (r2[0] > stop[0] &&  k < param.maxiter) {

       matSloppy(*Ap, *p[0], tmp1, tmp2);

       // FIXME - this should be curried into the Dirac operator

       if (r->Nspin()==4) axpyCuda(offset[0], *p[0], *Ap);


       pAp = reDotProductCuda(*p[0], *Ap);


       // compute zeta and alpha

       updateAlphaZeta(alpha, zeta, zeta_old, r2, beta, pAp, offset, num_offset_now, j_low);


       r2_old = r2[0];

       Complex cg_norm = axpyCGNormCuda(-alpha[j_low], *Ap, *r_sloppy);

       r2[0] = real(cg_norm);

       double zn = imag(cg_norm);


       // reliable update conditions

       rNorm[0] = sqrt(r2[0]);

       for (int j=1; j<num_offset_now; j++) rNorm[j] = rNorm[0] * zeta[j];


       int updateX=0, updateR=0;

       int reliable_shift = -1; // this is the shift that sets the reliable_shift

       for (int j=num_offset_now-1; j>=0; j--) {

         if (rNorm[j] > maxrx[j]) maxrx[j] = rNorm[j];

         if (rNorm[j] > maxrr[j]) maxrr[j] = rNorm[j];

         updateX = (rNorm[j] < delta*r0Norm[j] && r0Norm[j] <= maxrx[j]) ? 1 : updateX;

         updateR = ((rNorm[j] < delta*maxrr[j] && r0Norm[j] <= maxrr[j]) || updateX) ? 1 : updateR;

         if ((updateX || updateR) && reliable_shift == -1) reliable_shift = j;

       }


       if ( !(updateR || updateX) || !reliable) {

         //beta[0] = r2[0] / r2_old;

         beta[0] = zn / r2_old;

         // update p[0] and x[0]

         axpyZpbxCuda(alpha[0], *p[0], *x_sloppy[0], *r_sloppy, beta[0]);


         for (int j=1; j<num_offset_now; j++) {

           beta[j] = beta[j_low] * zeta[j] * alpha[j] / (zeta_old[j] * alpha[j_low]);

           // update p[i] and x[i]

           axpyBzpcxCuda(alpha[j], *p[j], *x_sloppy[j], zeta[j], *r_sloppy, beta[j]);

         }

       } else {

         for (int j=0; j<num_offset_now; j++) {

           axpyCuda(alpha[j], *p[j], *x_sloppy[j]);

           copyCuda(*x[j], *x_sloppy[j]);

           xpyCuda(*x[j], *y[j]);

         }


         mat(*r, *y[0], *x[0], tmp3); // here we can use x as tmp

         if (r->Nspin()==4) axpyCuda(offset[0], *y[0], *r);


         r2[0] = xmyNormCuda(b, *r);

         for (int j=1; j<num_offset_now; j++) r2[j] = zeta[j] * zeta[j] * r2[0];

         for (int j=0; j<num_offset_now; j++) zeroCuda(*x_sloppy[j]);


         copyCuda(*r_sloppy, *r);


         // break-out check if we have reached the limit of the precision


         if (sqrt(r2[reliable_shift]) > r0Norm[reliable_shift]) { // reuse r0Norm for this

     resIncrease++;

     resIncreaseTotal[reliable_shift]++;

           warningQuda("MultiShiftCG: Shift %d, updated residual %e is greater than previous residual %e (total #inc %i)",

                       reliable_shift, sqrt(r2[reliable_shift]), r0Norm[reliable_shift], resIncreaseTotal[reliable_shift]);


           if (resIncrease > maxResIncrease or resIncreaseTotal[reliable_shift] > maxResIncreaseTotal) break; // check if we reached the limit of our tolerancebreak;

         } else {

           resIncrease = 0;

         }


         // explicitly restore the orthogonality of the gradient vector

         for (int j=0; j<num_offset_now; j++) {

           double rp = reDotProductCuda(*r_sloppy, *p[j]) / (r2[0]);

           axpyCuda(-rp, *r_sloppy, *p[j]);

         }


         // update beta and p

         beta[0] = r2[0] / r2_old;

         xpayCuda(*r_sloppy, beta[0], *p[0]);

         for (int j=1; j<num_offset_now; j++) {

           beta[j] = beta[j_low] * zeta[j] * alpha[j] / (zeta_old[j] * alpha[j_low]);

           axpbyCuda(zeta[j], *r_sloppy, beta[j], *p[j]);

         }


         // update reliable update parameters for the system that triggered the update

         int m = reliable_shift;

         rNorm[m] = sqrt(r2[0]) * zeta[m];

         maxrr[m] = rNorm[m];

         maxrx[m] = rNorm[m];

         r0Norm[m] = rNorm[m];

         rUpdate++;

       }


       // now we can check if any of the shifts have converged and remove them

       for (int j=1; j<num_offset_now; j++) {

         if (zeta[j] == 0.0) {

           num_offset_now--;

           if (getVerbosity() >= QUDA_VERBOSE)

               printfQuda("MultiShift CG: Shift %d converged after %d iterations\n", j, k + 1);

         }

         else {

         r2[j] = zeta[j] * zeta[j] * r2[0];

         if (r2[j] < stop[j]) {

             num_offset_now--;

           if (getVerbosity() >= QUDA_VERBOSE)

             printfQuda("MultiShift CG: Shift %d converged after %d iterations\n", j, k+1);

           }

         }

       }


       k++;


       if (getVerbosity() >= QUDA_VERBOSE)

         printfQuda("MultiShift CG: %d iterations, <r,r> = %e, |r|/|b| = %e\n", k, r2[0], sqrt(r2[0]/b2));

     }


     for (int i=0; i<num_offset; i++) {

       copyCuda(*x[i], *x_sloppy[i]);

       if (reliable) xpyCuda(*y[i], *x[i]);

     }


     profile.Stop(QUDA_PROFILE_COMPUTE);

     profile.Start(QUDA_PROFILE_EPILOGUE);


     if (getVerbosity() >= QUDA_VERBOSE)

       printfQuda("MultiShift CG: Reliable updates = %d\n", rUpdate);


     if (k==param.maxiter) warningQuda("Exceeded maximum iterations %d\n", param.maxiter);


     param.secs = profile.Last(QUDA_PROFILE_COMPUTE);

     double gflops = (quda::blas_flops + mat.flops() + matSloppy.flops())*1e-9;

     reduceDouble(gflops);

     param.gflops = gflops;

     param.iter += k;


     for(int i=0; i < num_offset; i++) {

       mat(*r, *x[i]);

       if (r->Nspin()==4) {

         axpyCuda(offset[i], *x[i], *r); // Offset it.

       } else if (i!=0) {

         axpyCuda(offset[i]-offset[0], *x[i], *r); // Offset it.

       }

       double true_res = xmyNormCuda(b, *r);

       param.true_res_offset[i] = sqrt(true_res/b2);

 #if (__COMPUTE_CAPABILITY__ >= 200)

       param.true_res_hq_offset[i] = sqrt(HeavyQuarkResidualNormCuda(*x[i], *r).z);

 #else

       param.true_res_hq_offset[i] = 0.0;

 #endif

     }


     if (getVerbosity() >= QUDA_SUMMARIZE){

       printfQuda("MultiShift CG: Converged after %d iterations\n", k);

       for(int i=0; i < num_offset; i++) {

         printfQuda(" shift=%d, relative residual: iterated = %e, true = %e\n",

                    i, sqrt(r2[i]/b2), param.true_res_offset[i]);

       }

     }


     // reset the flops counters

     quda::blas_flops = 0;

     mat.flops();

     matSloppy.flops();


     profile.Stop(QUDA_PROFILE_EPILOGUE);

     profile.Start(QUDA_PROFILE_FREE);


     if (&tmp3 != &tmp1) delete tmp3_p;

     if (&tmp2 != &tmp1) delete tmp2_p;


     if (r_sloppy->Precision() != r->Precision()) delete r_sloppy;

     for (int i=0; i<num_offset; i++)

        if (x_sloppy[i]->Precision() != x[i]->Precision()) delete x_sloppy[i];

     delete []x_sloppy;


     delete r;

     for (int i=0; i<num_offset; i++) delete p[i];

     delete []p;


     if (reliable) {

       for (int i=0; i<num_offset; i++) delete y[i];

       delete []y;

     }


     delete Ap;


     delete []zeta_old;

     delete []zeta;

     delete []alpha;

     delete []beta;


     profile.Stop(QUDA_PROFILE_FREE);


     return;

   }


 } // namespace quda

invert_quda.h

QUDA_VERBOSE
Definition: enum_quda.h:217

quda::ColorSpinorParam::setPrecision
void setPrecision(QudaPrecision precision)
Definition: color_spinor_field.h:109

quda::MultiShiftCG::~MultiShiftCG
virtual ~MultiShiftCG()
Definition: inv_multi_cg_quda.cpp:31

quda::Solver::stopping
static double stopping(const double &tol, const double &b2, QudaResidualType residual_type)
Definition: solver.cpp:65

quda::SolverParam::delta
double delta
Definition: invert_quda.h:41

y
int y[4]
Definition: staggered_dslash_core.h:356

QUDA_MAX_MULTI_SHIFT
#define QUDA_MAX_MULTI_SHIFT
Maximum number of shifts supported by the multi-shift solver. This number may be changed if need be...
Definition: quda_constants.h:24

getVerbosity
QudaVerbosity getVerbosity()
Definition: util_quda.cpp:20

quda::MultiShiftSolver::param
SolverParam & param
Definition: invert_quda.h:476

quda::QUDA_PROFILE_FREE
Definition: quda_internal.h:150

color_spinor_field.h

quda::SolverParam::secs
double secs
Definition: invert_quda.h:140

quda::sqrt
__host__ __device__ ValueType sqrt(ValueType x)
Definition: complex_quda.h:105

quda::Complex
std::complex< double > Complex
Definition: eig_variables.h:13

quda::MultiShiftCG::mat
const DiracMatrix & mat
Definition: invert_quda.h:490

quda::axpbyCuda
void axpbyCuda(const double &a, cudaColorSpinorField &x, const double &b, cudaColorSpinorField &y)
Definition: blas_quda.cu:82

QUDA_SUMMARIZE
Definition: enum_quda.h:216

tmp1
cudaColorSpinorField * tmp1
Definition: dslash_test.cpp:41

quda::axpyZpbxCuda
void axpyZpbxCuda(const double &a, cudaColorSpinorField &x, cudaColorSpinorField &y, cudaColorSpinorField &z, const double &b)
Definition: blas_quda.cu:338

quda::updateAlphaZeta
void updateAlphaZeta(double *alpha, double *zeta, double *zeta_old, const double *r2, const double *beta, const double pAp, const double *offset, const int nShift, const int j_low)
Definition: inv_multi_cg_quda.cpp:38

mat
void mat(void *out, void **fatlink, void **longlink, void *in, double kappa, int dagger_bit, QudaPrecision sPrecision, QudaPrecision gPrecision)
Definition: staggered_dslash_reference.cpp:136

quda::SolverParam::tol_offset
double tol_offset[QUDA_MAX_MULTI_SHIFT]
Definition: invert_quda.h:104

quda::SolverParam::offset
double offset[QUDA_MAX_MULTI_SHIFT]
Definition: invert_quda.h:101

quda::cudaColorSpinorField
Definition: color_spinor_field.h:302

quda::MultiShiftSolver
Definition: invert_quda.h:473

quda::MultiShiftSolver::profile
TimeProfile & profile
Definition: invert_quda.h:477

util_quda.h

quda::SolverParam::iter
int iter
Definition: invert_quda.h:78

quda::SolverParam::max_res_increase_total
int max_res_increase_total
Definition: invert_quda.h:54

quda::TimeProfile
Definition: quda_internal.h:171

quda::axpyCGNormCuda
Complex axpyCGNormCuda(const double &a, cudaColorSpinorField &x, cudaColorSpinorField &y)
Definition: reduce_quda.cu:682

quda::DiracMatrix::flops
unsigned long long flops() const
Definition: dirac_quda.h:587

param
QudaGaugeParam param
Definition: pack_test.cpp:17

tmp2
cudaColorSpinorField * tmp2
Definition: dslash_test.cpp:41

QUDA_COPY_FIELD_CREATE
Definition: enum_quda.h:305

quda::axpyBzpcxCuda
void axpyBzpcxCuda(const double &a, cudaColorSpinorField &x, cudaColorSpinorField &y, const double &b, cudaColorSpinorField &z, const double &c)
Definition: blas_quda.cu:311

quda::SolverParam::gflops
double gflops
Definition: invert_quda.h:143

quda::SolverParam::residual_type
QudaResidualType residual_type
Definition: invert_quda.h:35

quda::MultiShiftCG::matSloppy
const DiracMatrix & matSloppy
Definition: invert_quda.h:491

quda::SolverParam::true_res_hq_offset
double true_res_hq_offset[QUDA_MAX_MULTI_SHIFT]
Definition: invert_quda.h:113

quda::QUDA_PROFILE_EPILOGUE
Definition: quda_internal.h:149

quda::SolverParam::maxiter
int maxiter
Definition: invert_quda.h:75

csParam
ColorSpinorParam csParam
Definition: pack_test.cpp:24

face_quda.h

quda::QUDA_PROFILE_COMPUTE
Definition: quda_internal.h:148

warningQuda
#define warningQuda(...)
Definition: util_quda.h:84

quda::copyCuda
void copyCuda(cudaColorSpinorField &dst, const cudaColorSpinorField &src)
Definition: copy_quda.cu:235

quda::QUDA_PROFILE_PREAMBLE
Definition: quda_internal.h:147

quda::SolverParam::true_res_offset
double true_res_offset[QUDA_MAX_MULTI_SHIFT]
Definition: invert_quda.h:110

quda::normCuda
double normCuda(const cudaColorSpinorField &b)
Definition: reduce_quda.cu:145

quda::axpyCuda
void axpyCuda(const double &a, cudaColorSpinorField &x, cudaColorSpinorField &y)
Definition: blas_quda.cu:115

quda::SolverParam::max_res_increase
int max_res_increase
Definition: invert_quda.h:49

x
int x[4]
Definition: hisq_paths_force_core.h:99

quda::MultiShiftCG::operator()
void operator()(cudaColorSpinorField **out, cudaColorSpinorField &in)
Definition: inv_multi_cg_quda.cpp:67

quda::blas_flops
unsigned long long blas_flops
Definition: blas_quda.cu:37

blas_quda.h

quda::SolverParam::precision
QudaPrecision precision
Definition: invert_quda.h:81

quda::QUDA_PROFILE_INIT
Definition: quda_internal.h:146

quda::ColorSpinorParam
Definition: color_spinor_field.h:14

quda::xpyCuda
void xpyCuda(cudaColorSpinorField &x, cudaColorSpinorField &y)
Definition: blas_quda.cu:98

quda::reDotProductCuda
double reDotProductCuda(cudaColorSpinorField &a, cudaColorSpinorField &b)
Definition: reduce_quda.cu:170

quda::TimeProfile::Stop
void Stop(QudaProfileType idx)
Definition: quda_internal.h:194

quda::ColorSpinorField::Precision
QudaPrecision Precision() const
Definition: color_spinor_field.h:242

quda::TimeProfile::Last
double Last(QudaProfileType idx)
Definition: quda_internal.h:204

quda::DiracMatrix
Definition: dirac_quda.h:571

reduceDouble
void reduceDouble(double &)
Definition: face_buffer.cpp:530

dslash_quda.h

quda::MultiShiftCG::MultiShiftCG
MultiShiftCG(DiracMatrix &mat, DiracMatrix &matSloppy, SolverParam &param, TimeProfile &profile)
Definition: inv_multi_cg_quda.cpp:25

printfQuda
#define printfQuda(...)
Definition: util_quda.h:67

quda::reliable
int reliable(double &rNorm, double &maxrx, double &maxrr, const double &r2, const double &delta)
Definition: inv_bicgstab_quda.cpp:47

quda::zeroCuda
void zeroCuda(cudaColorSpinorField &a)
Definition: blas_quda.cu:40

quda::SolverParam::num_offset
int num_offset
Definition: invert_quda.h:98

quda::TimeProfile::Start
void Start(QudaProfileType idx)
Definition: quda_internal.h:184

quda::DiracMatrix::isStaggered
bool isStaggered() const
Definition: dirac_quda.h:594

quda::SolverParam::precision_sloppy
QudaPrecision precision_sloppy
Definition: invert_quda.h:84

quda::SolverParam::use_sloppy_partial_accumulator
bool use_sloppy_partial_accumulator
Definition: invert_quda.h:44

QUDA_ZERO_FIELD_CREATE
Definition: enum_quda.h:304

quda::ColorSpinorField::Nspin
int Nspin() const
Definition: color_spinor_field.h:244

quda::xpayCuda
void xpayCuda(cudaColorSpinorField &x, const double &a, cudaColorSpinorField &y)
Definition: blas_quda.cu:138

quda::ColorSpinorParam::create
QudaFieldCreate create
Definition: color_spinor_field.h:25

quda::SolverParam
Definition: invert_quda.h:14

quda::HeavyQuarkResidualNormCuda
double3 HeavyQuarkResidualNormCuda(cudaColorSpinorField &x, cudaColorSpinorField &r)
Definition: reduce_quda.cu:777

quda::xmyNormCuda
double xmyNormCuda(cudaColorSpinorField &a, cudaColorSpinorField &b)
Definition: reduce_quda.cu:343

quda_internal.h