quda-ref/v1.0.0/inv__mr__quda_8cpp_source.html

 #include <stdio.h>
 #include <stdlib.h>
 #include <math.h>

 #include <complex>

 #include <quda_internal.h>
 #include <blas_quda.h>
 #include <dslash_quda.h>
 #include <invert_quda.h>
 #include <util_quda.h>
 #include <color_spinor_field.h>

 namespace quda {

   MR::MR(DiracMatrix &mat, DiracMatrix &matSloppy, SolverParam &param, TimeProfile &profile) :
     Solver(param, profile), mat(mat), matSloppy(matSloppy), rp(nullptr), r_sloppy(nullptr),
     Arp(nullptr), tmpp(nullptr), tmp_sloppy(nullptr), x_sloppy(nullptr), init(false)
   {
     if (param.schwarz_type == QUDA_MULTIPLICATIVE_SCHWARZ && param.Nsteps % 2 == 1) {
       errorQuda("For multiplicative Schwarz, number of solver steps %d must be even", param.Nsteps);
     }
   }

   MR::~MR() {
     if (!param.is_preconditioner) profile.TPSTART(QUDA_PROFILE_FREE);
     if (init) {
       if (x_sloppy) delete x_sloppy;
       if (tmp_sloppy) delete tmp_sloppy;
       if (tmpp) delete tmpp;
       if (Arp) delete Arp;
       if (r_sloppy) delete r_sloppy;
       if (rp) delete rp;
     }
     if (!param.is_preconditioner) profile.TPSTOP(QUDA_PROFILE_FREE);
   }

   void MR::operator()(ColorSpinorField &x, ColorSpinorField &b)
   {
     if (checkPrecision(x,b) != param.precision) errorQuda("Precision mismatch %d %d", checkPrecision(x,b), param.precision);

     if (param.maxiter == 0 || param.Nsteps == 0) {
       if (param.use_init_guess == QUDA_USE_INIT_GUESS_NO) blas::zero(x);
       return;
     }

     if (!init) {
       bool mixed = param.precision != param.precision_sloppy;

       ColorSpinorParam csParam(x);
       csParam.create = QUDA_NULL_FIELD_CREATE;

       // Source needs to be preserved if we're computing the true residual
       rp = (param.use_init_guess == QUDA_USE_INIT_GUESS_YES || param.preserve_source == QUDA_PRESERVE_SOURCE_YES
       || param.Nsteps > 1 || param.compute_true_res == 1) ?
   ColorSpinorField::Create(csParam) : nullptr;

       tmpp = (param.use_init_guess == QUDA_USE_INIT_GUESS_YES || param.Nsteps > 1 || param.compute_true_res) ?
   ColorSpinorField::Create(csParam) : nullptr;

       // now allocate sloppy fields
       csParam.setPrecision(param.precision_sloppy);

       r_sloppy = mixed ? ColorSpinorField::Create(csParam) : nullptr;  // we need a separate sloppy residual vector
       Arp = ColorSpinorField::Create(csParam);

       //sloppy temporary for mat-vec
       tmp_sloppy = (!tmpp || mixed) ? ColorSpinorField::Create(csParam) : nullptr;

       //  iterated sloppy solution vector
       x_sloppy = ColorSpinorField::Create(csParam);

       init = true;
     } // init

     ColorSpinorField &r = rp ? *rp : b;
     ColorSpinorField &rSloppy = r_sloppy ? *r_sloppy : r;
     ColorSpinorField &Ar = *Arp;
     ColorSpinorField &tmp = tmpp ? *tmpp : b;
     ColorSpinorField &tmpSloppy = tmp_sloppy ? *tmp_sloppy : tmp;
     ColorSpinorField &xSloppy = *x_sloppy;

     if (!param.is_preconditioner) {
       blas::flops = 0;
       profile.TPSTART(QUDA_PROFILE_COMPUTE);
     }

     double b2 = blas::norm2(b);  //Save norm of b
     double r2 = 0.0; // if zero source then we will exit immediately doing no work
     if (param.use_init_guess == QUDA_USE_INIT_GUESS_YES) {
       mat(r, x, tmp);
       r2 = blas::xmyNorm(b, r);   //r = b - Ax0
     } else {
       r2 = b2;
       blas::copy(r, b);
       blas::zero(x); // needed?
     }
     blas::copy(rSloppy, r);

     // if invalid residual then convergence is set by iteration count only
     double stop = param.residual_type == QUDA_INVALID_RESIDUAL ? 0.0 : b2*param.tol*param.tol;
     int step = 0;

     if (getVerbosity() >= QUDA_VERBOSE) printfQuda("MR: Initial residual = %e\n", sqrt(r2));

     bool converged = false;
     while (!converged) {

       double scale = 1.0;
       if ((node_parity+step)%2 == 0 && param.schwarz_type == QUDA_MULTIPLICATIVE_SCHWARZ) {
   // for multiplicative Schwarz we alternate updates depending on node parity
       } else {

   commGlobalReductionSet(param.global_reduction); // use local reductions for DD solver

   blas::zero(xSloppy);  // can get rid of this for a special first update kernel
   double c2 = param.global_reduction == QUDA_BOOLEAN_TRUE ? r2 : blas::norm2(r);  // c2 holds the initial r2
   scale = c2 > 0.0 ? sqrt(c2) : 1.0;

   // domain-wise normalization of the initial residual to prevent underflow
   if (c2 > 0.0) {
     blas::ax(1/scale, rSloppy); // can merge this with the prior copy
     r2 = 1.0; // by definition by this is now true
   }

   int k = 0;
   if (getVerbosity() >= QUDA_VERBOSE) printfQuda("MR: %d cycle, %d iterations, r2 = %e\n", step, k, r2);

   double3 Ar3;
   while (k < param.maxiter && r2 > 0.0) {

     matSloppy(Ar, rSloppy, tmpSloppy);

     if (param.global_reduction) {
       Ar3 = blas::cDotProductNormA(Ar, rSloppy);
       Complex alpha = Complex(Ar3.x, Ar3.y) / Ar3.z;

       // x += omega*alpha*r, r -= omega*alpha*Ar, r2 = blas::norm2(r)
       //r2 = blas::caxpyXmazNormX(omega*alpha, r, x, Ar);
       blas::caxpyXmaz(param.omega*alpha, rSloppy, xSloppy, Ar);

       if (getVerbosity() >= QUDA_VERBOSE)
         printfQuda("MR: %d cycle, %d iterations, <r|A|r> = (%e, %e)\n", step, k+1, Ar3.x, Ar3.y);
     } else {
       // doing local reductions so can make it asynchronous
       commAsyncReductionSet(true);
       Ar3 = blas::cDotProductNormA(Ar, rSloppy);

       // omega*alpha is done in the kernel
       blas::caxpyXmazMR(param.omega, rSloppy, xSloppy, Ar);
       commAsyncReductionSet(false);
     }
     k++;

   }

   // Scale and sum to accumulator
   blas::axpy(scale,xSloppy,x);

   commGlobalReductionSet(true); // renable global reductions for outer solver

       }
       step++;

       // FIXME - add over/under relaxation in outer loop
       if (param.compute_true_res || param.Nsteps > 1) {
   mat(r, x, tmp);
   r2 = blas::xmyNorm(b, r);
   param.true_res = sqrt(r2 / b2);

   converged = (step < param.Nsteps && r2 > stop) ? false : true;

   // if not preserving source and finished then overide source with residual
   if (param.preserve_source == QUDA_PRESERVE_SOURCE_NO && converged) blas::copy(b, r);
   else blas::copy(rSloppy, r);

   if (getVerbosity() >= QUDA_SUMMARIZE) {
     printfQuda("MR: %d cycle, Converged after %d iterations, relative residual: true = %e\n",
          step, param.maxiter, sqrt(r2));
   }
       } else {

   blas::ax(scale, rSloppy);
   r2 = blas::norm2(rSloppy);

   converged = (step < param.Nsteps) ? false : true;

   // if not preserving source and finished then overide source with residual
   if (param.preserve_source == QUDA_PRESERVE_SOURCE_NO && converged) blas::copy(b, rSloppy);
   else blas::copy(r, rSloppy);

   if (getVerbosity() >= QUDA_SUMMARIZE) {
     printfQuda("MR: %d cycle, Converged after %d iterations, relative residual: iterated = %e\n",
          step, param.maxiter, sqrt(r2));
   }
       }

     }

     if (!param.is_preconditioner) {
       profile.TPSTOP(QUDA_PROFILE_COMPUTE);
       profile.TPSTART(QUDA_PROFILE_EPILOGUE);
       param.secs += profile.Last(QUDA_PROFILE_COMPUTE);

       // store flops and reset counters
       double gflops = (blas::flops + mat.flops() + matSloppy.flops())*1e-9;

       param.gflops += gflops;
       param.iter += param.Nsteps * param.maxiter;
       blas::flops = 0;

       profile.TPSTOP(QUDA_PROFILE_EPILOGUE);
     }

     return;
   }

 } // namespace quda
invert_quda.h

quda::SolverParam::compute_true_res
bool compute_true_res
Definition: invert_quda.h:124

quda::blas::ax
void ax(double a, ColorSpinorField &x)
Definition: blas_quda.cu:508

quda::SolverParam::global_reduction
bool global_reduction
whether the solver acting as a preconditioner for another solver
Definition: invert_quda.h:243

QUDA_VERBOSE
Definition: enum_quda.h:265

quda::SolverParam::schwarz_type
QudaSchwarzType schwarz_type
Definition: invert_quda.h:217

quda::ColorSpinorParam::setPrecision
void setPrecision(QudaPrecision precision, QudaPrecision ghost_precision=QUDA_INVALID_PRECISION, bool force_native=false)
Definition: color_spinor_field.h:231

quda::blas::caxpyXmazMR
void caxpyXmazMR(const Complex &a, ColorSpinorField &x, ColorSpinorField &y, ColorSpinorField &z)
Definition: blas_quda.cu:603

quda::blas::cDotProductNormA
double3 cDotProductNormA(ColorSpinorField &a, ColorSpinorField &b)
Definition: reduce_quda.cu:778

quda::ColorSpinorField
Definition: color_spinor_field.h:311

QUDA_PRESERVE_SOURCE_YES
Definition: enum_quda.h:237

quda::MR::MR
MR(DiracMatrix &mat, DiracMatrix &matSloppy, SolverParam &param, TimeProfile &profile)
Definition: inv_mr_quda.cpp:16

getVerbosity
QudaVerbosity getVerbosity()
Definition: util_quda.cpp:21

quda::QUDA_PROFILE_FREE
Definition: timer.h:111

checkPrecision
#define checkPrecision(...)
Definition: lattice_field.h:695

errorQuda
#define errorQuda(...)
Definition: util_quda.h:121

quda::blas::norm2
double norm2(const ColorSpinorField &a)
Definition: reduce_quda.cu:721

color_spinor_field.h

quda::SolverParam::secs
double secs
Definition: invert_quda.h:220

quda::sqrt
__host__ __device__ ValueType sqrt(ValueType x)
Definition: complex_quda.h:120

QUDA_SUMMARIZE
Definition: enum_quda.h:264

tmp
cudaColorSpinorField * tmp
Definition: covdev_test.cpp:44

quda::ColorSpinorField::Create
static ColorSpinorField * Create(const ColorSpinorParam &param)
Definition: color_spinor_field.cpp:752

QUDA_NULL_FIELD_CREATE
Definition: enum_quda.h:359

quda::Solver::profile
TimeProfile & profile
Definition: invert_quda.h:464

quda::blas::copy
void copy(ColorSpinorField &dst, const ColorSpinorField &src)
Definition: copy_quda.cu:355

quda::blas::xmyNorm
double xmyNorm(ColorSpinorField &x, ColorSpinorField &y)
Definition: blas_quda.h:75

util_quda.h

quda::SolverParam::preserve_source
QudaPreserveSource preserve_source
Definition: invert_quda.h:154

quda::SolverParam::iter
int iter
Definition: invert_quda.h:139

quda::SolverParam::omega
double omega
Definition: invert_quda.h:205

quda
Definition: blas_cublas.h:5

param
QudaGaugeParam param
Definition: pack_test.cpp:17

quda::SolverParam::Nsteps
int Nsteps
Definition: invert_quda.h:190

quda::TimeProfile::Last
double Last(QudaProfileType idx)
Definition: timer.h:251

QUDA_USE_INIT_GUESS_YES
Definition: enum_quda.h:429

quda::MR::matSloppy
const DiracMatrix & matSloppy
Definition: invert_quda.h:867

quda::SolverParam::gflops
double gflops
Definition: invert_quda.h:223

quda::SolverParam::residual_type
QudaResidualType residual_type
Definition: invert_quda.h:49

QUDA_PRESERVE_SOURCE_NO
Definition: enum_quda.h:236

quda::QUDA_PROFILE_EPILOGUE
Definition: timer.h:110

quda::SolverParam::maxiter
int maxiter
Definition: invert_quda.h:136

csParam
ColorSpinorParam csParam
Definition: pack_test.cpp:24

QUDA_INVALID_RESIDUAL
Definition: enum_quda.h:190

quda::blas::axpy
void axpy(double a, ColorSpinorField &x, ColorSpinorField &y)
Definition: blas_quda.h:35

QUDA_BOOLEAN_TRUE
Definition: enum_quda.h:453

quda::QUDA_PROFILE_COMPUTE
Definition: timer.h:108

quda::MR::Arp
ColorSpinorField * Arp
Definition: invert_quda.h:870

quda::SolverParam::is_preconditioner
bool is_preconditioner
verbosity to use for preconditioner
Definition: invert_quda.h:241

quda::Complex
std::complex< double > Complex
Definition: quda_internal.h:46

quda::MR::rp
ColorSpinorField * rp
Definition: invert_quda.h:868

quda::MR::init
bool init
Definition: invert_quda.h:874

quda::Solver::node_parity
int node_parity
Definition: invert_quda.h:465

quda::cublas::init
void init()
Create the CUBLAS context.
Definition: blas_cublas.cu:31

quda::blas::zero
void zero(ColorSpinorField &a)
Definition: blas_quda.cu:472

commAsyncReductionSet
void commAsyncReductionSet(bool global_reduce)
Definition: comm_common.cpp:827

blas_quda.h

quda::SolverParam::precision
QudaPrecision precision
Definition: invert_quda.h:142

quda::SolverParam::true_res
double true_res
Definition: invert_quda.h:130

quda::Solver
Definition: invert_quda.h:460

quda::ColorSpinorParam
Definition: color_spinor_field.h:80

QUDA_USE_INIT_GUESS_NO
Definition: enum_quda.h:428

quda::MR::tmp_sloppy
ColorSpinorField * tmp_sloppy
Definition: invert_quda.h:872

quda::Solver::param
SolverParam & param
Definition: invert_quda.h:463

quda::MR::operator()
void operator()(ColorSpinorField &out, ColorSpinorField &in)
Definition: inv_mr_quda.cpp:38

quda::blas::caxpyXmaz
void caxpyXmaz(const Complex &a, ColorSpinorField &x, ColorSpinorField &y, ColorSpinorField &z)
Definition: blas_quda.cu:597

quda::DiracMatrix::flops
unsigned long long flops() const
Definition: dirac_quda.h:1119

quda::MR::r_sloppy
ColorSpinorField * r_sloppy
Definition: invert_quda.h:869

quda::DiracMatrix
Definition: dirac_quda.h:1100

dslash_quda.h

printfQuda
#define printfQuda(...)
Definition: util_quda.h:115

quda::MR::tmpp
ColorSpinorField * tmpp
Definition: invert_quda.h:871

quda::blas::flops
unsigned long long flops
Definition: blas_quda.cu:22

QUDA_MULTIPLICATIVE_SCHWARZ
Definition: enum_quda.h:182

quda::MR::~MR
virtual ~MR()
Definition: inv_mr_quda.cpp:25

quda::TimeProfile
Definition: timer.h:171

quda::MR::mat
const DiracMatrix & mat
Definition: invert_quda.h:866

quda::MR::x_sloppy
ColorSpinorField * x_sloppy
Definition: invert_quda.h:873

quda::SolverParam::use_init_guess
QudaUseInitGuess use_init_guess
Definition: invert_quda.h:64

quda::SolverParam::precision_sloppy
QudaPrecision precision_sloppy
Definition: invert_quda.h:145

quda::ColorSpinorParam::create
QudaFieldCreate create
Definition: color_spinor_field.h:95

quda::SolverParam
Definition: invert_quda.h:17

mat
void mat(void *out, void **link, void *in, int dagger_bit, int mu, QudaPrecision sPrecision, QudaPrecision gPrecision)
Definition: covdev_reference.cpp:112

quda::SolverParam::tol
double tol
Definition: invert_quda.h:115

quda_internal.h

commGlobalReductionSet
void commGlobalReductionSet(bool global_reduce)
Definition: comm_common.cpp:823