v0.9.0/doc/milc__interface_8cpp_source.html

 #include <cstdio>
 #include <cstdlib>
 #include <iostream>
 #include <quda.h>
 #include <quda_milc_interface.h>
 #include <quda_internal.h>
 #include <color_spinor_field.h>
 #include <string.h>
 #include <unitarization_links.h>
 #include <ks_improved_force.h>
 #include <dslash_quda.h>

 #define MAX(a,b) ((a)>(b)?(a):(b))

 #ifdef BUILD_MILC_INTERFACE

 // code for NVTX taken from Jiri Kraus' blog post:
 // http://devblogs.nvidia.com/parallelforall/cuda-pro-tip-generate-custom-application-profile-timelines-nvtx/

 #ifdef INTERFACE_NVTX
 #include "nvToolsExt.h"

 static const uint32_t colors[] = { 0x0000ff00, 0x000000ff, 0x00ffff00, 0x00ff00ff, 0x0000ffff, 0x00ff0000, 0x00ffffff };
 static const int num_colors = sizeof(colors)/sizeof(uint32_t);

 #define PUSH_RANGE(name,cid) { \
   int color_id = cid; \
   color_id = color_id%num_colors;\
   nvtxEventAttributes_t eventAttrib = {0}; \
   eventAttrib.version = NVTX_VERSION; \
   eventAttrib.size = NVTX_EVENT_ATTRIB_STRUCT_SIZE; \
   eventAttrib.colorType = NVTX_COLOR_ARGB; \
   eventAttrib.color = colors[color_id]; \
   eventAttrib.messageType = NVTX_MESSAGE_TYPE_ASCII; \
   eventAttrib.message.ascii = name; \
   nvtxRangePushEx(&eventAttrib); \
 }
 #define POP_RANGE nvtxRangePop();
 #else
 #define PUSH_RANGE(name,cid)
 #define POP_RANGE
 #endif


 static bool initialized = false;
 static int gridDim[4];
 static int localDim[4];

 static bool invalidate_quda_gauge = true;
 static bool create_quda_gauge = false;

 static bool invalidate_quda_mom = true;

 static void *df_preconditioner = nullptr;

 // set to 1 for GPU resident pipeline (not yet supported in mainline MILC)
 #define MOM_PIPE 0

 using namespace quda;
 using namespace quda::fermion_force;


 #define QUDAMILC_VERBOSE 1
 template <bool start>
 void  inline qudamilc_called(const char* func, QudaVerbosity verb){
 #ifdef QUDAMILC_VERBOSE
 if (verb >= QUDA_VERBOSE) {
      if(start){
        printfQuda("QUDA_MILC_INTERFACE: %s (called) \n",func);
        PUSH_RANGE(func,1)
      }
      else {
       printfQuda("QUDA_MILC_INTERFACE: %s (return) \n",func);
       POP_RANGE
      }
    }
 #endif

 }

 template <bool start>
 void inline qudamilc_called(const char * func){
   qudamilc_called<start>(func, getVerbosity());
 }


 void qudaInit(QudaInitArgs_t input)
 {
   if(initialized) return;
   setVerbosityQuda(input.verbosity, "", stdout);
   qudamilc_called<true>(__func__);
   qudaSetLayout(input.layout);
   initialized = true;
   qudamilc_called<false>(__func__);

 }

 void qudaFinalize()
 {
   qudamilc_called<true>(__func__);
   endQuda();
   qudamilc_called<false>(__func__);
 }
 #ifdef MULTI_GPU

 static int rankFromCoords(const int *coords, void *fdata)
 {
   int *dims = static_cast<int *>(fdata);

   int rank = coords[3];
   for (int i = 2; i >= 0; i--) {
     rank = dims[i] * rank + coords[i];
   }
   return rank;
 }
 #endif

 void qudaSetLayout(QudaLayout_t input)
 {
   int local_dim[4];
   for(int dir=0; dir<4; ++dir){ local_dim[dir] = input.latsize[dir]; }
 #ifdef MULTI_GPU
   for(int dir=0; dir<4; ++dir){ local_dim[dir] /= input.machsize[dir]; }
 #endif
   for(int dir=0; dir<4; ++dir){
     if(local_dim[dir]%2 != 0){
       printf("Error: Odd lattice dimensions are not supported\n");
       exit(1);
     }
   }

   for(int dir=0; dir<4; ++dir) localDim[dir] = local_dim[dir];

 #ifdef MULTI_GPU
   for(int dir=0; dir<4; ++dir)  gridDim[dir] = input.machsize[dir];
   initCommsGridQuda(4, gridDim, rankFromCoords, (void *)(gridDim));
   static int device = -1;
 #else
   for(int dir=0; dir<4; ++dir)  gridDim[dir] = 1;
   static int device = input.device;
 #endif

   initQuda(device);
 }

 void* qudaAllocatePinned(size_t bytes) {
   return pool_pinned_malloc(bytes);
 }

 void qudaFreePinned(void *ptr) {
   pool_pinned_free(ptr);
 }

 void qudaHisqParamsInit(QudaHisqParams_t params)
 {

   static bool initialized = false;

   if(initialized) return;
   qudamilc_called<true>(__func__);

 #if defined(GPU_HISQ_FORCE) || defined(GPU_UNITARIZE)
   const bool reunit_allow_svd = (params.reunit_allow_svd) ? true : false;
   const bool reunit_svd_only  = (params.reunit_svd_only) ? true : false;
   const double unitarize_eps = 1e-14;
   const double max_error = 1e-10;
 #endif

 #ifdef GPU_HISQ_FORCE
   quda::fermion_force::setUnitarizeForceConstants(unitarize_eps,
       params.force_filter,
       max_error,
       reunit_allow_svd,
       reunit_svd_only,
       params.reunit_svd_rel_error,
       params.reunit_svd_abs_error);
 #endif

 #ifdef GPU_UNITARIZE
   setUnitarizeLinksConstants(unitarize_eps,
       max_error,
       reunit_allow_svd,
       reunit_svd_only,
       params.reunit_svd_rel_error,
       params.reunit_svd_abs_error);
 #endif // UNITARIZE_GPU

   initialized = true;
   qudamilc_called<false>(__func__);
   return;
 }


 static QudaGaugeParam newMILCGaugeParam(const int* dim, QudaPrecision prec, QudaLinkType link_type)
 {
   QudaGaugeParam gParam = newQudaGaugeParam();
   for(int dir=0; dir<4; ++dir) gParam.X[dir] = dim[dir];
   gParam.cuda_prec_sloppy = gParam.cpu_prec = gParam.cuda_prec = prec;
   gParam.type = link_type;

   gParam.reconstruct_sloppy = gParam.reconstruct = ((link_type == QUDA_SU3_LINKS) ? QUDA_RECONSTRUCT_12 : QUDA_RECONSTRUCT_NO);
   gParam.gauge_order   = QUDA_MILC_GAUGE_ORDER;
   gParam.t_boundary    = QUDA_PERIODIC_T;
   gParam.gauge_fix     = QUDA_GAUGE_FIXED_NO;
   gParam.scale         = 1.0;
   gParam.anisotropy    = 1.0;
   gParam.tadpole_coeff = 1.0;
   gParam.scale         = 0;
   gParam.ga_pad        = 0;
   gParam.site_ga_pad   = 0;
   gParam.mom_ga_pad    = 0;
   gParam.llfat_ga_pad  = 0;
   return gParam;
 }

 static  void invalidateGaugeQuda() {
   freeGaugeQuda();
   invalidate_quda_gauge = true;
 }

 void qudaLoadKSLink(int prec, QudaFatLinkArgs_t fatlink_args,
     const double act_path_coeff[6], void* inlink, void* fatlink, void* longlink)
 {
   qudamilc_called<true>(__func__);

   QudaGaugeParam param = newMILCGaugeParam(localDim,
       (prec==1) ? QUDA_SINGLE_PRECISION : QUDA_DOUBLE_PRECISION,
       QUDA_GENERAL_LINKS);

   param.staggered_phase_applied = 1;
   param.staggered_phase_type = QUDA_STAGGERED_PHASE_MILC;

   computeKSLinkQuda(fatlink, longlink, nullptr, inlink, const_cast<double*>(act_path_coeff), &param);
   qudamilc_called<false>(__func__);

   // requires loadGaugeQuda to be called in subequent solver
   invalidateGaugeQuda();

   // this flags that we are using QUDA to create the HISQ links
   create_quda_gauge = true;
   qudamilc_called<false>(__func__);
 }


 void qudaLoadUnitarizedLink(int prec, QudaFatLinkArgs_t fatlink_args,
           const double act_path_coeff[6], void* inlink, void* fatlink, void* ulink)
 {
   qudamilc_called<true>(__func__);

   QudaGaugeParam param = newMILCGaugeParam(localDim,
              (prec==1) ? QUDA_SINGLE_PRECISION : QUDA_DOUBLE_PRECISION,
              QUDA_GENERAL_LINKS);

   computeKSLinkQuda(fatlink, nullptr, ulink, inlink, const_cast<double*>(act_path_coeff), &param);
   qudamilc_called<false>(__func__);

   // requires loadGaugeQuda to be called in subequent solver
   invalidateGaugeQuda();

   // this flags that we are using QUDA to create the HISQ links
   create_quda_gauge = true;
   qudamilc_called<false>(__func__);
 }


 void qudaHisqForce(int prec, int num_terms, int num_naik_terms, double** coeff, void** quark_field,
                    const double level2_coeff[6], const double fat7_coeff[6],
                    const void* const w_link, const void* const v_link, const void* const u_link,
                    void* const milc_momentum)
 {
   qudamilc_called<true>(__func__);

   QudaGaugeParam gParam = newMILCGaugeParam(localDim, (prec==1) ? QUDA_SINGLE_PRECISION : QUDA_DOUBLE_PRECISION, QUDA_GENERAL_LINKS);

   if (!invalidate_quda_mom) {
     gParam.use_resident_mom = true;
     gParam.make_resident_mom = true;
     gParam.return_result_mom = false;
   } else {
     gParam.use_resident_mom = false;
     gParam.make_resident_mom = false;
     gParam.return_result_mom = true;
   }

   long long flops;
   computeHISQForceQuda(milc_momentum, &flops, level2_coeff, fat7_coeff,
                        w_link, v_link, u_link,
                        quark_field, num_terms, num_naik_terms, coeff,
                        &gParam);
   qudamilc_called<false>(__func__);
   return;
 }


 void qudaAsqtadForce(int prec, const double act_path_coeff[6],
                      const void* const one_link_src[4], const void* const naik_src[4],
                      const void* const link, void* const milc_momentum)
 {
   errorQuda("This interface has been removed and is no longer supported");
 }


 void qudaComputeOprod(int prec, int num_terms, int num_naik_terms, double** coeff, double scale,
                       void** quark_field, void* oprod[3])
 {
   errorQuda("This interface has been removed and is no longer supported");
 }


 void qudaUpdateU(int prec, double eps, QudaMILCSiteArg_t *arg)
 {
   qudamilc_called<true>(__func__);
   QudaGaugeParam gaugeParam = newMILCGaugeParam(localDim,
       (prec==1) ? QUDA_SINGLE_PRECISION : QUDA_DOUBLE_PRECISION,
       QUDA_GENERAL_LINKS);
   void *gauge = arg->site ? arg->site : arg->link;
   void *mom = arg->site ? arg->site : arg->mom;

   gaugeParam.gauge_offset = arg->link_offset;
   gaugeParam.mom_offset = arg->mom_offset;
   gaugeParam.site_size = arg->size;
   gaugeParam.gauge_order = arg->site ? QUDA_MILC_SITE_GAUGE_ORDER : QUDA_MILC_GAUGE_ORDER;

   if (!invalidate_quda_mom) {
     gaugeParam.use_resident_mom = true;
     gaugeParam.make_resident_mom = true;
   } else {
     gaugeParam.use_resident_mom = false;
     gaugeParam.make_resident_mom = false;
   }

   updateGaugeFieldQuda(gauge, mom, eps, 0, 0, &gaugeParam);
   qudamilc_called<false>(__func__);
   return;
 }

 void qudaRephase(int prec, void *gauge, int flag, double i_mu)
 {
   qudamilc_called<true>(__func__);
   QudaGaugeParam gaugeParam = newMILCGaugeParam(localDim,
       (prec==1) ? QUDA_SINGLE_PRECISION : QUDA_DOUBLE_PRECISION,
             QUDA_GENERAL_LINKS);

   gaugeParam.staggered_phase_applied = 1-flag;
   gaugeParam.staggered_phase_type = QUDA_STAGGERED_PHASE_MILC;
   gaugeParam.i_mu = i_mu;
   gaugeParam.t_boundary    = QUDA_ANTI_PERIODIC_T;

   staggeredPhaseQuda(gauge, &gaugeParam);
   qudamilc_called<false>(__func__);
   return;
 }

 void qudaUnitarizeSU3(int prec, double tol, QudaMILCSiteArg_t *arg)
 {
   qudamilc_called<true>(__func__);
   QudaGaugeParam gaugeParam = newMILCGaugeParam(localDim,
       (prec==1) ? QUDA_SINGLE_PRECISION : QUDA_DOUBLE_PRECISION,
             QUDA_GENERAL_LINKS);

   void *gauge = arg->site ? arg->site : arg->link;
   gaugeParam.gauge_offset = arg->link_offset;
   gaugeParam.site_size = arg->size;
   gaugeParam.gauge_order = arg->site ? QUDA_MILC_SITE_GAUGE_ORDER : QUDA_MILC_GAUGE_ORDER;

   projectSU3Quda(gauge, tol, &gaugeParam);
   qudamilc_called<false>(__func__);
   return;
 }

 double qudaMomAction(int prec, void *momentum)
 {
   qudamilc_called<true>(__func__);

   QudaGaugeParam momParam = newMILCGaugeParam(localDim,
       (prec==1) ? QUDA_SINGLE_PRECISION : QUDA_DOUBLE_PRECISION,
       QUDA_GENERAL_LINKS);

   if (MOM_PIPE) {
     if (invalidate_quda_mom) {
       // beginning of trajectory so download the momentum and make
       // resident
       momParam.use_resident_mom = false;
       momParam.make_resident_mom = true;
       invalidate_quda_mom = false;
     } else {
       // end of trajectory so use resident and then invalidate
       momParam.use_resident_mom = true;
       momParam.make_resident_mom = false;
       invalidate_quda_mom = true;
     }
   } else { // no momentum residency
     momParam.use_resident_mom = false;
     momParam.make_resident_mom = false;
     invalidate_quda_mom = true;
   }

   double action = momActionQuda(momentum, &momParam);

   qudamilc_called<false>(__func__);

   return action;
 }

 static inline int opp(int dir){
   return 7-dir;
 }


 static void createGaugeForcePaths(int **paths, int dir, int num_loop_types){

   int index=0;
   // Plaquette paths
   if (num_loop_types >= 1)
     for(int i=0; i<4; ++i){
       if(i==dir) continue;
       paths[index][0] = i;        paths[index][1] = opp(dir);   paths[index++][2] = opp(i);
       paths[index][0] = opp(i);   paths[index][1] = opp(dir);   paths[index++][2] = i;
     }

   // Rectangle Paths
   if (num_loop_types >= 2)
     for(int i=0; i<4; ++i){
       if(i==dir) continue;
       paths[index][0] = paths[index][1] = i;       paths[index][2] = opp(dir); paths[index][3] = paths[index][4] = opp(i);
       index++;
       paths[index][0] = paths[index][1] = opp(i);  paths[index][2] = opp(dir); paths[index][3] = paths[index][4] = i;
       index++;
       paths[index][0] = dir; paths[index][1] = i; paths[index][2] = paths[index][3] = opp(dir); paths[index][4] = opp(i);
       index++;
       paths[index][0] = dir; paths[index][1] = opp(i); paths[index][2] = paths[index][3] = opp(dir); paths[index][4] = i;
       index++;
       paths[index][0] = i;  paths[index][1] = paths[index][2] = opp(dir); paths[index][3] = opp(i); paths[index][4] = dir;
       index++;
       paths[index][0] = opp(i);  paths[index][1] = paths[index][2] = opp(dir); paths[index][3] = i; paths[index][4] = dir;
       index++;
     }

   if (num_loop_types >= 3) {
     // Staple paths
     for(int i=0; i<4; ++i){
       for(int j=0; j<4; ++j){
   if(i==dir || j==dir || i==j) continue;
   paths[index][0] = i; paths[index][1] = j; paths[index][2] = opp(dir); paths[index][3] = opp(i), paths[index][4] = opp(j);
   index++;
   paths[index][0] = i; paths[index][1] = opp(j); paths[index][2] = opp(dir); paths[index][3] = opp(i), paths[index][4] = j;
   index++;
   paths[index][0] = opp(i); paths[index][1] = j; paths[index][2] = opp(dir); paths[index][3] = i, paths[index][4] = opp(j);
   index++;
   paths[index][0] = opp(i); paths[index][1] = opp(j); paths[index][2] = opp(dir); paths[index][3] = i, paths[index][4] = j;
   index++;
       }
     }
   }

 }


 void qudaGaugeForce( int precision,
          int num_loop_types,
          double milc_loop_coeff[3],
          double eb3,
          QudaMILCSiteArg_t *arg)
 {
   qudamilc_called<true>(__func__);

   int numPaths = 0;
   switch (num_loop_types) {
   case 1:
     numPaths = 6;
     break;
   case 2:
     numPaths = 24;
     break;
   case 3:
     numPaths = 48;
     break;
   default:
     errorQuda("Invalid num_loop_types = %d\n", num_loop_types);
   }

   QudaGaugeParam qudaGaugeParam = newMILCGaugeParam(localDim,
       (precision==1) ? QUDA_SINGLE_PRECISION : QUDA_DOUBLE_PRECISION,
       QUDA_SU3_LINKS);
   void *gauge = arg->site ? arg->site : arg->link;
   void *mom = arg->site ? arg->site : arg->mom;

   qudaGaugeParam.gauge_offset = arg->link_offset;
   qudaGaugeParam.mom_offset = arg->mom_offset;
   qudaGaugeParam.site_size = arg->size;
   qudaGaugeParam.gauge_order = arg->site ? QUDA_MILC_SITE_GAUGE_ORDER : QUDA_MILC_GAUGE_ORDER;

   double *loop_coeff = static_cast<double*>(safe_malloc(numPaths*sizeof(double)));
   int *length = static_cast<int*>(safe_malloc(numPaths*sizeof(int)));

   if (num_loop_types >= 1) for(int i= 0; i< 6; ++i) {
       loop_coeff[i] = milc_loop_coeff[0];
       length[i] = 3;
     }
   if (num_loop_types >= 2) for(int i= 6; i<24; ++i) {
       loop_coeff[i] = milc_loop_coeff[1];
       length[i] = 5;
     }
   if (num_loop_types >= 3) for(int i=24; i<48; ++i) {
       loop_coeff[i] = milc_loop_coeff[2];
       length[i] = 5;
     }

   int** input_path_buf[4];
   for(int dir=0; dir<4; ++dir){
     input_path_buf[dir] = static_cast<int**>(safe_malloc(numPaths*sizeof(int*)));
     for(int i=0; i<numPaths; ++i){
       input_path_buf[dir][i] = static_cast<int*>(safe_malloc(length[i]*sizeof(int)));
     }
     createGaugeForcePaths(input_path_buf[dir], dir, num_loop_types);
   }

   if (!invalidate_quda_mom) {
     qudaGaugeParam.use_resident_mom = true;
     qudaGaugeParam.make_resident_mom = true;
     qudaGaugeParam.return_result_mom = false;

     // this means when we compute the momentum, we acummulate to the
     // preexisting resident momentum instead of overwriting it
     qudaGaugeParam.overwrite_mom = false;
   } else {
     qudaGaugeParam.use_resident_mom = false;
     qudaGaugeParam.make_resident_mom = false;
     qudaGaugeParam.return_result_mom = true;

     // this means we compute momentum into a fresh field, copy it back
     // and sum to current momentum in MILC.  This saves an initial
     // CPU->GPU download of the current momentum.
     qudaGaugeParam.overwrite_mom = false;
   }

   int max_length = 6;

   computeGaugeForceQuda(mom, gauge, input_path_buf, length,
       loop_coeff, numPaths, max_length, eb3, &qudaGaugeParam);

   for(int dir=0; dir<4; ++dir){
     for(int i=0; i<numPaths; ++i) host_free(input_path_buf[dir][i]);
     host_free(input_path_buf[dir]);
   }

   host_free(length);
   host_free(loop_coeff);

   qudamilc_called<false>(__func__);
   return;
 }


 static int getFatLinkPadding(const int dim[4])
 {
   int padding = MAX(dim[1]*dim[2]*dim[3]/2, dim[0]*dim[2]*dim[3]/2);
   padding = MAX(padding, dim[0]*dim[1]*dim[3]/2);
   padding = MAX(padding, dim[0]*dim[1]*dim[2]/2);
   return padding;
 }


 // set the params for the single mass solver
 static void setInvertParams(const int dim[4],
     QudaPrecision cpu_prec,
     QudaPrecision cuda_prec,
     QudaPrecision cuda_prec_sloppy,
     QudaPrecision cuda_prec_precondition,
     double mass,
     double target_residual,
     double target_residual_hq,
     int maxiter,
     double reliable_delta,
     QudaParity parity,
     QudaVerbosity verbosity,
     QudaInverterType inverter,
     QudaInvertParam *invertParam)
 {
   invertParam->use_sloppy_partial_accumulator = 0;
   invertParam->verbosity = verbosity;
   invertParam->mass = mass;
   invertParam->tol = target_residual;
   invertParam->tol_hq =target_residual_hq;
   invertParam->num_offset = 0;

   invertParam->inv_type = inverter;
   invertParam->maxiter = maxiter;
   invertParam->reliable_delta = reliable_delta;

   invertParam->mass_normalization = QUDA_MASS_NORMALIZATION;
   invertParam->cpu_prec = cpu_prec;
   invertParam->cuda_prec = cuda_prec;
   invertParam->cuda_prec_sloppy = cuda_prec_sloppy;

   invertParam->solution_type = QUDA_MATPCDAG_MATPC_SOLUTION;
   invertParam->solve_type = QUDA_NORMEQ_PC_SOLVE;
   invertParam->preserve_source = QUDA_PRESERVE_SOURCE_YES;
   invertParam->gamma_basis = QUDA_DEGRAND_ROSSI_GAMMA_BASIS; // not used, but required by the code.
   invertParam->dirac_order = QUDA_DIRAC_ORDER;

   invertParam->dslash_type = QUDA_ASQTAD_DSLASH;
   invertParam->Ls = 1;
   invertParam->gflops = 0.0;

   invertParam->input_location = QUDA_CPU_FIELD_LOCATION;
   invertParam->output_location = QUDA_CPU_FIELD_LOCATION;


   if(parity == QUDA_EVEN_PARITY){ // even parity
     invertParam->matpc_type = QUDA_MATPC_EVEN_EVEN;
   }else if(parity == QUDA_ODD_PARITY){
     invertParam->matpc_type = QUDA_MATPC_ODD_ODD;
   }else{
     errorQuda("Invalid parity\n");
     exit(1);
   }

   invertParam->dagger = QUDA_DAG_NO;
   invertParam->sp_pad = 0;
   invertParam->use_init_guess = QUDA_USE_INIT_GUESS_YES;

   // for the preconditioner
   invertParam->inv_type_precondition = QUDA_CG_INVERTER;
   invertParam->tol_precondition = 1e-1;
   invertParam->maxiter_precondition = 2;
   invertParam->verbosity_precondition = QUDA_SILENT;
   invertParam->cuda_prec_precondition = cuda_prec_precondition;

   invertParam->compute_action = 0;

   return;
 }


 // Set params for the multi-mass solver.
 static void setInvertParams(const int dim[4],
     QudaPrecision cpu_prec,
     QudaPrecision cuda_prec,
     QudaPrecision cuda_prec_sloppy,
     QudaPrecision cuda_prec_precondition,
     int num_offset,
     const double offset[],
     const double target_residual_offset[],
     const double target_residual_hq_offset[],
     int maxiter,
     double reliable_delta,
     QudaParity parity,
     QudaVerbosity verbosity,
     QudaInverterType inverter,
     QudaInvertParam *invertParam)
 {

   const double null_mass = -1;
   const double null_residual = -1;


   setInvertParams(dim, cpu_prec, cuda_prec, cuda_prec_sloppy, cuda_prec_precondition,
       null_mass, null_residual, null_residual, maxiter, reliable_delta, parity, verbosity, inverter, invertParam);

   invertParam->num_offset = num_offset;
   for(int i=0; i<num_offset; ++i){
     invertParam->offset[i] = offset[i];
     invertParam->tol_offset[i] = target_residual_offset[i];
     //if(invertParam->residual_type & QUDA_HEAVY_QUARK_RESIDUAL){
       invertParam->tol_hq_offset[i] = target_residual_hq_offset[i];
     //}
   }
   return;
 }


 static void setGaugeParams(const int dim[4],
     QudaPrecision cpu_prec,
     QudaPrecision cuda_prec,
     QudaPrecision cuda_prec_sloppy,
     QudaPrecision cuda_prec_precondition,
     const double tadpole,
     QudaGaugeParam *gaugeParam)
 {

   for(int dir=0; dir<4; ++dir){
     gaugeParam->X[dir] = dim[dir];
   }

   gaugeParam->cpu_prec = cpu_prec;
   gaugeParam->cuda_prec = cuda_prec;
   gaugeParam->cuda_prec_sloppy = cuda_prec_sloppy;
   gaugeParam->reconstruct = QUDA_RECONSTRUCT_NO;
   gaugeParam->reconstruct_sloppy = QUDA_RECONSTRUCT_NO;

   gaugeParam->gauge_fix = QUDA_GAUGE_FIXED_NO;
   gaugeParam->anisotropy = 1.0;
   gaugeParam->tadpole_coeff = tadpole;
   gaugeParam->t_boundary = QUDA_PERIODIC_T; // anti-periodic boundary conditions are built into the gauge field
   gaugeParam->gauge_order = QUDA_MILC_GAUGE_ORDER;
   gaugeParam->ga_pad = getFatLinkPadding(dim);
   gaugeParam->scale = -1.0/(24.0*gaugeParam->tadpole_coeff*gaugeParam->tadpole_coeff);


   // preconditioning...
   gaugeParam->cuda_prec_precondition = cuda_prec_precondition;
   gaugeParam->reconstruct_precondition = QUDA_RECONSTRUCT_NO;

   return;
 }


 static void setColorSpinorParams(const int dim[4],
     QudaPrecision precision,
     ColorSpinorParam* param)
 {

   param->nColor = 3;
   param->nSpin = 1;
   param->nDim = 4;

   for(int dir=0; dir<4; ++dir) param->x[dir] = dim[dir];
   param->x[0] /= 2;

   param->precision = precision;
   param->pad = 0;
   param->siteSubset = QUDA_PARITY_SITE_SUBSET;
   param->siteOrder = QUDA_EVEN_ODD_SITE_ORDER;
   param->fieldOrder = QUDA_SPACE_SPIN_COLOR_FIELD_ORDER;
   param->gammaBasis = QUDA_DEGRAND_ROSSI_GAMMA_BASIS; // meaningless, but required by the code.
   param->create = QUDA_ZERO_FIELD_CREATE;
   return;
 }

 void setDeflationParam(QudaPrecision ritz_prec,
                        QudaFieldLocation location_ritz,
                        QudaMemoryType mem_type_ritz,
                        QudaExtLibType deflation_ext_lib,
                        char vec_infile[],
                        char vec_outfile[],
                        QudaEigParam *df_param)
 {

   df_param->import_vectors = strcmp(vec_infile,"") ? QUDA_BOOLEAN_YES : QUDA_BOOLEAN_NO;

   df_param->cuda_prec_ritz = ritz_prec;
   df_param->location       = location_ritz;
   df_param->mem_type_ritz  = mem_type_ritz;


   df_param->run_verify     = QUDA_BOOLEAN_NO;

   df_param->nk       = df_param->invert_param->nev;
   df_param->np       = df_param->invert_param->nev*df_param->invert_param->deflation_grid;

   // set file i/o parameters
   strcpy(df_param->vec_infile, vec_infile);
   strcpy(df_param->vec_outfile, vec_outfile);
 }


 static size_t getColorVectorOffset(QudaParity local_parity, bool even_odd_exchange, const int dim[4])
 {
   size_t offset;
   int volume = dim[0]*dim[1]*dim[2]*dim[3];

   if(local_parity == QUDA_EVEN_PARITY){
     offset = even_odd_exchange ? volume*6/2 : 0;
   }else{
     offset = even_odd_exchange ? 0 : volume*6/2;
   }
   return offset;
 }


 void qudaMultishiftInvert(int external_precision,
     int quda_precision,
     int num_offsets,
     double* const offset,
     QudaInvertArgs_t inv_args,
     const double target_residual[],
     const double target_fermilab_residual[],
     const void* const fatlink,
     const void* const longlink,
     const double tadpole,
     void* source,
     void** solutionArray,
     double* const final_residual,
     double* const final_fermilab_residual,
     int *num_iters)
 {

   static const QudaVerbosity verbosity = getVerbosity();
   qudamilc_called<true>(__func__, verbosity);

   if(target_residual[0] == 0){
     errorQuda("qudaMultishiftInvert: zeroth target residual cannot be zero\n");
     exit(1);
   }

   QudaPrecision host_precision = (external_precision == 2) ? QUDA_DOUBLE_PRECISION : QUDA_SINGLE_PRECISION;
   QudaPrecision device_precision = (quda_precision == 2) ? QUDA_DOUBLE_PRECISION : QUDA_SINGLE_PRECISION;
   const bool use_mixed_precision = (((quda_precision==2) && inv_args.mixed_precision) ||
                                      ((quda_precision==1) && (inv_args.mixed_precision==2)) ) ? true : false;
   QudaPrecision device_precision_sloppy;
   switch(inv_args.mixed_precision) {
   case 2: device_precision_sloppy = QUDA_HALF_PRECISION; break;
   case 1: device_precision_sloppy = QUDA_SINGLE_PRECISION; break;
   default: device_precision_sloppy = device_precision;
   }

   QudaPrecision device_precision_precondition = device_precision_sloppy;

   QudaGaugeParam gaugeParam = newQudaGaugeParam();
   setGaugeParams(localDim, host_precision, device_precision, device_precision_sloppy, device_precision_precondition, tadpole, &gaugeParam);

   QudaInvertParam invertParam = newQudaInvertParam();

   invertParam.residual_type = static_cast<QudaResidualType_s>(0);
   invertParam.residual_type = (target_residual[0] != 0) ? static_cast<QudaResidualType_s> ( invertParam.residual_type | QUDA_L2_RELATIVE_RESIDUAL) : invertParam.residual_type;
   invertParam.residual_type = (target_fermilab_residual[0] != 0) ? static_cast<QudaResidualType_s> (invertParam.residual_type | QUDA_HEAVY_QUARK_RESIDUAL) : invertParam.residual_type;

   if (verbosity >= QUDA_VERBOSE) {
     if (invertParam.residual_type & QUDA_L2_RELATIVE_RESIDUAL)
       printfQuda("Using QUDA_L2_RELATIVE_RESIDUAL");
     if (invertParam.residual_type & QUDA_HEAVY_QUARK_RESIDUAL)
       printfQuda("Using QUDA_HEAVY_QUARK_RESIDUAL");
   }

   invertParam.use_sloppy_partial_accumulator = 0;

   QudaParity local_parity = inv_args.evenodd;
   {
     const double reliable_delta = (use_mixed_precision ? 1e-1 : 0.0);
     setInvertParams(localDim, host_precision, device_precision, device_precision_sloppy, device_precision_precondition,
         num_offsets, offset, target_residual, target_fermilab_residual,
         inv_args.max_iter, reliable_delta, local_parity, verbosity, QUDA_CG_INVERTER, &invertParam);
   }

   ColorSpinorParam csParam;
   setColorSpinorParams(localDim, host_precision, &csParam);

   // dirty hack to invalidate the cached gauge field without breaking interface compatability
   if (*num_iters == -1) {
     invalidateGaugeQuda();
   }

   // set the solver
   char *quda_reconstruct = getenv("QUDA_MILC_HISQ_RECONSTRUCT");
   QudaReconstructType long_reconstruct = QUDA_RECONSTRUCT_INVALID;
   if (!quda_reconstruct || strcmp(quda_reconstruct,"18")==0) {
     long_reconstruct = QUDA_RECONSTRUCT_NO;
   } else if (strcmp(quda_reconstruct,"13")==0) {
     long_reconstruct = QUDA_RECONSTRUCT_13;
   } else if (strcmp(quda_reconstruct,"9")==0) {
     long_reconstruct = QUDA_RECONSTRUCT_9;
   } else {
     errorQuda("reconstruct request %s not supported", quda_reconstruct);
   }


   if(invalidate_quda_gauge || !create_quda_gauge ){
     const int fat_pad  = getFatLinkPadding(localDim);
     gaugeParam.type = QUDA_GENERAL_LINKS;
     gaugeParam.ga_pad = fat_pad;  // don't know if this is correct
     gaugeParam.reconstruct = gaugeParam.reconstruct_sloppy = QUDA_RECONSTRUCT_NO;
     loadGaugeQuda(const_cast<void*>(fatlink), &gaugeParam);

     const int long_pad = 3*fat_pad;
     gaugeParam.type = QUDA_THREE_LINKS;
     gaugeParam.ga_pad = long_pad;
     gaugeParam.reconstruct = gaugeParam.reconstruct_sloppy = long_reconstruct;
     loadGaugeQuda(const_cast<void*>(longlink), &gaugeParam);
     invalidate_quda_gauge = false;
   }

   void** sln_pointer = (void**)malloc(num_offsets*sizeof(void*));
   int quark_offset = getColorVectorOffset(local_parity, false, gaugeParam.X)*host_precision;
   void* src_pointer = static_cast<char*>(source) + quark_offset;

   for(int i=0; i<num_offsets; ++i) sln_pointer[i] = static_cast<char*>(solutionArray[i]) + quark_offset;

   invertMultiShiftQuda(sln_pointer, src_pointer, &invertParam);
   free(sln_pointer);

   // return the number of iterations taken by the inverter
   *num_iters = invertParam.iter;
   for(int i=0; i<num_offsets; ++i){
     final_residual[i] = invertParam.true_res_offset[i];
     final_fermilab_residual[i] = invertParam.true_res_hq_offset[i];
   } // end loop over number of offsets

   if(!create_quda_gauge) invalidateGaugeQuda();

   qudamilc_called<false>(__func__, verbosity);
   return;
 } // qudaMultiShiftInvert


 void qudaInvert(int external_precision,
     int quda_precision,
     double mass,
     QudaInvertArgs_t inv_args,
     double target_residual,
     double target_fermilab_residual,
     const void* const fatlink,
     const void* const longlink,
     const double tadpole,
     void* source,
     void* solution,
     double* const final_residual,
     double* const final_fermilab_residual,
     int* num_iters)
 {
   static const QudaVerbosity verbosity = getVerbosity();
   qudamilc_called<true>(__func__, verbosity);

   if(target_fermilab_residual == 0 && target_residual == 0){
     errorQuda("qudaInvert: requesting zero residual\n");
     exit(1);
   }

   // static const QudaVerbosity verbosity = getVerbosity();
   QudaPrecision host_precision = (external_precision == 2) ? QUDA_DOUBLE_PRECISION : QUDA_SINGLE_PRECISION;
   QudaPrecision device_precision = (quda_precision == 2) ? QUDA_DOUBLE_PRECISION : QUDA_SINGLE_PRECISION;
   QudaPrecision device_precision_sloppy;

   switch(inv_args.mixed_precision) {
   case 2: device_precision_sloppy = QUDA_HALF_PRECISION; break;
   case 1: device_precision_sloppy = QUDA_SINGLE_PRECISION; break;
   default: device_precision_sloppy = device_precision;
   }

   QudaPrecision device_precision_precondition = device_precision_sloppy;
   QudaGaugeParam gaugeParam = newQudaGaugeParam();
   // a basic set routine for the gauge parameters
   setGaugeParams(localDim, host_precision, device_precision, device_precision_sloppy, device_precision_precondition, tadpole, &gaugeParam);
   QudaInvertParam invertParam = newQudaInvertParam();

   invertParam.residual_type = static_cast<QudaResidualType_s>(0);
   invertParam.residual_type = (target_residual != 0) ? static_cast<QudaResidualType_s> ( invertParam.residual_type | QUDA_L2_RELATIVE_RESIDUAL) : invertParam.residual_type;
   invertParam.residual_type = (target_fermilab_residual != 0) ? static_cast<QudaResidualType_s> (invertParam.residual_type | QUDA_HEAVY_QUARK_RESIDUAL) : invertParam.residual_type;

   QudaParity local_parity = inv_args.evenodd;
   //double& target_res = (invertParam.residual_type == QUDA_L2_RELATIVE_RESIDUAL) ? target_residual : target_fermilab_residual;
   double& target_res = target_residual;
   double& target_res_hq = target_fermilab_residual;
   const double reliable_delta = 1e-1;

   setInvertParams(localDim, host_precision, device_precision, device_precision_sloppy, device_precision_precondition,
       mass, target_res, target_res_hq, inv_args.max_iter, reliable_delta, local_parity, verbosity, QUDA_CG_INVERTER, &invertParam);
   invertParam.use_sloppy_partial_accumulator = 0;
   if (invertParam.residual_type == QUDA_HEAVY_QUARK_RESIDUAL) invertParam.heavy_quark_check = 1;

   ColorSpinorParam csParam;
   setColorSpinorParams(localDim, host_precision, &csParam);

   const int fat_pad  = getFatLinkPadding(localDim);
   const int long_pad = 3*fat_pad;

   // dirty hack to invalidate the cached gauge field without breaking interface compatability
   if (*num_iters == -1  || !canReuseResidentGauge(&invertParam) ) {
     invalidateGaugeQuda();
   }

   if(invalidate_quda_gauge || !create_quda_gauge){
     gaugeParam.type = QUDA_GENERAL_LINKS;
     gaugeParam.ga_pad = fat_pad;
     gaugeParam.reconstruct = gaugeParam.reconstruct_sloppy = QUDA_RECONSTRUCT_NO;
     loadGaugeQuda(const_cast<void*>(fatlink), &gaugeParam);
     if(longlink != nullptr) {
       gaugeParam.type = QUDA_THREE_LINKS;
       gaugeParam.ga_pad = long_pad;
       gaugeParam.reconstruct = gaugeParam.reconstruct_sloppy = QUDA_RECONSTRUCT_NO;
       loadGaugeQuda(const_cast<void*>(longlink), &gaugeParam);
     }
     invalidate_quda_gauge = false;
   }
   if(longlink == nullptr) {
     invertParam.dslash_type = QUDA_STAGGERED_DSLASH;
   }

   int quark_offset = getColorVectorOffset(local_parity, false, gaugeParam.X)*host_precision;

   invertQuda(static_cast<char*>(solution) + quark_offset,
        static_cast<char*>(source) + quark_offset,
        &invertParam);

   // return the number of iterations taken by the inverter
   *num_iters = invertParam.iter;
   *final_residual = invertParam.true_res;
   *final_fermilab_residual = invertParam.true_res_hq;

   if(!create_quda_gauge) invalidateGaugeQuda();

   qudamilc_called<false>(__func__, verbosity);
   return;
 } // qudaInvert


 void qudaDslash(int external_precision,
     int quda_precision,
     QudaInvertArgs_t inv_args,
     const void* const fatlink,
     const void* const longlink,
     const double tadpole,
     void* src,
     void* dst,
     int* num_iters)
 {
   static const QudaVerbosity verbosity = getVerbosity();
   qudamilc_called<true>(__func__, verbosity);

   // static const QudaVerbosity verbosity = getVerbosity();
   QudaPrecision host_precision = (external_precision == 2) ? QUDA_DOUBLE_PRECISION : QUDA_SINGLE_PRECISION;
   QudaPrecision device_precision = (quda_precision == 2) ? QUDA_DOUBLE_PRECISION : QUDA_SINGLE_PRECISION;
   QudaPrecision device_precision_sloppy = device_precision;
   QudaPrecision device_precision_precondition = device_precision_sloppy;

   QudaGaugeParam gaugeParam = newQudaGaugeParam();
   // a basic set routine for the gauge parameters
   setGaugeParams(localDim, host_precision, device_precision, device_precision_sloppy, device_precision_precondition, tadpole, &gaugeParam);
   QudaInvertParam invertParam = newQudaInvertParam();

   QudaParity local_parity = inv_args.evenodd;
   QudaParity other_parity = local_parity == QUDA_EVEN_PARITY ? QUDA_ODD_PARITY : QUDA_EVEN_PARITY;

   setInvertParams(localDim, host_precision, device_precision, device_precision_sloppy, device_precision_precondition,
       0.0, 0, 0, 0, 0.0, local_parity, verbosity, QUDA_CG_INVERTER, &invertParam);

   ColorSpinorParam csParam;
   setColorSpinorParams(localDim, host_precision, &csParam);

   const int fat_pad  = getFatLinkPadding(localDim);
   const int long_pad = 3*fat_pad;

   // dirty hack to invalidate the cached gauge field without breaking interface compatability
   if (*num_iters == -1  || !canReuseResidentGauge(&invertParam) ) {
     invalidateGaugeQuda();
   }

   if(invalidate_quda_gauge || !create_quda_gauge){
     gaugeParam.type = QUDA_GENERAL_LINKS;
     gaugeParam.ga_pad = fat_pad;
     gaugeParam.reconstruct = gaugeParam.reconstruct_sloppy = QUDA_RECONSTRUCT_NO;
     loadGaugeQuda(const_cast<void*>(fatlink), &gaugeParam);

     gaugeParam.type = QUDA_THREE_LINKS;
     gaugeParam.ga_pad = long_pad;
     gaugeParam.reconstruct = gaugeParam.reconstruct_sloppy = QUDA_RECONSTRUCT_NO;
     loadGaugeQuda(const_cast<void*>(longlink), &gaugeParam);

     invalidate_quda_gauge = false;
   }

   int src_offset = getColorVectorOffset(other_parity, false, gaugeParam.X);
   int dst_offset = getColorVectorOffset(local_parity, false, gaugeParam.X);

   dslashQuda(static_cast<char*>(dst) + dst_offset*host_precision,
        static_cast<char*>(src) + src_offset*host_precision,
        &invertParam, local_parity);

   if(!create_quda_gauge) invalidateGaugeQuda();

   qudamilc_called<false>(__func__, verbosity);
   return;
 } // qudaDslash


 void qudaInvertMsrc(int external_precision,
     int quda_precision,
     double mass,
     QudaInvertArgs_t inv_args,
     double target_residual,
     double target_fermilab_residual,
     const void* const fatlink,
     const void* const longlink,
     const double tadpole,
     void** sourceArray,
     void** solutionArray,
     double* const final_residual,
     double* const final_fermilab_residual,
     int* num_iters,
     int num_src)
 {

   static const QudaVerbosity verbosity = getVerbosity();
   qudamilc_called<true>(__func__, verbosity);

   if(target_fermilab_residual == 0 && target_residual == 0){
     errorQuda("qudaInvert: requesting zero residual\n");
     exit(1);
   }

   // static const QudaVerbosity verbosity = getVerbosity();
   QudaPrecision host_precision = (external_precision == 2) ? QUDA_DOUBLE_PRECISION : QUDA_SINGLE_PRECISION;
   QudaPrecision device_precision = (quda_precision == 2) ? QUDA_DOUBLE_PRECISION : QUDA_SINGLE_PRECISION;
   QudaPrecision device_precision_sloppy;

   switch(inv_args.mixed_precision) {
   case 2: device_precision_sloppy = QUDA_HALF_PRECISION; break;
   case 1: device_precision_sloppy = QUDA_SINGLE_PRECISION; break;
   default: device_precision_sloppy = device_precision;
   }

   QudaPrecision device_precision_precondition = device_precision_sloppy;
   QudaGaugeParam gaugeParam = newQudaGaugeParam();
   // a basic set routine for the gauge parameters
   setGaugeParams(localDim, host_precision, device_precision, device_precision_sloppy, device_precision_precondition, tadpole, &gaugeParam);
   QudaInvertParam invertParam = newQudaInvertParam();

   invertParam.residual_type = static_cast<QudaResidualType_s>(0);
   invertParam.residual_type = (target_residual != 0) ? static_cast<QudaResidualType_s> ( invertParam.residual_type | QUDA_L2_RELATIVE_RESIDUAL) : invertParam.residual_type;
   invertParam.residual_type = (target_fermilab_residual != 0) ? static_cast<QudaResidualType_s> (invertParam.residual_type | QUDA_HEAVY_QUARK_RESIDUAL) : invertParam.residual_type;
   invertParam.num_src = num_src;

   QudaParity local_parity = inv_args.evenodd;
   //double& target_res = (invertParam.residual_type == QUDA_L2_RELATIVE_RESIDUAL) ? target_residual : target_fermilab_residual;
   double& target_res = target_residual;
   double& target_res_hq = target_fermilab_residual;
   const double reliable_delta = 1e-1;

   setInvertParams(localDim, host_precision, device_precision, device_precision_sloppy, device_precision_precondition,
       mass, target_res, target_res_hq, inv_args.max_iter, reliable_delta, local_parity, verbosity, QUDA_CG_INVERTER, &invertParam);
   invertParam.use_sloppy_partial_accumulator = 0;
   if (invertParam.residual_type == QUDA_HEAVY_QUARK_RESIDUAL) invertParam.heavy_quark_check = 1;


   ColorSpinorParam csParam;
   setColorSpinorParams(localDim, host_precision, &csParam);

   const int fat_pad  = getFatLinkPadding(localDim);
   const int long_pad = 3*fat_pad;

   // dirty hack to invalidate the cached gauge field without breaking interface compatability
   if (*num_iters == -1  || !canReuseResidentGauge(&invertParam) ) {
     invalidateGaugeQuda();
   }

   if(invalidate_quda_gauge || !create_quda_gauge){
     gaugeParam.type = QUDA_GENERAL_LINKS;
     gaugeParam.ga_pad = fat_pad;
     gaugeParam.reconstruct = gaugeParam.reconstruct_sloppy = QUDA_RECONSTRUCT_NO;
     loadGaugeQuda(const_cast<void*>(fatlink), &gaugeParam);

     gaugeParam.type = QUDA_THREE_LINKS;
     gaugeParam.ga_pad = long_pad;
     gaugeParam.reconstruct = gaugeParam.reconstruct_sloppy = QUDA_RECONSTRUCT_NO;
     loadGaugeQuda(const_cast<void*>(longlink), &gaugeParam);

     invalidate_quda_gauge = false;
   }

   int quark_offset = getColorVectorOffset(local_parity, false, gaugeParam.X)*host_precision;
   void** sln_pointer = (void**)malloc(num_src*sizeof(void*));
   void** src_pointer = (void**)malloc(num_src*sizeof(void*));

   for(int i=0; i<num_src; ++i) sln_pointer[i] = static_cast<char*>(solutionArray[i]) + quark_offset;
   for(int i=0; i<num_src; ++i) src_pointer[i] = static_cast<char*>(sourceArray[i]) + quark_offset;

   invertMultiSrcQuda(sln_pointer, src_pointer, &invertParam);
   free(sln_pointer);
   free(src_pointer);


   // return the number of iterations taken by the inverter
   *num_iters = invertParam.iter;
   *final_residual = invertParam.true_res;
   *final_fermilab_residual = invertParam.true_res_hq;

   if(!create_quda_gauge) invalidateGaugeQuda();

   qudamilc_called<false>(__func__, verbosity);
   return;
 } // qudaInvert


 void qudaEigCGInvert(int external_precision,
     int quda_precision,
     double mass,
     QudaInvertArgs_t inv_args,
     double target_residual,
     double target_fermilab_residual,
     const void* const fatlink,
     const void* const longlink,
     const double tadpole,
     void* source,//array of source vectors -> overwritten on exit
     void* solution,//temporary
     QudaEigArgs_t eig_args,
     const int rhs_idx,//current rhs
     const int last_rhs_flag,//is this the last rhs to solve
     double* const final_residual,
     double* const final_fermilab_residual,
     int *num_iters)
 {

   static const QudaVerbosity verbosity = getVerbosity();
   qudamilc_called<true>(__func__, verbosity);

   if(target_fermilab_residual == 0 && target_residual == 0){
     errorQuda("qudaInvert: requesting zero residual\n");
     exit(1);
   }

   QudaPrecision host_precision = (external_precision == 2) ? QUDA_DOUBLE_PRECISION : QUDA_SINGLE_PRECISION;
   QudaPrecision device_precision = (quda_precision == 2) ? QUDA_DOUBLE_PRECISION : QUDA_SINGLE_PRECISION;
   QudaPrecision device_precision_sloppy;

   switch(inv_args.mixed_precision) {
   case 2: device_precision_sloppy = QUDA_HALF_PRECISION; break;
   case 1: device_precision_sloppy = QUDA_SINGLE_PRECISION; break;
   default: device_precision_sloppy = device_precision;
   }

   QudaPrecision device_precision_precondition = device_precision_sloppy;
   QudaGaugeParam gaugeParam = newQudaGaugeParam();
   // a basic set routine for the gauge parameters
   setGaugeParams(localDim, host_precision, device_precision, device_precision_sloppy, device_precision_precondition, tadpole, &gaugeParam);
   QudaInvertParam invertParam = newQudaInvertParam();

   invertParam.residual_type = static_cast<QudaResidualType_s>(0);
   invertParam.residual_type = (target_residual != 0) ? static_cast<QudaResidualType_s> ( invertParam.residual_type | QUDA_L2_RELATIVE_RESIDUAL) : invertParam.residual_type;
   invertParam.residual_type = (target_fermilab_residual != 0) ? static_cast<QudaResidualType_s> (invertParam.residual_type | QUDA_HEAVY_QUARK_RESIDUAL) : invertParam.residual_type;


   QudaParity local_parity = inv_args.evenodd;
   double& target_res = target_residual;
   double& target_res_hq = target_fermilab_residual;
   const double reliable_delta = 1e-1;

   setInvertParams(localDim, host_precision, device_precision, device_precision_sloppy, device_precision_precondition,
       mass, target_res, target_res_hq, inv_args.max_iter, reliable_delta, local_parity, verbosity, QUDA_CG_INVERTER, &invertParam);
   invertParam.use_sloppy_partial_accumulator = 0;
   if (invertParam.residual_type == QUDA_HEAVY_QUARK_RESIDUAL) invertParam.heavy_quark_check = 1;
   QudaEigParam  df_param = newQudaEigParam();
   df_param.invert_param = &invertParam;

   invertParam.solve_type = QUDA_NORMOP_PC_SOLVE;
   invertParam.nev                = eig_args.nev;
   invertParam.max_search_dim     = eig_args.max_search_dim;
   invertParam.deflation_grid     = eig_args.deflation_grid;
   invertParam.cuda_prec_ritz     = eig_args.prec_ritz;
   invertParam.tol_restart        = eig_args.tol_restart;
   invertParam.eigcg_max_restarts = eig_args.eigcg_max_restarts;
   invertParam.max_restart_num    = eig_args.max_restart_num;
   invertParam.inc_tol            = eig_args.inc_tol;
   invertParam.eigenval_tol       = eig_args.eigenval_tol;
   invertParam.rhs_idx            = rhs_idx;

   if((inv_args.solver_type != QUDA_INC_EIGCG_INVERTER) && (inv_args.solver_type != QUDA_EIGCG_INVERTER)) errorQuda("Incorrect inverter type.\n");
   invertParam.inv_type = inv_args.solver_type;

   if(inv_args.solver_type == QUDA_INC_EIGCG_INVERTER) invertParam.inv_type_precondition = QUDA_INVALID_INVERTER;

   setDeflationParam(eig_args.prec_ritz, eig_args.location_ritz, eig_args.mem_type_ritz, eig_args.deflation_ext_lib, eig_args.vec_infile, eig_args.vec_outfile, &df_param);

   ColorSpinorParam csParam;
   setColorSpinorParams(localDim, host_precision, &csParam);

   if((invalidate_quda_gauge || !create_quda_gauge) && (rhs_idx == 0)){//do this for the first RHS

     const int fat_pad  = getFatLinkPadding(localDim);
     const int long_pad = 3*fat_pad;

     printfQuda("Initialize gauge field.\n");
     gaugeParam.type = QUDA_GENERAL_LINKS;
     gaugeParam.ga_pad = fat_pad;
     gaugeParam.reconstruct = gaugeParam.reconstruct_sloppy = QUDA_RECONSTRUCT_NO;
     loadGaugeQuda(const_cast<void*>(fatlink), &gaugeParam);

     gaugeParam.type = QUDA_THREE_LINKS;
     gaugeParam.ga_pad = long_pad;
     gaugeParam.reconstruct = gaugeParam.reconstruct_sloppy = QUDA_RECONSTRUCT_NO;
     loadGaugeQuda(const_cast<void*>(longlink), &gaugeParam);

     invalidate_quda_gauge = false;
   }

   int quark_offset = getColorVectorOffset(local_parity, false, gaugeParam.X)*host_precision;

   if(rhs_idx == 0) df_preconditioner = newDeflationQuda(&df_param);

   invertParam.deflation_op = df_preconditioner;

   invertQuda(static_cast<char*>(solution) + quark_offset,
        static_cast<char*>(source) + quark_offset,
        &invertParam);

   if(last_rhs_flag) destroyDeflationQuda(df_preconditioner);

   // return the number of iterations taken by the inverter
   *num_iters = invertParam.iter;
   *final_residual = invertParam.true_res;
   *final_fermilab_residual = invertParam.true_res_hq;

   if(!create_quda_gauge && last_rhs_flag) invalidateGaugeQuda();

   qudamilc_called<false>(__func__, verbosity);

   return;
 } // qudaEigCGInvert


 static int clover_alloc = 0;

 void* qudaCreateGaugeField(void* gauge, int geometry, int precision)
 {
   qudamilc_called<true>(__func__);
   QudaPrecision qudaPrecision = (precision==2) ? QUDA_DOUBLE_PRECISION : QUDA_SINGLE_PRECISION;
   QudaGaugeParam gaugeParam = newMILCGaugeParam(localDim, qudaPrecision,
       (geometry==1) ? QUDA_GENERAL_LINKS : QUDA_SU3_LINKS);
   qudamilc_called<false>(__func__);
   return createGaugeFieldQuda(gauge, geometry, &gaugeParam);
 }


 void qudaSaveGaugeField(void* gauge, void* inGauge)
 {
   qudamilc_called<true>(__func__);
   cudaGaugeField* cudaGauge = reinterpret_cast<cudaGaugeField*>(inGauge);
   QudaGaugeParam gaugeParam = newMILCGaugeParam(localDim, cudaGauge->Precision(), QUDA_GENERAL_LINKS);
   saveGaugeFieldQuda(gauge, inGauge, &gaugeParam);
   qudamilc_called<false>(__func__);
   return;
 }


 void qudaDestroyGaugeField(void* gauge)
 {
   qudamilc_called<true>(__func__);
   destroyGaugeFieldQuda(gauge);
   qudamilc_called<false>(__func__);
   return;
 }


 void setInvertParam(QudaInvertParam &invertParam, QudaInvertArgs_t &inv_args,
         int external_precision, int quda_precision, double kappa, double reliable_delta);

 void qudaCloverForce(void *mom, double dt, void **x, void **p, double *coeff, double kappa, double ck,
          int nvec, double multiplicity, void *gauge, int precision, QudaInvertArgs_t inv_args)
 {
   qudamilc_called<true>(__func__);
   QudaGaugeParam gaugeParam = newMILCGaugeParam(localDim,
             (precision==1) ? QUDA_SINGLE_PRECISION : QUDA_DOUBLE_PRECISION,
             QUDA_GENERAL_LINKS);
   gaugeParam.gauge_order = QUDA_MILC_GAUGE_ORDER; // refers to momentume gauge order

   QudaInvertParam invertParam = newQudaInvertParam();
   setInvertParam(invertParam, inv_args, precision, precision, kappa, 0);
   invertParam.num_offset = nvec;
   for (int i=0; i<nvec; ++i) invertParam.offset[i] = 0.0; // not needed
   invertParam.clover_coeff = 0.0; // not needed

   // solution types
   invertParam.solution_type      = QUDA_MATPCDAG_MATPC_SOLUTION;
   invertParam.solve_type         = QUDA_NORMOP_PC_SOLVE;
   invertParam.inv_type           = QUDA_CG_INVERTER;
   invertParam.matpc_type         = QUDA_MATPC_EVEN_EVEN_ASYMMETRIC;

   invertParam.verbosity = getVerbosity();
   invertParam.verbosity_precondition = QUDA_SILENT;
   invertParam.use_resident_solution = inv_args.use_resident_solution;

   computeCloverForceQuda(mom, dt, x, p, coeff, -kappa*kappa, ck, nvec, multiplicity,
        gauge, &gaugeParam, &invertParam);
   qudamilc_called<false>(__func__);
   return;
 }


 void setGaugeParams(QudaGaugeParam &gaugeParam, const int dim[4], QudaInvertArgs_t &inv_args,
     int external_precision, int quda_precision) {

   const QudaPrecision host_precision = (external_precision == 2) ? QUDA_DOUBLE_PRECISION : QUDA_SINGLE_PRECISION;
   const QudaPrecision device_precision = (quda_precision == 2) ? QUDA_DOUBLE_PRECISION : QUDA_SINGLE_PRECISION;
   QudaPrecision device_precision_sloppy;

   switch(inv_args.mixed_precision) {
   case 2: device_precision_sloppy = QUDA_HALF_PRECISION; break;
   case 1: device_precision_sloppy = QUDA_SINGLE_PRECISION; break;
   default: device_precision_sloppy = device_precision;
   }

   for(int dir=0; dir<4; ++dir) gaugeParam.X[dir] = dim[dir];

   gaugeParam.anisotropy               = 1.0;
   gaugeParam.type                     = QUDA_WILSON_LINKS;
   gaugeParam.gauge_order              = QUDA_MILC_GAUGE_ORDER;

   // Check the boundary conditions
   // Can't have twisted or anti-periodic boundary conditions in the spatial
   // directions with 12 reconstruct at the moment.
   bool trivial_phase = true;
   for(int dir=0; dir<3; ++dir){
     if(inv_args.boundary_phase[dir] != 0) trivial_phase = false;
   }
   if(inv_args.boundary_phase[3] != 0 && inv_args.boundary_phase[3] != 1) trivial_phase = false;

   if(trivial_phase){
     gaugeParam.t_boundary               = (inv_args.boundary_phase[3]) ? QUDA_ANTI_PERIODIC_T : QUDA_PERIODIC_T;
     gaugeParam.reconstruct              = QUDA_RECONSTRUCT_12;
     gaugeParam.reconstruct_sloppy       = QUDA_RECONSTRUCT_12;
   }else{
     gaugeParam.t_boundary               = QUDA_PERIODIC_T;
     gaugeParam.reconstruct              = QUDA_RECONSTRUCT_NO;
     gaugeParam.reconstruct_sloppy       = QUDA_RECONSTRUCT_NO;
   }

   gaugeParam.cpu_prec                 = host_precision;
   gaugeParam.cuda_prec                = device_precision;
   gaugeParam.cuda_prec_sloppy         = device_precision_sloppy;
   gaugeParam.cuda_prec_precondition   = device_precision_sloppy;
   gaugeParam.gauge_fix                = QUDA_GAUGE_FIXED_NO;
   gaugeParam.ga_pad                   = getFatLinkPadding(dim);
 }


 void setInvertParam(QudaInvertParam &invertParam, QudaInvertArgs_t &inv_args,
         int external_precision, int quda_precision, double kappa, double reliable_delta) {

   const QudaPrecision host_precision = (external_precision == 2) ? QUDA_DOUBLE_PRECISION : QUDA_SINGLE_PRECISION;
   const QudaPrecision device_precision = (quda_precision == 2) ? QUDA_DOUBLE_PRECISION : QUDA_SINGLE_PRECISION;
   QudaPrecision device_precision_sloppy;
   switch(inv_args.mixed_precision) {
   case 2: device_precision_sloppy = QUDA_HALF_PRECISION; break;
   case 1: device_precision_sloppy = QUDA_SINGLE_PRECISION; break;
   default: device_precision_sloppy = device_precision;
   }

   static const QudaVerbosity verbosity = getVerbosity();

   invertParam.dslash_type                   = QUDA_CLOVER_WILSON_DSLASH;
   invertParam.kappa                         = kappa;
   invertParam.dagger                        = QUDA_DAG_NO;
   invertParam.mass_normalization            = QUDA_KAPPA_NORMALIZATION;
   invertParam.gcrNkrylov                    = 30;
   invertParam.reliable_delta                = reliable_delta;
   invertParam.maxiter                       = inv_args.max_iter;

   invertParam.cuda_prec_precondition        = device_precision_sloppy;
   invertParam.verbosity_precondition        = verbosity;
   invertParam.verbosity        = verbosity;
   invertParam.cpu_prec                      = host_precision;
   invertParam.cuda_prec                     = device_precision;
   invertParam.cuda_prec_sloppy              = device_precision_sloppy;
   invertParam.preserve_source               = QUDA_PRESERVE_SOURCE_NO;
   invertParam.gamma_basis                   = QUDA_DEGRAND_ROSSI_GAMMA_BASIS;
   invertParam.dirac_order                   = QUDA_DIRAC_ORDER;
   invertParam.sp_pad                        = 0;
   invertParam.cl_pad                        = 0;
   invertParam.clover_cpu_prec               = host_precision;
   invertParam.clover_cuda_prec              = device_precision;
   invertParam.clover_cuda_prec_sloppy       = device_precision_sloppy;
   invertParam.clover_cuda_prec_precondition = device_precision_sloppy;
   invertParam.clover_order                  = QUDA_PACKED_CLOVER_ORDER;

   invertParam.compute_action = 0;
 }


 void qudaLoadGaugeField(int external_precision,
     int quda_precision,
     QudaInvertArgs_t inv_args,
     const void* milc_link) {
   qudamilc_called<true>(__func__);
   QudaGaugeParam gaugeParam = newQudaGaugeParam();
   setGaugeParams(gaugeParam, localDim,  inv_args, external_precision, quda_precision);

   loadGaugeQuda(const_cast<void*>(milc_link), &gaugeParam);
     qudamilc_called<false>(__func__);
 } // qudaLoadGaugeField


 void qudaFreeGaugeField() {
     qudamilc_called<true>(__func__);
   freeGaugeQuda();
     qudamilc_called<false>(__func__);
 } // qudaFreeGaugeField


 void qudaLoadCloverField(int external_precision,
     int quda_precision,
     QudaInvertArgs_t inv_args,
     void* milc_clover,
     void* milc_clover_inv,
     QudaSolutionType solution_type,
     QudaSolveType solve_type,
     double clover_coeff,
     int compute_trlog,
     double *trlog) {
   qudamilc_called<true>(__func__);
   QudaInvertParam invertParam = newQudaInvertParam();
   setInvertParam(invertParam, inv_args, external_precision, quda_precision, 0.0, 0.0);
   invertParam.solution_type = solution_type;
   invertParam.solve_type = solve_type;
   invertParam.matpc_type = QUDA_MATPC_EVEN_EVEN_ASYMMETRIC;
   invertParam.compute_clover_trlog = compute_trlog;
   invertParam.clover_coeff = clover_coeff;

   if(invertParam.dslash_type == QUDA_CLOVER_WILSON_DSLASH) {
     if (clover_alloc == 0) {
       loadCloverQuda(milc_clover, milc_clover_inv, &invertParam);
       clover_alloc = 1;
     } else {
       errorQuda("Clover term already allocated");
     }
   }

   if (compute_trlog) {
     trlog[0] = invertParam.trlogA[0];
     trlog[1] = invertParam.trlogA[1];
   }
   qudamilc_called<false>(__func__);
 } // qudaLoadCoverField


 void qudaFreeCloverField() {
   qudamilc_called<true>(__func__);
   if (clover_alloc==1) {
     freeCloverQuda();
     clover_alloc = 0;
   } else {
     errorQuda("Trying to free non-allocated clover term");
   }
   qudamilc_called<false>(__func__);
 } // qudaFreeCloverField


 void qudaCloverInvert(int external_precision,
     int quda_precision,
     double kappa,
     double clover_coeff,
     QudaInvertArgs_t inv_args,
     double target_residual,
     double target_fermilab_residual,
     const void* link,
     void* clover, // could be stored in Milc format
     void* cloverInverse,
     void* source,
     void* solution,
     double* const final_residual,
     double* const final_fermilab_residual,
     int* num_iters)
 {
   qudamilc_called<true>(__func__);
   if(target_fermilab_residual == 0 && target_residual == 0){
     errorQuda("qudaCloverInvert: requesting zero residual\n");
     exit(1);
   }

   if (link) qudaLoadGaugeField(external_precision, quda_precision, inv_args, link);

   if (clover || cloverInverse) {
     qudaLoadCloverField(external_precision, quda_precision, inv_args, clover, cloverInverse,
       QUDA_MAT_SOLUTION, QUDA_DIRECT_PC_SOLVE, clover_coeff, 0, 0);
   }

   double reliable_delta = 1e-1;

   QudaInvertParam invertParam = newQudaInvertParam();
   setInvertParam(invertParam, inv_args, external_precision, quda_precision, kappa, reliable_delta);
   invertParam.residual_type = static_cast<QudaResidualType_s>(0);
   invertParam.residual_type = (target_residual != 0) ? static_cast<QudaResidualType_s> ( invertParam.residual_type | QUDA_L2_RELATIVE_RESIDUAL) : invertParam.residual_type;
   invertParam.residual_type = (target_fermilab_residual != 0) ? static_cast<QudaResidualType_s> (invertParam.residual_type | QUDA_HEAVY_QUARK_RESIDUAL) : invertParam.residual_type;

   invertParam.tol =  target_residual;
   invertParam.tol_hq = target_fermilab_residual;
   if (invertParam.residual_type == QUDA_HEAVY_QUARK_RESIDUAL) invertParam.heavy_quark_check = 1;
   invertParam.clover_coeff = clover_coeff;

   // solution types
   invertParam.solution_type      = QUDA_MAT_SOLUTION;
   invertParam.inv_type           = inv_args.solver_type == QUDA_CG_INVERTER ? QUDA_CG_INVERTER : QUDA_BICGSTAB_INVERTER;
   invertParam.solve_type         = invertParam.inv_type == QUDA_CG_INVERTER ? QUDA_NORMOP_PC_SOLVE : QUDA_DIRECT_PC_SOLVE;
   invertParam.matpc_type         = QUDA_MATPC_ODD_ODD;

   invertQuda(solution, source, &invertParam);

   *num_iters = invertParam.iter;
   *final_residual = invertParam.true_res;
   *final_fermilab_residual = invertParam.true_res_hq;

   if (clover || cloverInverse) qudaFreeCloverField();
   if (link) qudaFreeGaugeField();
   qudamilc_called<false>(__func__);
   return;
 } // qudaCloverInvert


 void qudaEigCGCloverInvert(int external_precision,
     int quda_precision,
     double kappa,
     double clover_coeff,
     QudaInvertArgs_t inv_args,
     double target_residual,
     double target_fermilab_residual,
     const void* link,
     void* clover, // could be stored in Milc format
     void* cloverInverse,
     void* source,//array of source vectors -> overwritten on exit!
     void* solution,//temporary
     QudaEigArgs_t eig_args,
     const int rhs_idx,//current rhs
     const int last_rhs_flag,//is this the last rhs to solve?
     double* const final_residual,
     double* const final_fermilab_residual,
     int *num_iters)
 {
   qudamilc_called<true>(__func__);
   if(target_fermilab_residual == 0 && target_residual == 0){
     errorQuda("qudaCloverInvert: requesting zero residual\n");
     exit(1);
   }

   if (link && (rhs_idx == 0)) qudaLoadGaugeField(external_precision, quda_precision, inv_args, link);

   if ( (clover || cloverInverse) && (rhs_idx == 0)) {
     qudaLoadCloverField(external_precision, quda_precision, inv_args, clover, cloverInverse,
       QUDA_MAT_SOLUTION, QUDA_DIRECT_PC_SOLVE, clover_coeff, 0, 0);
   }

   double reliable_delta = 1e-1;

   QudaInvertParam invertParam = newQudaInvertParam();
   setInvertParam(invertParam, inv_args, external_precision, quda_precision, kappa, reliable_delta);
   invertParam.residual_type = static_cast<QudaResidualType_s>(0);
   invertParam.residual_type = (target_residual != 0) ? static_cast<QudaResidualType_s> ( invertParam.residual_type | QUDA_L2_RELATIVE_RESIDUAL) : invertParam.residual_type;
   invertParam.residual_type = (target_fermilab_residual != 0) ? static_cast<QudaResidualType_s> (invertParam.residual_type | QUDA_HEAVY_QUARK_RESIDUAL) : invertParam.residual_type;

   invertParam.tol =  target_residual;
   invertParam.tol_hq = target_fermilab_residual;
   if (invertParam.residual_type == QUDA_HEAVY_QUARK_RESIDUAL) invertParam.heavy_quark_check = 1;
   invertParam.clover_coeff = clover_coeff;

   // solution types
   invertParam.solution_type      = QUDA_MAT_SOLUTION;
   invertParam.matpc_type         = QUDA_MATPC_ODD_ODD;

   QudaEigParam  df_param = newQudaEigParam();
   df_param.invert_param = &invertParam;

   invertParam.solve_type = QUDA_NORMOP_PC_SOLVE;
   invertParam.nev                = eig_args.nev;
   invertParam.max_search_dim     = eig_args.max_search_dim;
   invertParam.deflation_grid     = eig_args.deflation_grid;
   invertParam.cuda_prec_ritz     = eig_args.prec_ritz;
   invertParam.tol_restart        = eig_args.tol_restart;
   invertParam.eigcg_max_restarts = eig_args.eigcg_max_restarts;
   invertParam.max_restart_num    = eig_args.max_restart_num;
   invertParam.inc_tol            = eig_args.inc_tol;
   invertParam.eigenval_tol       = eig_args.eigenval_tol;
   invertParam.rhs_idx            = rhs_idx;


   if((inv_args.solver_type != QUDA_INC_EIGCG_INVERTER) && (inv_args.solver_type != QUDA_EIGCG_INVERTER)) errorQuda("Incorrect inverter type.\n");
   invertParam.inv_type = inv_args.solver_type;

   if(inv_args.solver_type == QUDA_INC_EIGCG_INVERTER) invertParam.inv_type_precondition = QUDA_INVALID_INVERTER;

   setDeflationParam(eig_args.prec_ritz, eig_args.location_ritz, eig_args.mem_type_ritz, eig_args.deflation_ext_lib, eig_args.vec_infile, eig_args.vec_outfile, &df_param);

   if(rhs_idx == 0)  df_preconditioner = newDeflationQuda(&df_param);
   invertParam.deflation_op = df_preconditioner;

   invertQuda(solution, source, &invertParam);

   if(last_rhs_flag) destroyDeflationQuda(df_preconditioner);

   *num_iters = invertParam.iter;
   *final_residual = invertParam.true_res;
   *final_fermilab_residual = invertParam.true_res_hq;

   if ( (clover || cloverInverse) && last_rhs_flag) qudaFreeCloverField();
   if (link && last_rhs_flag) qudaFreeGaugeField();
   qudamilc_called<false>(__func__);
   return;
 } // qudaEigCGCloverInvert


 void qudaCloverMultishiftInvert(int external_precision,
     int quda_precision,
     int num_offsets,
     double* const offset,
     double kappa,
     double clover_coeff,
     QudaInvertArgs_t inv_args,
     const double* target_residual_offset,
     const void* milc_link,
     void* milc_clover,
     void* milc_clover_inv,
     void* source,
     void** solutionArray,
     double* const final_residual,
     int* num_iters)
 {

   static const QudaVerbosity verbosity = getVerbosity();
   qudamilc_called<true>(__func__, verbosity);

   for(int i=0; i<num_offsets; ++i){
     if(target_residual_offset[i] == 0){
       errorQuda("qudaCloverMultishiftInvert: target residual cannot be zero\n");
       exit(1);
     }
   }

   // if doing a pure double-precision multi-shift solve don't use reliable updates
   const bool use_mixed_precision = (((quda_precision==2) && inv_args.mixed_precision) ||
                                      ((quda_precision==1) && (inv_args.mixed_precision==2)) ) ? true : false;
   double reliable_delta = (use_mixed_precision) ? 1e-2 : 0.0;
   QudaInvertParam invertParam = newQudaInvertParam();
   setInvertParam(invertParam, inv_args, external_precision, quda_precision, kappa, reliable_delta);
   invertParam.residual_type = QUDA_L2_RELATIVE_RESIDUAL;
   invertParam.num_offset = num_offsets;
   for(int i=0; i<num_offsets; ++i){
     invertParam.offset[i] = offset[i];
     invertParam.tol_offset[i] = target_residual_offset[i];
   }
   invertParam.tol = target_residual_offset[0];
   invertParam.clover_coeff = clover_coeff;

   // solution types
   invertParam.solution_type      = QUDA_MATPCDAG_MATPC_SOLUTION;
   invertParam.solve_type         = QUDA_NORMOP_PC_SOLVE;
   invertParam.inv_type           = QUDA_CG_INVERTER;
   invertParam.matpc_type         = QUDA_MATPC_EVEN_EVEN_ASYMMETRIC;

   invertParam.verbosity = verbosity;
   invertParam.verbosity_precondition = QUDA_SILENT;

   invertParam.make_resident_solution = inv_args.make_resident_solution;
   invertParam.compute_true_res = 0;

   if (num_offsets==1 && offset[0] == 0) {
     // set the solver
     char *quda_solver = getenv("QUDA_MILC_CLOVER_SOLVER");

     // default is chronological CG
     if (!quda_solver || strcmp(quda_solver,"CHRONO_CG_SOLVER")==0) {
       // use CG with chronological forecasting
       invertParam.use_resident_chrono = 1;
       invertParam.make_resident_chrono = 1;
       invertParam.max_chrono_dim = 10;
     } else if (strcmp(quda_solver,"BICGSTAB_SOLVER")==0){
       // use two-step BiCGStab
       invertParam.inv_type = QUDA_BICGSTAB_INVERTER;
       invertParam.solve_type = QUDA_DIRECT_PC_SOLVE;
     } else if (strcmp(quda_solver,"CG_SOLVER")==0){
       // regular CG
       invertParam.use_resident_chrono = 0;
       invertParam.make_resident_chrono = 0;
     }

     invertQuda(solutionArray[0], source, &invertParam);
     *final_residual = invertParam.true_res;
   } else {
     invertMultiShiftQuda(solutionArray, source, &invertParam);
     for (int i=0; i<num_offsets; ++i) final_residual[i] = invertParam.true_res_offset[i];
   }

   // return the number of iterations taken by the inverter
   *num_iters = invertParam.iter;

   qudamilc_called<false>(__func__, verbosity);
   return;
 } // qudaCloverMultishiftInvert


 void qudaGaugeFixingOVR( int precision,
     unsigned int gauge_dir,
     int Nsteps,
     int verbose_interval,
     double relax_boost,
     double tolerance,
     unsigned int reunit_interval,
     unsigned int stopWtheta,
     void* milc_sitelink
     )
 {


   QudaGaugeParam qudaGaugeParam = newMILCGaugeParam(localDim,
       (precision==1) ? QUDA_SINGLE_PRECISION : QUDA_DOUBLE_PRECISION,
       QUDA_SU3_LINKS);
   qudaGaugeParam.reconstruct = QUDA_RECONSTRUCT_NO;
   //qudaGaugeParam.reconstruct = QUDA_RECONSTRUCT_12;


   double timeinfo[3];
   computeGaugeFixingOVRQuda(milc_sitelink, gauge_dir, Nsteps, verbose_interval, relax_boost, tolerance, reunit_interval, stopWtheta, \
     &qudaGaugeParam, timeinfo);

   printfQuda("Time H2D: %lf\n", timeinfo[0]);
   printfQuda("Time to Compute: %lf\n", timeinfo[1]);
   printfQuda("Time D2H: %lf\n", timeinfo[2]);
   printfQuda("Time all: %lf\n", timeinfo[0]+timeinfo[1]+timeinfo[2]);

   return;
 }

 void qudaGaugeFixingFFT( int precision,
     unsigned int gauge_dir,
     int Nsteps,
     int verbose_interval,
     double alpha,
     unsigned int autotune,
     double tolerance,
     unsigned int stopWtheta,
     void* milc_sitelink
     )
 {


   QudaGaugeParam qudaGaugeParam = newMILCGaugeParam(localDim,
       (precision==1) ? QUDA_SINGLE_PRECISION : QUDA_DOUBLE_PRECISION,
       QUDA_GENERAL_LINKS);
   qudaGaugeParam.reconstruct = QUDA_RECONSTRUCT_NO;
   //qudaGaugeParam.reconstruct = QUDA_RECONSTRUCT_12;


   double timeinfo[3];
   computeGaugeFixingFFTQuda(milc_sitelink, gauge_dir, Nsteps, verbose_interval, alpha, autotune, tolerance, stopWtheta, \
     &qudaGaugeParam, timeinfo);

   printfQuda("Time H2D: %lf\n", timeinfo[0]);
   printfQuda("Time to Compute: %lf\n", timeinfo[1]);
   printfQuda("Time D2H: %lf\n", timeinfo[2]);
   printfQuda("Time all: %lf\n", timeinfo[0]+timeinfo[1]+timeinfo[2]);

   return;
 }

 #endif // BUILD_MILC_INTERFACE
computeCloverForceQuda
void computeCloverForceQuda(void *mom, double dt, void **x, void **p, double *coeff, double kappa2, double ck, int nvector, double multiplicity, void *gauge, QudaGaugeParam *gauge_param, QudaInvertParam *inv_param)
Definition: interface_quda.cpp:4254

QudaInvertParam_s::maxiter_precondition
int maxiter_precondition
Definition: quda.h:267

qudaGaugeParam
static QudaGaugeParam qudaGaugeParam
Definition: gauge_force_test.cpp:16

quda::GaugeFieldParam::t_boundary
QudaTboundary t_boundary
Definition: gauge_field.h:18

QudaInvertParam_s::dirac_order
QudaDiracFieldOrder dirac_order
Definition: quda.h:195

QUDA_VERBOSE
Definition: enum_quda.h:237

QudaInvertParam_s::mass_normalization
QudaMassNormalization mass_normalization
Definition: quda.h:185

QudaInvertParam_s::tol_hq_offset
double tol_hq_offset[QUDA_MAX_MULTI_SHIFT]
Definition: quda.h:159

QudaGaugeParam_s::reconstruct_sloppy
QudaReconstructType reconstruct_sloppy
Definition: quda.h:46

QudaGaugeParam_s::anisotropy
double anisotropy
Definition: quda.h:31

QUDA_RECONSTRUCT_NO
Definition: enum_quda.h:66

freeCloverQuda
void freeCloverQuda(void)
Definition: interface_quda.cpp:1268

QudaEigArgs_t
Definition: quda_milc_interface.h:49

QudaInvertArgs_t::max_iter
int max_iter
Definition: quda_milc_interface.h:36

QudaEigParam_s::np
int np
Definition: quda.h:356

gaugeParam
QudaGaugeParam gaugeParam
Definition: covdev_test.cpp:36

QudaInvertArgs_t::use_resident_solution
int use_resident_solution
Definition: quda_milc_interface.h:41

QUDA_MAT_SOLUTION
Definition: enum_quda.h:130

invertMultiShiftQuda
void invertMultiShiftQuda(void **_hp_x, void *_hp_b, QudaInvertParam *param)
Definition: interface_quda.cpp:3206

setVerbosityQuda
void setVerbosityQuda(QudaVerbosity verbosity, const char prefix[], FILE *outfile)
Definition: interface_quda.cpp:251

QUDA_PACKED_CLOVER_ORDER
Definition: enum_quda.h:228

endQuda
void endQuda(void)
Definition: interface_quda.cpp:1290

free
void free(void *)

pool_pinned_free
#define pool_pinned_free(ptr)
Definition: malloc_quda.h:116

qudaHisqParamsInit
void qudaHisqParamsInit(QudaHisqParams_t hisq_params)

QudaInvertParam_s::solve_type
QudaSolveType solve_type
Definition: quda.h:182

QudaInvertParam_s::verbosity_precondition
QudaVerbosity verbosity_precondition
Definition: quda.h:261

verbosity
QudaVerbosity verbosity
Definition: dslash_ctest.cpp:81

QudaPrecision
enum QudaPrecision_s QudaPrecision

QudaEigArgs_t::tol_restart
double tol_restart
Definition: quda_milc_interface.h:54

qudaUnitarizeSU3
void qudaUnitarizeSU3(int prec, double tol, QudaMILCSiteArg_t *arg)

QudaGaugeParam_s::ga_pad
int ga_pad
Definition: quda.h:53

destroyDeflationQuda
void destroyDeflationQuda(void *df_instance)
Definition: interface_quda.cpp:2514

QudaGaugeParam_s::make_resident_mom
int make_resident_mom
Definition: quda.h:74

QUDA_MATPC_ODD_ODD
Definition: enum_quda.h:183

qudaGaugeFixingFFT
void qudaGaugeFixingFFT(int precision, unsigned int gauge_dir, int Nsteps, int verbose_interval, double alpha, unsigned int autotune, double tolerance, unsigned int stopWtheta, void *milc_sitelink)
Gauge fixing with Steepest descent method with FFTs with support for single GPU only.

QudaGaugeParam_s::gauge_offset
size_t gauge_offset
Definition: quda.h:78

mass
double mass
Definition: staggered_invertmsrc_test.cpp:71

QudaGaugeParam_s::gauge_fix
QudaGaugeFixed gauge_fix
Definition: quda.h:51

QudaEigArgs_t::deflation_ext_lib
QudaExtLibType deflation_ext_lib
Definition: quda_milc_interface.h:62

QUDA_PRESERVE_SOURCE_YES
Definition: enum_quda.h:209

quda::fermion_force::setUnitarizeForceConstants
void setUnitarizeForceConstants(double unitarize_eps, double hisq_force_filter, double max_det_error, bool allow_svd, bool svd_only, double svd_rel_error, double svd_abs_error)
Set the constant parameters for the force unitarization.

QUDA_MASS_NORMALIZATION
Definition: enum_quda.h:197

QudaInvertParam_s::inv_type_precondition
QudaInverterType inv_type_precondition
Definition: quda.h:248

getVerbosity
QudaVerbosity getVerbosity()
Definition: util_quda.cpp:20

QUDA_ASQTAD_DSLASH
Definition: enum_quda.h:92

func
const void * func
Definition: CMakeCUDACompilerId.cpp1.ii:2248

QudaGaugeParam_s::type
QudaLinkType type
Definition: quda.h:35

src
const void * src
Definition: CMakeCUDACompilerId.cpp1.ii:2290

QudaInvertParam_s::kappa
double kappa
Definition: quda.h:97

QudaInvertParam_s::cuda_prec_ritz
QudaPrecision cuda_prec_ritz
Definition: quda.h:290

invertQuda
void invertQuda(void *h_x, void *h_b, QudaInvertParam *param)
Definition: interface_quda.cpp:2521

errorQuda
#define errorQuda(...)
Definition: util_quda.h:90

QudaInvertParam_s::tol
double tol
Definition: quda.h:110

color_spinor_field.h

quda::setUnitarizeLinksConstants
void setUnitarizeLinksConstants(double unitarize_eps, double max_error, bool allow_svd, bool svd_only, double svd_rel_error, double svd_abs_error)

QudaInvertParam_s::dslash_type
QudaDslashType dslash_type
Definition: quda.h:93

QUDA_GAUGE_FIXED_NO
Definition: enum_quda.h:76

QudaGaugeParam_s::reconstruct_precondition
QudaReconstructType reconstruct_precondition
Definition: quda.h:49

QudaInvertParam_s::inv_type
QudaInverterType inv_type
Definition: quda.h:94

start
cudaEvent_t start
Definition: CMakeCUDACompilerId.cpp1.ii:2453

QudaEigArgs_t::prec_ritz
QudaPrecision prec_ritz
Definition: quda_milc_interface.h:50

QudaInvertParam_s::cuda_prec
QudaPrecision cuda_prec
Definition: quda.h:191

host_free
#define host_free(ptr)
Definition: malloc_quda.h:59

QUDA_ODD_PARITY
Definition: enum_quda.h:260

QUDA_SPACE_SPIN_COLOR_FIELD_ORDER
Definition: enum_quda.h:321

QUDA_HALF_PRECISION
Definition: enum_quda.h:59

QudaSolveType
enum QudaSolveType_s QudaSolveType

loadGaugeQuda
void loadGaugeQuda(void *h_gauge, QudaGaugeParam *param)
Definition: interface_quda.cpp:602

deflation_ext_lib
QudaExtLibType deflation_ext_lib
Definition: test_util.cpp:1680

QUDA_THREE_LINKS
Definition: enum_quda.h:25

QUDA_WILSON_LINKS
Definition: enum_quda.h:29

qudaInit
void qudaInit(QudaInitArgs_t input)

QudaHisqParams_t::reunit_svd_rel_error
double reunit_svd_rel_error
Definition: quda_milc_interface.h:99

QudaInvertParam_s::cpu_prec
QudaPrecision cpu_prec
Definition: quda.h:190

QudaEigArgs_t::mem_type_ritz
QudaMemoryType mem_type_ritz
Definition: quda_milc_interface.h:65

reunit_svd_only
static bool reunit_svd_only
Definition: unitarize_link_test.cpp:38

setDeflationParam
void setDeflationParam(QudaEigParam &df_param)
Definition: deflated_invert_test.cpp:275

dim
static __inline__ dim3 dim3 void size_t cudaStream_t int dim
Definition: CMakeCUDACompilerId.cpp1.ii:15687

QudaHisqParams_t::reunit_allow_svd
int reunit_allow_svd
Definition: quda_milc_interface.h:96

rank
static int rank
Definition: comm_mpi.cpp:42

QudaHisqParams_t
Definition: quda_milc_interface.h:95

momActionQuda
double momActionQuda(void *momentum, QudaGaugeParam *param)
Definition: interface_quda.cpp:4657

QudaGaugeParam_s::staggered_phase_type
QudaStaggeredPhase staggered_phase_type
Definition: quda.h:62

QudaInvertArgs_t::evenodd
QudaParity evenodd
Definition: quda_milc_interface.h:37

strcpy
char * strcpy(char *__dst, const char *__src)

QUDA_EIGCG_INVERTER
Definition: enum_quda.h:110

qudaLoadGaugeField
void qudaLoadGaugeField(int external_precision, int quda_precision, QudaInvertArgs_t inv_args, const void *milc_link)

qudaEigCGInvert
void qudaEigCGInvert(int external_precision, int quda_precision, double mass, QudaInvertArgs_t inv_args, double target_residual, double target_fermilab_residual, const void *const fatlink, const void *const longlink, const double tadpole, void *source, void *solution, QudaEigArgs_t eig_args, const int rhs_idx, const int last_rhs_flag, double *const final_residual, double *const final_fermilab_residual, int *num_iters)

QudaInvertParam_s::dagger
QudaDagType dagger
Definition: quda.h:184

MAX
#define MAX(a, b)
Definition: milc_interface.cpp:13

QudaFatLinkArgs_t
Definition: quda_milc_interface.h:107

QudaInvertArgs_t::make_resident_solution
int make_resident_solution
Definition: quda_milc_interface.h:40

QUDA_BOOLEAN_YES
Definition: enum_quda.h:409

QUDA_CG_INVERTER
Definition: enum_quda.h:101

qudaCloverMultishiftInvert
void qudaCloverMultishiftInvert(int external_precision, int quda_precision, int num_offsets, double *const offset, double kappa, double clover_coeff, QudaInvertArgs_t inv_args, const double *target_residual, const void *milc_link, void *milc_clover, void *milc_clover_inv, void *source, void **solutionArray, double *const final_residual, int *num_iters)

quda::GaugeFieldParam::anisotropy
double anisotropy
Definition: gauge_field.h:20

qudaEigCGCloverInvert
void qudaEigCGCloverInvert(int external_precision, int quda_precision, double kappa, double clover_coeff, QudaInvertArgs_t inv_args, double target_residual, double target_fermilab_residual, const void *milc_link, void *milc_clover, void *milc_clover_inv, void *source, void *solution, QudaEigArgs_t eig_args, const int rhs_idx, const int last_rhs_flag, double *const final_residual, double *const final_fermilab_residual, int *num_iters)

QUDA_MILC_SITE_GAUGE_ORDER
Definition: enum_quda.h:45

QudaGaugeParam_s::gauge_order
QudaGaugeFieldOrder gauge_order
Definition: quda.h:36

nvec
int nvec
Definition: test_util.cpp:1635

QudaInvertParam_s::true_res
double true_res
Definition: quda.h:115

qudaInvertMsrc
void qudaInvertMsrc(int external_precision, int quda_precision, double mass, QudaInvertArgs_t inv_args, double target_residual, double target_fermilab_residual, const void *const fatlink, const void *const longlink, const double tadpole, void **sourceArray, void **solutionArray, double *const final_residual, double *const final_fermilab_residual, int *num_iters, int num_src)

QudaGaugeParam_s::mom_offset
size_t mom_offset
Definition: quda.h:79

computeKSLinkQuda
void computeKSLinkQuda(void *fatlink, void *longlink, void *ulink, void *inlink, double *path_coeff, QudaGaugeParam *param)
Definition: interface_quda.cpp:3562

qudaGaugeFixingOVR
void qudaGaugeFixingOVR(const int precision, const unsigned int gauge_dir, const int Nsteps, const int verbose_interval, const double relax_boost, const double tolerance, const unsigned int reunit_interval, const unsigned int stopWtheta, void *milc_sitelink)
Gauge fixing with overrelaxation with support for single and multi GPU.

qudaSaveGaugeField
void qudaSaveGaugeField(void *gauge, void *inGauge)

loadCloverQuda
void loadCloverQuda(void *h_clover, void *h_clovinv, QudaInvertParam *inv_param)
Definition: interface_quda.cpp:859

cuda_prec_precondition
QudaPrecision & cuda_prec_precondition
Definition: deflated_invert_test.cpp:120

QudaInvertParam_s::make_resident_solution
int make_resident_solution
Definition: quda.h:313

QudaGaugeParam_s::overwrite_mom
int overwrite_mom
Definition: quda.h:69

qudaMomAction
double qudaMomAction(int precision, void *momentum)

quda
Definition: blas_cublas.h:6

qudaSetLayout
void qudaSetLayout(QudaLayout_t layout)

exit
void exit(int) __attribute__((noreturn))

QudaInvertParam_s::clover_cuda_prec_sloppy
QudaPrecision clover_cuda_prec_sloppy
Definition: quda.h:202

QudaInvertParam_s::compute_action
int compute_action
Definition: quda.h:174

dslashQuda
void dslashQuda(void *h_out, void *h_in, QudaInvertParam *inv_param, QudaParity parity)
Definition: interface_quda.cpp:1616

QudaInvertParam_s::input_location
QudaFieldLocation input_location
Definition: quda.h:90

freeGaugeQuda
void freeGaugeQuda(void)
Definition: interface_quda.cpp:1090

initCommsGridQuda
void initCommsGridQuda(int nDim, const int *dims, QudaCommsMap func, void *fdata)
Definition: interface_quda.cpp:291

QudaGaugeParam_s::staggered_phase_applied
int staggered_phase_applied
Definition: quda.h:63

QudaInvertParam_s::true_res_hq_offset
double true_res_hq_offset[QUDA_MAX_MULTI_SHIFT]
Definition: quda.h:168

QudaInvertParam_s::reliable_delta
double reliable_delta
Definition: quda.h:118

cpu_prec
QudaPrecision cpu_prec
Definition: covdev_test.cpp:33

QudaGaugeParam_s::site_size
size_t site_size
Definition: quda.h:80

offset
size_t size_t offset
Definition: CMakeCUDACompilerId.cpp1.ii:2497

QudaInvertParam_s::use_init_guess
QudaUseInitGuess use_init_guess
Definition: quda.h:206

gridDim
dim3 gridDim
Definition: CMakeCUDACompilerId.cpp1.ii:2471

computeGaugeFixingOVRQuda
int computeGaugeFixingOVRQuda(void *gauge, const unsigned int gauge_dir, const unsigned int Nsteps, const unsigned int verbose_interval, const double relax_boost, const double tolerance, const unsigned int reunit_interval, const unsigned int stopWtheta, QudaGaugeParam *param, double *timeinfo)
Gauge fixing with overrelaxation with support for single and multi GPU.
Definition: interface_quda.cpp:5202

index
char * index(const char *, int)

param
QudaGaugeParam param
Definition: pack_test.cpp:17

QudaEigParam_s::nk
int nk
Definition: quda.h:355

setInvertParam
void setInvertParam(QudaInvertParam &inv_param)
Definition: deflated_invert_test.cpp:162

x
p x
Definition: CMakeCUDACompilerId.cpp1.ii:3011

QudaInvertParam_s::solution_type
QudaSolutionType solution_type
Definition: quda.h:181

projectSU3Quda
void projectSU3Quda(void *gauge_h, double tol, QudaGaugeParam *param)
Definition: interface_quda.cpp:4544

QudaEigParam_s::mem_type_ritz
QudaMemoryType mem_type_ritz
Definition: quda.h:367

strcmp
int strcmp(const char *__s1, const char *__s2)

QudaInvertParam_s::clover_cuda_prec
QudaPrecision clover_cuda_prec
Definition: quda.h:201

QUDA_RECONSTRUCT_9
Definition: enum_quda.h:69

QUDA_MATPC_EVEN_EVEN_ASYMMETRIC
Definition: enum_quda.h:184

QUDA_SILENT
Definition: enum_quda.h:235

longlink
void * longlink[4]
Definition: staggered_dslash_ctest.cpp:47

computeGaugeForceQuda
int computeGaugeForceQuda(void *mom, void *sitelink, int ***input_path_buf, int *path_length, double *loop_coeff, int num_paths, int max_length, double dt, QudaGaugeParam *qudaGaugeParam)
Definition: interface_quda.cpp:3663

dslash_cuda_gen.clover
bool clover
Definition: dslash_cuda_gen.py:1224

QudaEigParam_s::invert_param
QudaInvertParam * invert_param
Definition: quda.h:346

QudaGaugeParam_s::scale
double scale
Definition: quda.h:33

initQuda
void initQuda(int device)
Definition: interface_quda.cpp:546

QUDA_EVEN_ODD_SITE_ORDER
Definition: enum_quda.h:311

tol
double tol
Definition: test_util.cpp:1647

qudaFreePinned
void qudaFreePinned(void *ptr)

qudaUpdateU
void qudaUpdateU(int precision, double eps, QudaMILCSiteArg_t *arg)

QudaInvertParam_s::output_location
QudaFieldLocation output_location
Definition: quda.h:91

QUDA_USE_INIT_GUESS_YES
Definition: enum_quda.h:397

malloc
void * malloc(size_t __size) __attribute__((__warn_unused_result__)) __attribute__((alloc_size(1)))

QudaInvertParam_s::clover_cuda_prec_precondition
QudaPrecision clover_cuda_prec_precondition
Definition: quda.h:203

QUDA_RECONSTRUCT_12
Definition: enum_quda.h:67

printf
int printf(const char *,...) __attribute__((__format__(__printf__

vec_infile
char vec_infile[]
Definition: test_util.cpp:1636

quda::canReuseResidentGauge
bool canReuseResidentGauge(QudaInvertParam *inv_param)
Definition: interface_quda.cpp:1997

cuda_prec_sloppy
QudaPrecision & cuda_prec_sloppy
Definition: deflated_invert_test.cpp:119

kappa
VOLATILE spinorFloat kappa
Definition: dw_dslash5inv_core.h:153

QudaEigParam_s::run_verify
QudaBoolean run_verify
Definition: quda.h:373

QudaGaugeParam_s::i_mu
double i_mu
Definition: quda.h:65

qudaFreeCloverField
void qudaFreeCloverField()

QUDA_PRESERVE_SOURCE_NO
Definition: enum_quda.h:208

QudaGaugeParam_s
Definition: quda.h:25

newDeflationQuda
void * newDeflationQuda(QudaEigParam *param)
Definition: interface_quda.cpp:2500

cuda_prec
QudaPrecision cuda_prec
Definition: covdev_test.cpp:34

QudaInvertParam_s::cuda_prec_sloppy
QudaPrecision cuda_prec_sloppy
Definition: quda.h:192

initialized
static bool initialized
Profiler for initQuda.
Definition: interface_quda.cpp:158

QudaInvertParam_s::verbosity
QudaVerbosity verbosity
Definition: quda.h:219

qudaMultishiftInvert
void qudaMultishiftInvert(int external_precision, int precision, int num_offsets, double *const offset, QudaInvertArgs_t inv_args, const double *target_residual, const double *target_fermilab_residual, const void *const milc_fatlink, const void *const milc_longlink, const double tadpole, void *source, void **solutionArray, double *const final_residual, double *const final_fermilab_residual, int *num_iters)

csParam
ColorSpinorParam csParam
Definition: pack_test.cpp:24

QudaInvertParam_s::tol_offset
double tol_offset[QUDA_MAX_MULTI_SHIFT]
Definition: quda.h:156

QUDA_MILC_GAUGE_ORDER
Definition: enum_quda.h:44

QudaInvertParam_s::true_res_offset
double true_res_offset[QUDA_MAX_MULTI_SHIFT]
Definition: quda.h:162

newQudaInvertParam
QudaInvertParam newQudaInvertParam(void)

QudaInvertParam_s::gflops
double gflops
Definition: quda.h:227

qudaCreateGaugeField
void * qudaCreateGaugeField(void *gauge, int geometry, int precision)

QudaInvertParam_s::eigcg_max_restarts
int eigcg_max_restarts
Definition: quda.h:306

QudaInvertParam_s::use_resident_chrono
int use_resident_chrono
Definition: quda.h:322

QudaGaugeParam_s::cuda_prec_precondition
QudaPrecision cuda_prec_precondition
Definition: quda.h:48

QudaInvertParam_s::clover_order
QudaCloverFieldOrder clover_order
Definition: quda.h:205

QudaLayout_t
Definition: quda_milc_interface.h:76

p
static __inline__ size_t p
Definition: CMakeCUDACompilerId.cpp1.ii:2995

saveGaugeFieldQuda
void saveGaugeFieldQuda(void *outGauge, void *inGauge, QudaGaugeParam *param)
Definition: interface_quda.cpp:3836

QudaInvertParam_s::tol_hq
double tol_hq
Definition: quda.h:112

QudaInvertParam_s::nev
int nev
Definition: quda.h:294

QUDA_PERIODIC_T
Definition: enum_quda.h:54

QUDA_CLOVER_WILSON_DSLASH
Definition: enum_quda.h:87

fused_exterior_ndeg_tm_dslash_cuda_gen.i
int i
start here
Definition: fused_exterior_ndeg_tm_dslash_cuda_gen.py:816

QudaHisqParams_t::force_filter
double force_filter
Definition: quda_milc_interface.h:100

QudaInvertArgs_t::solver_type
QudaInverterType solver_type
Definition: quda_milc_interface.h:42

qudaRephase
void qudaRephase(int prec, void *gauge, int flag, double i_mu)

QudaInvertParam_s::true_res_hq
double true_res_hq
Definition: quda.h:116

quda::cudaGaugeField
Definition: gauge_field.h:298

qudaInvert
void qudaInvert(int external_precision, int quda_precision, double mass, QudaInvertArgs_t inv_args, double target_residual, double target_fermilab_residual, const void *const milc_fatlink, const void *const milc_longlink, const double tadpole, void *source, void *solution, double *const final_resid, double *const final_rel_resid, int *num_iters)

QudaSolutionType
enum QudaSolutionType_s QudaSolutionType

qudaComputeOprod
void qudaComputeOprod(int precision, int num_terms, int num_naik_terms, double **coeff, double scale, void **quark_field, void *oprod[3])

QUDA_PARITY_SITE_SUBSET
Definition: enum_quda.h:303

QudaInvertParam_s::gamma_basis
QudaGammaBasis gamma_basis
Definition: quda.h:197

QudaLayout_t::machsize
const int * machsize
Definition: quda_milc_interface.h:78

vec_outfile
char vec_outfile[]
Definition: test_util.cpp:1637

QudaGaugeParam_s::cuda_prec_sloppy
QudaPrecision cuda_prec_sloppy
Definition: quda.h:45

QudaInvertParam_s::max_search_dim
int max_search_dim
Definition: quda.h:298

QudaInvertParam_s::tol_precondition
double tol_precondition
Definition: quda.h:264

PUSH_RANGE
#define PUSH_RANGE(name, cid)
Definition: quda_internal.h:228

unitarize_eps
static double unitarize_eps
Definition: unitarize_link_test.cpp:36

QudaMILCSiteArg_t
Definition: quda_milc_interface.h:23

QudaHisqParams_t::reunit_svd_abs_error
double reunit_svd_abs_error
Definition: quda_milc_interface.h:98

QudaInvertParam_s::offset
double offset[QUDA_MAX_MULTI_SHIFT]
Definition: quda.h:153

qudaFreeGaugeField
void qudaFreeGaugeField()

QUDA_BOOLEAN_NO
Definition: enum_quda.h:408

QudaInvertParam_s::use_sloppy_partial_accumulator
int use_sloppy_partial_accumulator
Definition: quda.h:119

QudaInvertParam_s::heavy_quark_check
int heavy_quark_check
Definition: quda.h:142

QudaParity
enum QudaParity_s QudaParity

QudaGaugeParam_s::reconstruct
QudaReconstructType reconstruct
Definition: quda.h:43

QudaLinkType
enum QudaLinkType_s QudaLinkType

QudaGaugeParam_s::cuda_prec
QudaPrecision cuda_prec
Definition: quda.h:42

QUDA_KAPPA_NORMALIZATION
Definition: enum_quda.h:196

qudaDslash
void qudaDslash(int external_precision, int quda_precision, QudaInvertArgs_t inv_args, const void *const milc_fatlink, const void *const milc_longlink, const double tadpole, void *source, void *solution, int *num_iters)

QudaGaugeParam_s::X
int X[4]
Definition: quda.h:29

qudaLoadCloverField
void qudaLoadCloverField(int external_precision, int quda_precision, QudaInvertArgs_t inv_args, void *milc_clover, void *milc_clover_inv, QudaSolutionType solution_type, QudaSolveType solve_type, double clover_coeff, int compute_trlog, double *trlog)

QudaInvertParam_s::mass
double mass
Definition: quda.h:96

QudaEigParam_s::import_vectors
QudaBoolean import_vectors
Definition: quda.h:361

QudaEigArgs_t::eigcg_max_restarts
int eigcg_max_restarts
Definition: quda_milc_interface.h:56

QUDA_HEAVY_QUARK_RESIDUAL
Definition: enum_quda.h:168

qudaFinalize
void qudaFinalize()

QudaEigParam_s::location
QudaFieldLocation location
Definition: quda.h:370

QudaInvertParam_s::gcrNkrylov
int gcrNkrylov
Definition: quda.h:237

QudaEigArgs_t::location_ritz
QudaFieldLocation location_ritz
Definition: quda_milc_interface.h:64

QudaEigArgs_t::vec_outfile
char * vec_outfile
Definition: quda_milc_interface.h:68

QudaEigParam_s
Definition: quda.h:344

QudaInvertParam_s::maxiter
int maxiter
Definition: quda.h:117

ptr
const void * ptr
Definition: CMakeCUDACompilerId.cpp1.ii:2613

safe_malloc
#define safe_malloc(size)
Definition: malloc_quda.h:54

qudaCloverInvert
void qudaCloverInvert(int external_precision, int quda_precision, double kappa, double clover_coeff, QudaInvertArgs_t inv_args, double target_residual, double target_fermilab_residual, const void *milc_link, void *milc_clover, void *milc_clover_inv, void *source, void *solution, double *const final_residual, double *const final_fermilab_residual, int *num_iters)

QUDA_BICGSTAB_INVERTER
Definition: enum_quda.h:102

solve_type
QudaSolveType solve_type
Definition: test_util.cpp:1653

QudaInvertParam_s::sp_pad
int sp_pad
Definition: quda.h:221

QudaInvertParam_s::make_resident_chrono
int make_resident_chrono
Definition: quda.h:319

staggeredPhaseQuda
void staggeredPhaseQuda(void *gauge_h, QudaGaugeParam *param)
Definition: interface_quda.cpp:4602

quda::GaugeFieldParam::scale
double scale
Definition: gauge_field.h:22

QudaEigArgs_t::max_restart_num
int max_restart_num
Definition: quda_milc_interface.h:57

QudaEigArgs_t::inc_tol
double inc_tol
Definition: quda_milc_interface.h:58

reunit_allow_svd
static bool reunit_allow_svd
Definition: unitarize_link_test.cpp:37

pool_pinned_malloc
#define pool_pinned_malloc(size)
Definition: malloc_quda.h:115

QudaLayout_t::device
int device
Definition: quda_milc_interface.h:79

quda::ColorSpinorParam
Definition: color_spinor_field.h:80

computeGaugeFixingFFTQuda
int computeGaugeFixingFFTQuda(void *gauge, const unsigned int gauge_dir, const unsigned int Nsteps, const unsigned int verbose_interval, const double alpha, const unsigned int autotune, const double tolerance, const unsigned int stopWtheta, QudaGaugeParam *param, double *timeinfo)
Gauge fixing with Steepest descent method with FFTs with support for single GPU only.
Definition: interface_quda.cpp:5287

QUDA_DOUBLE_PRECISION
Definition: enum_quda.h:61

qudaLoadUnitarizedLink
void qudaLoadUnitarizedLink(int precision, QudaFatLinkArgs_t fatlink_args, const double path_coeff[6], void *inlink, void *fatlink, void *ulink)

QudaEigParam_s::vec_outfile
char vec_outfile[256]
Definition: quda.h:379

unitarization_links.h

destroyGaugeFieldQuda
void destroyGaugeFieldQuda(void *gauge)
Definition: interface_quda.cpp:3849

QudaResidualType_s
QudaResidualType_s
Definition: enum_quda.h:165

QudaFieldLocation
enum QudaFieldLocation_s QudaFieldLocation

QudaInvertArgs_t::mixed_precision
int mixed_precision
Definition: quda_milc_interface.h:38

uint32_t
unsigned int uint32_t
Definition: CMakeCUDACompilerId.cpp1.ii:4783

dw_dslash_4D_cuda_gen.coeff
def coeff()
Definition: dw_dslash_4D_cuda_gen.py:1099

QudaGaugeParam_s::tadpole_coeff
double tadpole_coeff
Definition: quda.h:32

QudaInvertParam_s::cuda_prec_precondition
QudaPrecision cuda_prec_precondition
Definition: quda.h:193

QudaInvertParam_s::iter
int iter
Definition: quda.h:224

QudaInvertParam_s::deflation_grid
int deflation_grid
Definition: quda.h:302

QUDA_STAGGERED_DSLASH
Definition: enum_quda.h:91

QudaInvertParam_s::num_src
int num_src
Definition: quda.h:148

gParam
GaugeFieldParam gParam
Definition: hisq_paths_force_test.cpp:64

QudaInvertParam_s::tol_restart
double tol_restart
Definition: quda.h:111

QUDA_INVALID_INVERTER
Definition: enum_quda.h:120

updateGaugeFieldQuda
void updateGaugeFieldQuda(void *gauge, void *momentum, double dt, int conj_mom, int exact, QudaGaugeParam *param)
Definition: interface_quda.cpp:4441

fatlink
void * fatlink[4]
Definition: staggered_dslash_ctest.cpp:47

QUDA_SINGLE_PRECISION
Definition: enum_quda.h:60

clover_coeff
double clover_coeff
Definition: test_util.cpp:1645

QUDA_GENERAL_LINKS
Definition: enum_quda.h:24

QudaReconstructType
enum QudaReconstructType_s QudaReconstructType

quda.h
Main header file for the QUDA library.

invertMultiSrcQuda
void invertMultiSrcQuda(void **_hp_x, void **_hp_b, QudaInvertParam *param)
Definition: interface_quda.cpp:2848

QudaLayout_t::latsize
const int * latsize
Definition: quda_milc_interface.h:77

QUDA_DEGRAND_ROSSI_GAMMA_BASIS
Definition: enum_quda.h:338

dslash_quda.h

quda::fermion_force
Definition: ks_improved_force.h:8

qudaCloverForce
void qudaCloverForce(void *mom, double dt, void **x, void **p, double *coeff, double kappa, double ck, int nvec, double multiplicity, void *gauge, int precision, QudaInvertArgs_t inv_args)

qudaAllocatePinned
void * qudaAllocatePinned(size_t bytes)

mem_type_ritz
QudaMemoryType mem_type_ritz
Definition: test_util.cpp:1682

QudaInvertParam_s::Ls
int Ls
Definition: quda.h:100

printfQuda
#define printfQuda(...)
Definition: util_quda.h:84

QUDA_DAG_NO
Definition: enum_quda.h:190

QudaGaugeParam_s::t_boundary
QudaTboundary t_boundary
Definition: quda.h:38

QudaInitArgs_t
Definition: quda_milc_interface.h:86

quda::blas::flops
unsigned long long flops
Definition: blas_quda.cu:42

QUDA_INC_EIGCG_INVERTER
Definition: enum_quda.h:111

e
return e
Definition: CMakeCUDACompilerId.cpp1.ii:3026

cudaGauge
cudaGaugeField * cudaGauge
Definition: hisq_paths_force_test.cpp:21

POP_RANGE
#define POP_RANGE
Definition: quda_internal.h:229

QUDA_STAGGERED_PHASE_MILC
Definition: enum_quda.h:442

QudaInvertParam_s::max_restart_num
int max_restart_num
Definition: quda.h:308

QUDA_DIRAC_ORDER
Definition: enum_quda.h:215

quda::arg
__host__ __device__ ValueType arg(const complex< ValueType > &z)
Returns the phase angle of z.
Definition: complex_quda.h:880

createGaugeFieldQuda
void * createGaugeFieldQuda(void *gauge, int geometry, QudaGaugeParam *param)
Definition: interface_quda.cpp:3813

QudaGaugeParam_s::use_resident_mom
int use_resident_mom
Definition: quda.h:72

length
void size_t length
Definition: CMakeCUDACompilerId.cpp1.ii:2433

QUDA_RECONSTRUCT_13
Definition: enum_quda.h:70

QUDA_ANTI_PERIODIC_T
Definition: enum_quda.h:53

quda::GaugeFieldParam::reconstruct
QudaReconstructType reconstruct
Definition: gauge_field.h:14

quda_milc_interface.h

qudaHisqForce
void qudaHisqForce(int precision, int num_terms, int num_naik_terms, double **coeff, void **quark_field, const double level2_coeff[6], const double fat7_coeff[6], const void *const w_link, const void *const v_link, const void *const u_link, void *const milc_momentum)

QudaInvertParam_s::cl_pad
int cl_pad
Definition: quda.h:222

location_ritz
QudaFieldLocation location_ritz
Definition: test_util.cpp:1681

QUDA_DIRECT_PC_SOLVE
Definition: enum_quda.h:142

QudaInvertParam_s::compute_true_res
int compute_true_res
Definition: quda.h:114

QudaInvertParam_s::residual_type
QudaResidualType residual_type
Definition: quda.h:286

QudaInvertParam_s::rhs_idx
int rhs_idx
Definition: quda.h:300

QUDA_EVEN_PARITY
Definition: enum_quda.h:259

QudaInvertParam_s::inc_tol
double inc_tol
Definition: quda.h:310

QudaInvertParam_s::num_offset
int num_offset
Definition: quda.h:146

QudaHisqParams_t::reunit_svd_only
int reunit_svd_only
Definition: quda_milc_interface.h:97

QudaVerbosity
enum QudaVerbosity_s QudaVerbosity

QudaGaugeParam_s::return_result_mom
int return_result_mom
Definition: quda.h:76

QudaInitArgs_t::verbosity
QudaVerbosity verbosity
Definition: quda_milc_interface.h:87

QUDA_ZERO_FIELD_CREATE
Definition: enum_quda.h:331

QudaInvertParam_s::max_chrono_dim
int max_chrono_dim
Definition: quda.h:325

QudaInvertParam_s::use_resident_solution
int use_resident_solution
Definition: quda.h:316

QudaInvertArgs_t
Definition: quda_milc_interface.h:35

computeHISQForceQuda
void computeHISQForceQuda(void *momentum, long long *flops, const double level2_coeff[6], const double fat7_coeff[6], const void *const w_link, const void *const v_link, const void *const u_link, void **quark, int num, int num_naik, double **coeff, QudaGaugeParam *param)
Definition: interface_quda.cpp:4004

QUDA_NORMOP_PC_SOLVE
Definition: enum_quda.h:143

qudaLoadKSLink
void qudaLoadKSLink(int precision, QudaFatLinkArgs_t fatlink_args, const double act_path_coeff[6], void *inlink, void *fatlink, void *longlink)

QudaInvertParam_s::deflation_op
void * deflation_op
Definition: quda.h:254

QUDA_MATPCDAG_MATPC_SOLUTION
Definition: enum_quda.h:134

QudaInvertParam_s::eigenval_tol
double eigenval_tol
Definition: quda.h:304

quda::LatticeField::Precision
QudaPrecision Precision() const
Definition: lattice_field.h:462

QUDA_NORMEQ_PC_SOLVE
Definition: enum_quda.h:147

QUDA_MATPC_EVEN_EVEN
Definition: enum_quda.h:182

QUDA_SU3_LINKS
Definition: enum_quda.h:23

QudaEigArgs_t::vec_infile
char * vec_infile
Definition: quda_milc_interface.h:67

QudaInvertParam_s::clover_cpu_prec
QudaPrecision clover_cpu_prec
Definition: quda.h:200

QudaEigParam_s::cuda_prec_ritz
QudaPrecision cuda_prec_ritz
Definition: quda.h:364

parity
QudaParity parity
Definition: covdev_test.cpp:53

QudaInvertParam_s
Definition: quda.h:88

QudaInvertArgs_t::boundary_phase
double boundary_phase[4]
Definition: quda_milc_interface.h:39

qudaGaugeForce
void qudaGaugeForce(int precision, int num_loop_types, double milc_loop_coeff[3], double eb3, QudaMILCSiteArg_t *arg)

opp
static int opp(int dir)
Definition: interface_quda.cpp:4790

QUDA_CPU_FIELD_LOCATION
Definition: enum_quda.h:296

getenv
char * getenv(const char *)

prec
QudaPrecision prec
Definition: test_util.cpp:1615

QudaInvertParam_s::matpc_type
QudaMatPCType matpc_type
Definition: quda.h:183

newQudaEigParam
QudaEigParam newQudaEigParam(void)

QudaEigParam_s::vec_infile
char vec_infile[256]
Definition: quda.h:376

QudaEigArgs_t::max_search_dim
int max_search_dim
Definition: quda_milc_interface.h:52

QudaInverterType
enum QudaInverterType_s QudaInverterType

QUDA_L2_RELATIVE_RESIDUAL
Definition: enum_quda.h:166

QudaMemoryType
enum QudaMemoryType_s QudaMemoryType

qudaAsqtadForce
void qudaAsqtadForce(int precision, const double act_path_coeff[6], const void *const one_link_src[4], const void *const naik_src[4], const void *const link, void *const milc_momentum)

QudaEigArgs_t::nev
int nev
Definition: quda_milc_interface.h:51

QudaEigArgs_t::deflation_grid
int deflation_grid
Definition: quda_milc_interface.h:53

createGaugeForcePaths
static void createGaugeForcePaths(int **paths, int dir, int num_loop_types)
Definition: interface_quda.cpp:4792

quda::blas::bytes
unsigned long long bytes
Definition: blas_quda.cu:43

QudaGaugeParam_s::cpu_prec
QudaPrecision cpu_prec
Definition: quda.h:40

QudaEigArgs_t::eigenval_tol
double eigenval_tol
Definition: quda_milc_interface.h:59

QudaExtLibType
enum QudaExtLibType_s QudaExtLibType

ks_improved_force.h

QudaInitArgs_t::layout
QudaLayout_t layout
Definition: quda_milc_interface.h:88

qudaDestroyGaugeField
void qudaDestroyGaugeField(void *gauge)

newQudaGaugeParam
QudaGaugeParam newQudaGaugeParam(void)

QUDA_RECONSTRUCT_INVALID
Definition: enum_quda.h:72

QudaInvertParam_s::preserve_source
QudaPreserveSource preserve_source
Definition: quda.h:188

quda_internal.h

QudaInvertParam_s::clover_coeff
double clover_coeff
Definition: quda.h:208

device
enum cudaDeviceAttr attr int device
Definition: CMakeCUDACompilerId.cpp1.ii:2238