quda-ref/v1.0.0/staggered__dslash__ctest_8cpp_source.html

 #include <iostream>
 #include <stdio.h>
 #include <stdlib.h>
 #include <string.h>

 #include <quda.h>
 #include <quda_internal.h>
 #include <dirac_quda.h>
 #include <dslash_quda.h>
 #include <invert_quda.h>
 #include <util_quda.h>
 #include <blas_quda.h>

 #include <misc.h>
 #include <test_util.h>
 #include <dslash_util.h>
 #include <staggered_dslash_reference.h>
 #include <staggered_gauge_utils.h>
 #include "llfat_reference.h"
 #include <gauge_field.h>
 #include <unitarization_links.h>

 #if defined(QMP_COMMS)
 #include <qmp.h>
 #elif defined(MPI_COMMS)
 #include <mpi.h>
 #endif

 #include <qio_field.h>

 #include <assert.h>
 #include <gtest/gtest.h>

 using namespace quda;

 #define MAX(a,b) ((a)>(b)?(a):(b))
 #define staggeredSpinorSiteSize 6
 // What test are we doing (0 = dslash, 1 = MatPC, 2 = Mat)
 extern int test_type;

 extern void usage(char** argv );

 // Only load the gauge from a file once.
 bool gauge_loaded = false;
 void *qdp_inlink[4] = { nullptr, nullptr, nullptr, nullptr };

 QudaGaugeParam gauge_param;
 QudaInvertParam inv_param;

 cpuGaugeField *cpuFat = NULL;
 cpuGaugeField *cpuLong = NULL;

 cpuColorSpinorField *spinor, *spinorOut, *spinorRef, *tmpCpu;
 cudaColorSpinorField *cudaSpinor, *cudaSpinorOut;

 cudaColorSpinorField* tmp;

 // In the HISQ case, we include building fat/long links in this unit test
 void *qdp_fatlink_cpu[4], *qdp_longlink_cpu[4];
 void **ghost_fatlink_cpu, **ghost_longlink_cpu;

 // To speed up the unit test, build the CPU field once per partition
 #ifdef MULTI_GPU
 void *qdp_fatlink_cpu_backup[16][4];
 void *qdp_longlink_cpu_backup[16][4];
 void *qdp_inlink_backup[16][4];
 #else
 void *qdp_fatlink_cpu_backup[1][4];
 void *qdp_longlink_cpu_backup[1][4];
 void *qdp_inlink_backup[1][4];
 #endif
 bool global_skip = true; // hack to skip tests


 QudaParity parity = QUDA_EVEN_PARITY;
 extern QudaDagType dagger;
 extern int xdim;
 extern int ydim;
 extern int zdim;
 extern int tdim;
 extern int gridsize_from_cmdline[];
 extern int device;
 extern bool verify_results;
 extern int niter;
 extern double mass; // the mass of the Dirac operator
 extern double kappa; // will get overriden
 extern bool compute_fatlong; // build the true fat/long links or use random numbers
 extern QudaDslashType dslash_type;

 // extern double tadpole_factor;
 extern double eps_naik; // relativistic correction for naik term
 static int n_naiks = 1; // Number of naiks. If eps_naik is 0.0, we only need to construct one naik.

 extern char latfile[];

 int X[4];
 extern int Nsrc; // number of spinors to apply to simultaneously

 Dirac* dirac;

 const char *prec_str[] = {"quarter", "half", "single", "double"};
 const char *recon_str[] = {"r18", "r13", "r9"};

 // For loading the gauge fields
 int argc_copy;
 char** argv_copy;

 double getTolerance(QudaPrecision prec)
 {
   switch (prec) {
   case QUDA_QUARTER_PRECISION: return 1e-1;
   case QUDA_HALF_PRECISION: return 1e-3;
   case QUDA_SINGLE_PRECISION: return 1e-4;
   case QUDA_DOUBLE_PRECISION: return 1e-11;
   case QUDA_INVALID_PRECISION: return 1.0;
   }
   return 1.0;
 }

 void init(int precision, QudaReconstructType link_recon, int partition)
 {
   auto prec = getPrecision(precision);

   setVerbosity(QUDA_SUMMARIZE);

   gauge_param = newQudaGaugeParam();
   inv_param = newQudaInvertParam();

   gauge_param.X[0] = X[0] = xdim;
   gauge_param.X[1] = X[1] = ydim;
   gauge_param.X[2] = X[2] = zdim;
   gauge_param.X[3] = X[3] = tdim;

   setDims(gauge_param.X);
   dw_setDims(gauge_param.X, Nsrc); // so we can use 5-d indexing from dwf
   setSpinorSiteSize(6);

   gauge_param.cpu_prec = QUDA_DOUBLE_PRECISION;
   gauge_param.cuda_prec = prec;         // Test parameter
   gauge_param.reconstruct = link_recon; // Test parameter
   gauge_param.reconstruct_sloppy = gauge_param.reconstruct;
   gauge_param.cuda_prec_sloppy = gauge_param.cuda_prec;

   // ensure that the default is improved staggered
   if (dslash_type != QUDA_STAGGERED_DSLASH &&
     dslash_type != QUDA_ASQTAD_DSLASH &&
     dslash_type != QUDA_LAPLACE_DSLASH) {
     dslash_type = QUDA_ASQTAD_DSLASH;
   }

   gauge_param.anisotropy = 1.0;

   // For HISQ, this must always be set to 1.0, since the tadpole
   // correction is baked into the coefficients for the first fattening.
   // The tadpole doesn't mean anything for the second fattening
   // since the input fields are unitarized.
   gauge_param.tadpole_coeff = 1.0;
   if (dslash_type == QUDA_ASQTAD_DSLASH) {
     gauge_param.scale = -1.0 / 24.0;
     if (eps_naik != 0) { gauge_param.scale *= (1.0 + eps_naik); }
   } else {
     gauge_param.scale = 1.0;
   }
   gauge_param.gauge_order = QUDA_MILC_GAUGE_ORDER;
   gauge_param.t_boundary = QUDA_ANTI_PERIODIC_T;
   gauge_param.staggered_phase_type = QUDA_STAGGERED_PHASE_MILC;
   gauge_param.gauge_fix = QUDA_GAUGE_FIXED_NO;
   gauge_param.type = QUDA_WILSON_LINKS;

   inv_param.cpu_prec = QUDA_DOUBLE_PRECISION;
   inv_param.cuda_prec = prec; // Test parameter
   inv_param.dirac_order = QUDA_DIRAC_ORDER;
   inv_param.gamma_basis = QUDA_DEGRAND_ROSSI_GAMMA_BASIS;
   inv_param.dagger = dagger;
   inv_param.matpc_type = QUDA_MATPC_EVEN_EVEN;
   inv_param.dslash_type = dslash_type;
   inv_param.mass = mass;
   inv_param.kappa = kappa = 1.0/(8.0+mass); // for laplace
   inv_param.mass_normalization = QUDA_MASS_NORMALIZATION;
   inv_param.dslash_type = dslash_type;

   inv_param.input_location = QUDA_CPU_FIELD_LOCATION;
   inv_param.output_location = QUDA_CPU_FIELD_LOCATION;

   int tmpint = MAX(X[1] * X[2] * X[3], X[0] * X[2] * X[3]);
   tmpint = MAX(tmpint, X[0] * X[1] * X[3]);
   tmpint = MAX(tmpint, X[0] * X[1] * X[2]);

   gauge_param.ga_pad = tmpint;
   inv_param.sp_pad = tmpint;

   size_t gSize = (gauge_param.cpu_prec == QUDA_DOUBLE_PRECISION) ? sizeof(double) : sizeof(float);

   // Allocate a lot of memory because I'm very confused
   void* milc_fatlink_cpu = malloc(4*V*gaugeSiteSize*gSize);
   void* milc_longlink_cpu = malloc(4*V*gaugeSiteSize*gSize);

   void* milc_fatlink_gpu = malloc(4*V*gaugeSiteSize*gSize);
   void* milc_longlink_gpu = malloc(4*V*gaugeSiteSize*gSize);

   void* qdp_fatlink_gpu[4];
   void* qdp_longlink_gpu[4];

   for (int dir = 0; dir < 4; dir++) {
     qdp_fatlink_gpu[dir] = malloc(V*gaugeSiteSize*gSize);
     qdp_longlink_gpu[dir] = malloc(V*gaugeSiteSize*gSize);

     qdp_fatlink_cpu[dir] = malloc(V*gaugeSiteSize*gSize);
     qdp_longlink_cpu[dir] = malloc(V*gaugeSiteSize*gSize);

     if (qdp_fatlink_gpu[dir] == NULL || qdp_longlink_gpu[dir] == NULL ||
           qdp_fatlink_cpu[dir] == NULL || qdp_longlink_cpu[dir] == NULL) {
       errorQuda("ERROR: malloc failed for fatlink/longlink");
     }
   }

   // create a base field
   for (int dir = 0; dir < 4; dir++) {
     if (qdp_inlink[dir] == nullptr) {
       qdp_inlink[dir] = malloc(V*gaugeSiteSize*gSize);
     }
   }

   // load a field WITHOUT PHASES
   if (strcmp(latfile,"")) {
     if (!gauge_loaded) {
       read_gauge_field(latfile, qdp_inlink, gauge_param.cpu_prec, gauge_param.X, argc_copy, argv_copy);
       if (dslash_type != QUDA_LAPLACE_DSLASH) {
         applyGaugeFieldScaling_long(qdp_inlink, Vh, &gauge_param, QUDA_STAGGERED_DSLASH, gauge_param.cpu_prec);
       }
       gauge_loaded = true;
     } // else it's already been loaded
   } else {
     if (dslash_type == QUDA_LAPLACE_DSLASH) {
       construct_gauge_field(qdp_inlink, 1, gauge_param.cpu_prec, &gauge_param);
     } else {
       construct_fat_long_gauge_field(qdp_inlink, qdp_longlink_cpu, 1, gauge_param.cpu_prec, &gauge_param,
                                      compute_fatlong ? QUDA_STAGGERED_DSLASH : dslash_type);
     }
   }

   // QUDA_STAGGERED_DSLASH follows the same codepath whether or not you
   // "compute" the fat/long links or not.
   if (dslash_type == QUDA_STAGGERED_DSLASH || dslash_type == QUDA_LAPLACE_DSLASH) {
     for (int dir = 0; dir < 4; dir++) {
       memcpy(qdp_fatlink_gpu[dir],qdp_inlink[dir], V*gaugeSiteSize*gSize);
       memcpy(qdp_fatlink_cpu[dir],qdp_inlink[dir], V*gaugeSiteSize*gSize);
       memset(qdp_longlink_gpu[dir],0,V*gaugeSiteSize*gSize);
       memset(qdp_longlink_cpu[dir],0,V*gaugeSiteSize*gSize);
     }
   } else { // QUDA_ASQTAD_DSLASH

     if (compute_fatlong) {
       computeFatLongGPUandCPU(qdp_fatlink_gpu, qdp_longlink_gpu, qdp_fatlink_cpu, qdp_longlink_cpu, qdp_inlink,
                               gauge_param, gSize, n_naiks, eps_naik);
     } else { //

       for (int dir = 0; dir < 4; dir++) {
         memcpy(qdp_fatlink_gpu[dir],qdp_inlink[dir], V*gaugeSiteSize*gSize);
         memcpy(qdp_fatlink_cpu[dir],qdp_inlink[dir], V*gaugeSiteSize*gSize);
         memcpy(qdp_longlink_gpu[dir],qdp_longlink_cpu[dir],V*gaugeSiteSize*gSize);
       }
     }
   }

   // Alright, we've created all the void** links.
   // Create the void* pointers
   reorderQDPtoMILC(milc_fatlink_gpu, qdp_fatlink_gpu, V, gaugeSiteSize, gauge_param.cpu_prec, gauge_param.cpu_prec);
   reorderQDPtoMILC(milc_fatlink_cpu, qdp_fatlink_cpu, V, gaugeSiteSize, gauge_param.cpu_prec, gauge_param.cpu_prec);
   reorderQDPtoMILC(milc_longlink_gpu, qdp_longlink_gpu, V, gaugeSiteSize, gauge_param.cpu_prec, gauge_param.cpu_prec);
   reorderQDPtoMILC(milc_longlink_cpu, qdp_longlink_cpu, V, gaugeSiteSize, gauge_param.cpu_prec, gauge_param.cpu_prec);
   // Create ghost zones for CPU fields,
   // prepare and load the GPU fields

 #ifdef MULTI_GPU

   gauge_param.type = (dslash_type == QUDA_ASQTAD_DSLASH) ? QUDA_ASQTAD_FAT_LINKS : QUDA_SU3_LINKS;
   gauge_param.reconstruct = QUDA_RECONSTRUCT_NO;
   GaugeFieldParam cpuFatParam(milc_fatlink_cpu, gauge_param);
   cpuFatParam.ghostExchange = QUDA_GHOST_EXCHANGE_PAD;
   cpuFat = new cpuGaugeField(cpuFatParam);
   ghost_fatlink_cpu = cpuFat->Ghost();

   gauge_param.type = QUDA_ASQTAD_LONG_LINKS;
   GaugeFieldParam cpuLongParam(milc_longlink_cpu, gauge_param);
   cpuLongParam.ghostExchange = QUDA_GHOST_EXCHANGE_PAD;
   cpuLong = new cpuGaugeField(cpuLongParam);
   ghost_longlink_cpu = cpuLong->Ghost();

   int x_face_size = X[1]*X[2]*X[3]/2;
   int y_face_size = X[0]*X[2]*X[3]/2;
   int z_face_size = X[0]*X[1]*X[3]/2;
   int t_face_size = X[0]*X[1]*X[2]/2;
   int pad_size = MAX(x_face_size, y_face_size);
   pad_size = MAX(pad_size, z_face_size);
   pad_size = MAX(pad_size, t_face_size);
   gauge_param.ga_pad = pad_size;
 #endif

   gauge_param.type = (dslash_type == QUDA_ASQTAD_DSLASH) ? QUDA_ASQTAD_FAT_LINKS : QUDA_SU3_LINKS;
   if (dslash_type == QUDA_STAGGERED_DSLASH) {
     gauge_param.reconstruct = gauge_param.reconstruct_sloppy = (link_recon == QUDA_RECONSTRUCT_12) ?
       QUDA_RECONSTRUCT_13 :
       (link_recon == QUDA_RECONSTRUCT_8) ? QUDA_RECONSTRUCT_9 : link_recon;
   } else {
     gauge_param.reconstruct = gauge_param.reconstruct_sloppy = QUDA_RECONSTRUCT_NO;
   }

   loadGaugeQuda(milc_fatlink_gpu, &gauge_param);

   gauge_param.type = QUDA_ASQTAD_LONG_LINKS;

 #ifdef MULTI_GPU
   gauge_param.ga_pad = 3 * pad_size;
 #endif

   if (dslash_type == QUDA_ASQTAD_DSLASH) {
     gauge_param.staggered_phase_type = QUDA_STAGGERED_PHASE_NO;
     gauge_param.reconstruct = gauge_param.reconstruct_sloppy = (link_recon == QUDA_RECONSTRUCT_12) ?
       QUDA_RECONSTRUCT_13 :
       (link_recon == QUDA_RECONSTRUCT_8) ? QUDA_RECONSTRUCT_9 : link_recon;

     loadGaugeQuda(milc_longlink_gpu, &gauge_param);
   }

   ColorSpinorParam csParam;
   csParam.nColor = 3;
   csParam.nSpin = 1;
   csParam.nDim = 5;
   for (int d = 0; d < 4; d++) { csParam.x[d] = gauge_param.X[d]; }
   csParam.x[4] = Nsrc; // number of sources becomes the fifth dimension

   csParam.setPrecision(inv_param.cpu_prec);
   inv_param.solution_type = QUDA_MAT_SOLUTION;
   csParam.pad = 0;
   if (test_type < 2 && dslash_type != QUDA_LAPLACE_DSLASH) {
     csParam.siteSubset = QUDA_PARITY_SITE_SUBSET;
     csParam.x[0] /= 2;
   } else {
     csParam.siteSubset = QUDA_FULL_SITE_SUBSET;
   }

   csParam.siteOrder = QUDA_EVEN_ODD_SITE_ORDER;
   csParam.fieldOrder = QUDA_SPACE_SPIN_COLOR_FIELD_ORDER;
   csParam.gammaBasis = inv_param.gamma_basis; // this parameter is meaningless for staggered
   csParam.create = QUDA_ZERO_FIELD_CREATE;

   spinor = new cpuColorSpinorField(csParam);
   spinorOut = new cpuColorSpinorField(csParam);
   spinorRef = new cpuColorSpinorField(csParam);
   tmpCpu = new cpuColorSpinorField(csParam);

   // printfQuda("Randomizing fields ...\n");

   spinor->Source(QUDA_RANDOM_SOURCE);

   csParam.fieldOrder = QUDA_FLOAT2_FIELD_ORDER;
   csParam.pad = inv_param.sp_pad;
   csParam.setPrecision(inv_param.cuda_prec);

   // printfQuda("Creating cudaSpinor\n");
   cudaSpinor = new cudaColorSpinorField(csParam);

   // printfQuda("Creating cudaSpinorOut\n");
   cudaSpinorOut = new cudaColorSpinorField(csParam);

   // printfQuda("Sending spinor field to GPU\n");
   *cudaSpinor = *spinor;

   cudaDeviceSynchronize();
   checkCudaError();

   tmp = new cudaColorSpinorField(csParam);

   bool pc = (test_type == 1); // For test_type 0, can use either pc or not pc
                               // because both call the same "Dslash" directly.
   DiracParam diracParam;
   setDiracParam(diracParam, &inv_param, pc);

   diracParam.tmp1 = tmp;

   dirac = Dirac::create(diracParam);

   for (int dir = 0; dir < 4; dir++) {
     free(qdp_fatlink_gpu[dir]); qdp_fatlink_gpu[dir] = nullptr;
     free(qdp_longlink_gpu[dir]); qdp_longlink_gpu[dir] = nullptr;
   }
   free(milc_fatlink_gpu); milc_fatlink_gpu = nullptr;
   free(milc_longlink_gpu); milc_longlink_gpu = nullptr;
   free(milc_fatlink_cpu); milc_fatlink_cpu = nullptr;
   free(milc_longlink_cpu); milc_longlink_cpu = nullptr;

   gauge_param.reconstruct = link_recon;

   return;
 }

 void end(void)
 {
   for (int dir = 0; dir < 4; dir++) {
     if (qdp_fatlink_cpu[dir] != nullptr) { free(qdp_fatlink_cpu[dir]); qdp_fatlink_cpu[dir] = nullptr; }
     if (qdp_longlink_cpu[dir] != nullptr) { free(qdp_longlink_cpu[dir]); qdp_longlink_cpu[dir] = nullptr; }
   }

   if (dirac != nullptr) {
     delete dirac;
     dirac = nullptr;
   }
   if (cudaSpinor != nullptr) {
     delete cudaSpinor;
     cudaSpinor = nullptr;
   }
   if (cudaSpinorOut != nullptr) {
     delete cudaSpinorOut;
     cudaSpinorOut = nullptr;
   }
   if (tmp != nullptr) {
     delete tmp;
     tmp = nullptr;
   }

   if (spinor != nullptr) { delete spinor; spinor = nullptr; }
   if (spinorOut != nullptr) { delete spinorOut; spinorOut = nullptr; }
   if (spinorRef != nullptr) { delete spinorRef; spinorRef = nullptr; }
   if (tmpCpu != nullptr) { delete tmpCpu; tmpCpu = nullptr; }

   freeGaugeQuda();

   if (cpuFat) { delete cpuFat; cpuFat = nullptr; }
   if (cpuLong) { delete cpuLong; cpuLong = nullptr; }
   commDimPartitionedReset();
 }

 struct DslashTime {
   double event_time;
   double cpu_time;
   double cpu_min;
   double cpu_max;

   DslashTime() : event_time(0.0), cpu_time(0.0), cpu_min(DBL_MAX), cpu_max(0.0) {}
 };

 DslashTime dslashCUDA(int niter) {

   DslashTime dslash_time;
   timeval tstart, tstop;

   cudaEvent_t start, end;
   cudaEventCreate(&start);
   cudaEventRecord(start, 0);
   cudaEventSynchronize(start);

   comm_barrier();
   cudaEventRecord(start, 0);

   for (int i = 0; i < niter; i++) {

     gettimeofday(&tstart, NULL);

     switch (test_type) {
     case 0: dirac->Dslash(*cudaSpinorOut, *cudaSpinor, parity); break;
     case 1: dirac->M(*cudaSpinorOut, *cudaSpinor); break;
     case 2: dirac->M(*cudaSpinorOut, *cudaSpinor); break;
     }

     gettimeofday(&tstop, NULL);
     long ds = tstop.tv_sec - tstart.tv_sec;
     long dus = tstop.tv_usec - tstart.tv_usec;
     double elapsed = ds + 0.000001*dus;

     dslash_time.cpu_time += elapsed;
     // skip first and last iterations since they may skew these metrics if comms are not synchronous
     if (i>0 && i<niter) {
       if (elapsed < dslash_time.cpu_min) dslash_time.cpu_min = elapsed;
       if (elapsed > dslash_time.cpu_max) dslash_time.cpu_max = elapsed;
     }
   }

   cudaEventCreate(&end);
   cudaEventRecord(end, 0);
   cudaEventSynchronize(end);
   float runTime;
   cudaEventElapsedTime(&runTime, start, end);
   cudaEventDestroy(start);
   cudaEventDestroy(end);

   dslash_time.event_time = runTime / 1000;

   // check for errors
   cudaError_t stat = cudaGetLastError();
   if (stat != cudaSuccess)
     errorQuda("with ERROR: %s\n", cudaGetErrorString(stat));

   return dslash_time;
 }

 void staggeredDslashRef()
 {

   // compare to dslash reference implementation
   // printfQuda("Calculating reference implementation...");
   fflush(stdout);
   switch (test_type) {
     case 0:
       staggered_dslash(spinorRef, qdp_fatlink_cpu, qdp_longlink_cpu, ghost_fatlink_cpu, ghost_longlink_cpu, spinor,
                        parity, dagger, inv_param.cpu_prec, gauge_param.cpu_prec, dslash_type);
       break;
     case 1:
       matdagmat(spinorRef, qdp_fatlink_cpu, qdp_longlink_cpu, ghost_fatlink_cpu, ghost_longlink_cpu, spinor, mass, 0,
                 inv_param.cpu_prec, gauge_param.cpu_prec, tmpCpu, parity, dslash_type);
       break;
     case 2:
       // The !dagger is to compensate for the convention of actually
       // applying -D_eo and -D_oe.
       staggered_dslash(reinterpret_cast<cpuColorSpinorField *>(&spinorRef->Even()), qdp_fatlink_cpu, qdp_longlink_cpu,
                        ghost_fatlink_cpu, ghost_longlink_cpu, reinterpret_cast<cpuColorSpinorField *>(&spinor->Odd()),
                        QUDA_EVEN_PARITY, !dagger, inv_param.cpu_prec, gauge_param.cpu_prec, dslash_type);
       staggered_dslash(reinterpret_cast<cpuColorSpinorField *>(&spinorRef->Odd()), qdp_fatlink_cpu, qdp_longlink_cpu,
                        ghost_fatlink_cpu, ghost_longlink_cpu, reinterpret_cast<cpuColorSpinorField *>(&spinor->Even()),
                        QUDA_ODD_PARITY, !dagger, inv_param.cpu_prec, gauge_param.cpu_prec, dslash_type);
       if (dslash_type == QUDA_LAPLACE_DSLASH) {
         xpay(spinor->V(), kappa, spinorRef->V(), spinor->Length(), gauge_param.cpu_prec);
       } else {
         axpy(2 * mass, spinor->V(), spinorRef->V(), spinor->Length(), gauge_param.cpu_prec);
       }
       break;
     default:
       errorQuda("Test type not defined");
   }

 }

 void display_test_info(int precision, QudaReconstructType link_recon)
 {
   auto prec = precision == 2 ? QUDA_DOUBLE_PRECISION : precision  == 1 ? QUDA_SINGLE_PRECISION : QUDA_HALF_PRECISION;

   printfQuda("prec recon   test_type     dagger   S_dim         T_dimension\n");
   printfQuda("%s   %s       %d           %d       %d/%d/%d        %d \n", get_prec_str(prec), get_recon_str(link_recon),
              test_type, dagger, xdim, ydim, zdim, tdim);
   return ;

 }

 using ::testing::TestWithParam;
 using ::testing::Bool;
 using ::testing::Values;
 using ::testing::Range;
 using ::testing::Combine;


 void usage_extra(char** argv )
 {
   printfQuda("Extra options:\n");
   printfQuda("    --test <0/1>                             # Test method\n");
   printfQuda("                                                0: Even destination spinor\n");
   printfQuda("                                                1: Odd destination spinor\n");
   return ;
 }

 using ::testing::TestWithParam;
 using ::testing::Bool;
 using ::testing::Values;
 using ::testing::Range;
 using ::testing::Combine;

 class StaggeredDslashTest : public ::testing::TestWithParam<::testing::tuple<int, int, int>> {
 protected:
   ::testing::tuple<int, int, int> param;

   bool skip()
   {
     QudaReconstructType recon = static_cast<QudaReconstructType>(::testing::get<1>(GetParam()));

     if ((QUDA_PRECISION & getPrecision(::testing::get<0>(GetParam()))) == 0
         || (QUDA_RECONSTRUCT & getReconstructNibble(recon)) == 0) {
       return true;
     }

     if (dslash_type == QUDA_ASQTAD_DSLASH && compute_fatlong
         && (::testing::get<0>(GetParam()) == 0 || ::testing::get<0>(GetParam()) == 1)) {
       warningQuda("Fixed precision unsupported in fat/long compute, skipping...");
       return true;
     }

     if (dslash_type == QUDA_ASQTAD_DSLASH && compute_fatlong && (getReconstructNibble(recon) & 1)) {
       warningQuda("Reconstruct 9 unsupported in fat/long compute, skipping...");
       return true;
     }

     if (dslash_type == QUDA_LAPLACE_DSLASH && (::testing::get<0>(GetParam()) == 0 || ::testing::get<0>(GetParam()) == 1)) {
       warningQuda("Fixed precision unsupported for Laplace operator, skipping...");
       return true;
     }
     return false;
   }

 public:
   virtual ~StaggeredDslashTest() { }
   virtual void SetUp() {
     int prec = ::testing::get<0>(GetParam());
     QudaReconstructType recon = static_cast<QudaReconstructType>(::testing::get<1>(GetParam()));

     if (skip()) GTEST_SKIP();

     int value = ::testing::get<2>(GetParam());
     for(int j=0; j < 4;j++){
       if (value &  (1 << j)){
         commDimPartitionedSet(j);
       }

     }
     updateR();

     for (int dir = 0; dir < 4; dir++) {
       qdp_fatlink_cpu[dir] = nullptr;
       qdp_longlink_cpu[dir] = nullptr;
     }

     dirac = nullptr;
     cudaSpinor = nullptr;
     cudaSpinorOut = nullptr;
     tmp = nullptr;

     spinor = nullptr;
     spinorOut = nullptr;
     spinorRef = nullptr;
     tmpCpu = nullptr;

     init(prec, recon, value);
     display_test_info(prec, recon);
   }

   virtual void TearDown()
   {
     if (skip()) GTEST_SKIP();
     end();
   }

   static void SetUpTestCase() { initQuda(device); }

   // Per-test-case tear-down.
   // Called after the last test in this test case.
   // Can be omitted if not needed.
   static void TearDownTestCase() { endQuda(); }
 };

  TEST_P(StaggeredDslashTest, verify) {
    double deviation = 1.0;
    double tol = getTolerance(inv_param.cuda_prec);

    bool failed = false; // for the nan catch

    // check for skip_kernel
    if (spinorRef != nullptr) {

      { // warm-up run
        // printfQuda("Tuning...\n");
        dslashCUDA(1);
      }

      dslashCUDA(2);

      *spinorOut = *cudaSpinorOut;

      staggeredDslashRef();

      double spinor_ref_norm2 = blas::norm2(*spinorRef);
      double spinor_out_norm2 = blas::norm2(*spinorOut);

      // for verification
      // printfQuda("\n\nCUDA: %f\n\n", ((double*)(spinorOut->V()))[0]);
      // printfQuda("\n\nCPU:  %f\n\n", ((double*)(spinorRef->V()))[0]);

      // Catching nans is weird.
      if (std::isnan(spinor_ref_norm2)) { failed = true; }
      if (std::isnan(spinor_out_norm2)) { failed = true; }

      double cuda_spinor_out_norm2 = blas::norm2(*cudaSpinorOut);
      printfQuda("Results: CPU=%f, CUDA=%f, CPU-CUDA=%f\n", spinor_ref_norm2, cuda_spinor_out_norm2, spinor_out_norm2);
      deviation = pow(10, -(double)(cpuColorSpinorField::Compare(*spinorRef, *spinorOut)));
      if (failed) { deviation = 1.0; }
    }
     ASSERT_LE(deviation, tol) << "CPU and CUDA implementations do not agree";
   }

 TEST_P(StaggeredDslashTest, benchmark) {

   { // warm-up run
     // printfQuda("Tuning...\n");
     dslashCUDA(1);
   }

   // reset flop counter
   dirac->Flops();

   DslashTime dslash_time = dslashCUDA(niter);

   *spinorOut = *cudaSpinorOut;

   printfQuda("%fus per kernel call\n", 1e6 * dslash_time.event_time / niter);

   unsigned long long flops = dirac->Flops();
   double gflops = 1.0e-9 * flops / dslash_time.event_time;
   printfQuda("GFLOPS = %f\n", gflops);
   RecordProperty("Gflops", std::to_string(gflops));

   RecordProperty("Halo_bidirectitonal_BW_GPU", 1.0e-9 * 2 * cudaSpinor->GhostBytes() * niter / dslash_time.event_time);
   RecordProperty("Halo_bidirectitonal_BW_CPU", 1.0e-9 * 2 * cudaSpinor->GhostBytes() * niter / dslash_time.cpu_time);
   RecordProperty("Halo_bidirectitonal_BW_CPU_min", 1.0e-9 * 2 * cudaSpinor->GhostBytes() / dslash_time.cpu_max);
   RecordProperty("Halo_bidirectitonal_BW_CPU_max", 1.0e-9 * 2 * cudaSpinor->GhostBytes() / dslash_time.cpu_min);
   RecordProperty("Halo_message_size_bytes", 2 * cudaSpinor->GhostBytes());

   printfQuda("Effective halo bi-directional bandwidth (GB/s) GPU = %f ( CPU = %f, min = %f , max = %f ) for aggregate "
              "message size %lu bytes\n",
       1.0e-9 * 2 * cudaSpinor->GhostBytes() * niter / dslash_time.event_time,
       1.0e-9 * 2 * cudaSpinor->GhostBytes() * niter / dslash_time.cpu_time,
       1.0e-9 * 2 * cudaSpinor->GhostBytes() / dslash_time.cpu_max,
       1.0e-9 * 2 * cudaSpinor->GhostBytes() / dslash_time.cpu_min, 2 * cudaSpinor->GhostBytes());
 }

   int main(int argc, char **argv)
   {
     // hack for loading gauge fields
     argc_copy = argc;
     argv_copy = argv;

     // initialize CPU field backup
     int pmax = 1;
 #ifdef MULTI_GPU
     pmax = 16;
 #endif
     for (int p = 0; p < pmax; p++) {
       for (int d = 0; d < 4; d++) {
         qdp_fatlink_cpu_backup[p][d] = nullptr;
         qdp_longlink_cpu_backup[p][d] = nullptr;
         qdp_inlink_backup[p][d] = nullptr;
       }
     }

     // initalize google test
     ::testing::InitGoogleTest(&argc, argv);
     for (int i = 1; i < argc; i++) {

       if (process_command_line_option(argc, argv, &i) == 0) { continue; }

       fprintf(stderr, "ERROR: Invalid option:%s\n", argv[i]);
       usage(argv);
     }

     initComms(argc, argv, gridsize_from_cmdline);

     // Ensure that the default is improved staggered
     if (dslash_type != QUDA_STAGGERED_DSLASH &&
         dslash_type != QUDA_ASQTAD_DSLASH &&
         dslash_type != QUDA_LAPLACE_DSLASH) {
       warningQuda("The dslash_type %d isn't staggered, asqtad, or laplace. Defaulting to asqtad.\n", dslash_type);
       dslash_type = QUDA_ASQTAD_DSLASH;
     }

     // Sanity check: if you pass in a gauge field, want to test the asqtad/hisq dslash, and don't
     // ask to build the fat/long links... it doesn't make sense.
     if (strcmp(latfile,"") && !compute_fatlong && dslash_type == QUDA_ASQTAD_DSLASH) {
       errorQuda("Cannot load a gauge field and test the ASQTAD/HISQ operator without setting \"--compute-fat-long true\".\n");
       compute_fatlong = true;
     }

     // Set n_naiks to 2 if eps_naik != 0.0
     if (dslash_type == QUDA_ASQTAD_DSLASH) {
       if (eps_naik != 0.0) {
         if (compute_fatlong) {
           n_naiks = 2;
           printfQuda("Note: epsilon-naik != 0, testing epsilon correction links.\n");
         } else {
           eps_naik = 0.0;
           printfQuda("Not computing fat-long, ignoring epsilon correction.\n");
         }
       } else {
         printfQuda("Note: epsilon-naik = 0, testing original HISQ links.\n");
       }
     }

     if (dslash_type == QUDA_LAPLACE_DSLASH) {
       if (test_type != 2) { errorQuda("Test type %d is not supported for the Laplace operator.\n", test_type); }
     }

     // return result of RUN_ALL_TESTS
     int test_rc = RUN_ALL_TESTS();

     // Clean up loaded gauge field
     for (int dir = 0; dir < 4; dir++) {
       if (qdp_inlink[dir] != nullptr) { free(qdp_inlink[dir]); qdp_inlink[dir] = nullptr; }
     }

     // Clean up per-partition backup
     for (int p = 0; p < pmax; p++) {
       for (int d = 0; d < 4; d++) {
         if (qdp_inlink_backup[p][d] != nullptr) { free(qdp_inlink_backup[p][d]); qdp_inlink_backup[p][d] = nullptr; }
         if (qdp_fatlink_cpu_backup[p][d] != nullptr) {
           free(qdp_fatlink_cpu_backup[p][d]);
           qdp_fatlink_cpu_backup[p][d] = nullptr;
         }
         if (qdp_longlink_cpu_backup[p][d] != nullptr) {
           free(qdp_longlink_cpu_backup[p][d]);
           qdp_longlink_cpu_backup[p][d] = nullptr;
         }
       }
     }

     finalizeComms();

     return test_rc;
   }

   std::string getstaggereddslashtestname(testing::TestParamInfo<::testing::tuple<int, int, int>> param){
    const int prec = ::testing::get<0>(param.param);
    const int recon = ::testing::get<1>(param.param);
    const int part = ::testing::get<2>(param.param);
    std::stringstream ss;
    // ss << get_dslash_str(dslash_type) << "_";
    ss << prec_str[prec];
    ss << "_r" << recon;
    ss << "_partition" << part;
    return ss.str();
   }

 #ifdef MULTI_GPU
   INSTANTIATE_TEST_SUITE_P(QUDA, StaggeredDslashTest,
                            Combine(Range(0, 4),
                                    ::testing::Values(QUDA_RECONSTRUCT_NO, QUDA_RECONSTRUCT_12, QUDA_RECONSTRUCT_8),
                                    Range(0, 16)),
                            getstaggereddslashtestname);
 #else
   INSTANTIATE_TEST_SUITE_P(QUDA, StaggeredDslashTest,
                            Combine(Range(0, 4),
                                    ::testing::Values(QUDA_RECONSTRUCT_NO, QUDA_RECONSTRUCT_12, QUDA_RECONSTRUCT_8),
                                    ::testing::Values(0)),
                            getstaggereddslashtestname);
 #endif
Nsrc
int Nsrc
Definition: test_util.cpp:1627

computeFatLongGPUandCPU
void computeFatLongGPUandCPU(void **qdp_fatlink_gpu, void **qdp_longlink_gpu, void **qdp_fatlink_cpu, void **qdp_longlink_cpu, void **qdp_inlink, QudaGaugeParam &gauge_param, size_t gSize, int n_naiks, double eps_naik)
Definition: staggered_gauge_utils.cpp:210

init
void init(int precision, QudaReconstructType link_recon, int partition)
Definition: staggered_dslash_ctest.cpp:120

gSize
static size_t gSize
Definition: hisq_stencil_test.cpp:48

invert_quda.h

QudaInvertParam_s::dirac_order
QudaDiracFieldOrder dirac_order
Definition: quda.h:219

dagger
QudaDagType dagger
Definition: test_util.cpp:1620

applyGaugeFieldScaling_long
void applyGaugeFieldScaling_long(Float **gauge, int Vh, QudaGaugeParam *param, QudaDslashType dslash_type)
Definition: test_util.cpp:747

QudaInvertParam_s::mass_normalization
QudaMassNormalization mass_normalization
Definition: quda.h:208

QudaGaugeParam_s::reconstruct_sloppy
QudaReconstructType reconstruct_sloppy
Definition: quda.h:53

QudaGaugeParam_s::anisotropy
double anisotropy
Definition: quda.h:38

QUDA_RECONSTRUCT_NO
Definition: enum_quda.h:67

usage_extra
void usage_extra(char **argv)
Definition: staggered_dslash_ctest.cpp:551

spinorOut
cpuColorSpinorField * spinorOut
Definition: staggered_dslash_ctest.cpp:53

quda::LatticeFieldParam::ghostExchange
QudaGhostExchange ghostExchange
Definition: lattice_field.h:76

quda::ColorSpinorParam::setPrecision
void setPrecision(QudaPrecision precision, QudaPrecision ghost_precision=QUDA_INVALID_PRECISION, bool force_native=false)
Definition: color_spinor_field.h:231

StaggeredDslashTest::~StaggeredDslashTest
virtual ~StaggeredDslashTest()
Definition: staggered_dslash_ctest.cpp:598

QUDA_MAT_SOLUTION
Definition: enum_quda.h:151

endQuda
void endQuda(void)
Definition: interface_quda.cpp:1461

construct_gauge_field
void construct_gauge_field(void **gauge, int type, QudaPrecision precision, QudaGaugeParam *param)
Definition: test_util.cpp:1047

getReconstructNibble
int getReconstructNibble(QudaReconstructType recon)
Definition: test_util.h:140

staggered_gauge_utils.h

llfat_reference.h

QudaPrecision
enum QudaPrecision_s QudaPrecision

QudaGaugeParam_s::ga_pad
int ga_pad
Definition: quda.h:63

qdp_inlink_backup
void * qdp_inlink_backup[1][4]
Definition: staggered_dslash_ctest.cpp:70

misc.h

dw_setDims
void dw_setDims(int *X, const int L5)
Definition: test_util.cpp:187

QudaGaugeParam_s::gauge_fix
QudaGaugeFixed gauge_fix
Definition: quda.h:61

INSTANTIATE_TEST_SUITE_P
INSTANTIATE_TEST_SUITE_P(QUDA, StaggeredDslashTest, Combine(Range(0, 4), ::testing::Values(QUDA_RECONSTRUCT_NO, QUDA_RECONSTRUCT_12, QUDA_RECONSTRUCT_8), ::testing::Values(0)), getstaggereddslashtestname)

QUDA_MASS_NORMALIZATION
Definition: enum_quda.h:225

quda::ColorSpinorParam::nColor
int nColor
Definition: color_spinor_field.h:85

parity
QudaParity parity
Definition: staggered_dslash_ctest.cpp:75

tmpCpu
cpuColorSpinorField * tmpCpu
Definition: staggered_dslash_ctest.cpp:53

QUDA_INVALID_PRECISION
Definition: enum_quda.h:63

QUDA_ASQTAD_DSLASH
Definition: enum_quda.h:93

inv_param
QudaInvertParam inv_param
Definition: staggered_dslash_ctest.cpp:48

QudaGaugeParam_s::type
QudaLinkType type
Definition: quda.h:42

QudaInvertParam_s::kappa
double kappa
Definition: quda.h:106

staggered_dslash_reference.h

errorQuda
#define errorQuda(...)
Definition: util_quda.h:121

quda::blas::norm2
double norm2(const ColorSpinorField &a)
Definition: reduce_quda.cu:721

QudaInvertParam_s::dslash_type
QudaDslashType dslash_type
Definition: quda.h:102

QUDA_GAUGE_FIXED_NO
Definition: enum_quda.h:77

test_util.h

QudaInvertParam_s::cuda_prec
QudaPrecision cuda_prec
Definition: quda.h:214

ydim
int ydim
Definition: test_util.cpp:1616

QUDA_QUARTER_PRECISION
Definition: enum_quda.h:59

QUDA_ODD_PARITY
Definition: enum_quda.h:288

QUDA_SPACE_SPIN_COLOR_FIELD_ORDER
Definition: enum_quda.h:350

QUDA_HALF_PRECISION
Definition: enum_quda.h:60

dslash_type
QudaDslashType dslash_type
Definition: test_util.cpp:1621

loadGaugeQuda
void loadGaugeQuda(void *h_gauge, QudaGaugeParam *param)
Definition: interface_quda.cpp:729

DslashTime::cpu_min
double cpu_min
Definition: dslash_ctest.cpp:462

commDimPartitionedSet
void commDimPartitionedSet(int dir)
Definition: comm_common.cpp:817

QUDA_WILSON_LINKS
Definition: enum_quda.h:29

QudaInvertParam_s::cpu_prec
QudaPrecision cpu_prec
Definition: quda.h:213

QUDA_SUMMARIZE
Definition: enum_quda.h:264

StaggeredDslashTest::SetUpTestCase
static void SetUpTestCase()
Definition: staggered_dslash_ctest.cpp:639

process_command_line_option
int process_command_line_option(int argc, char **argv, int *idx)
Definition: test_util.cpp:2019

quda::cpuColorSpinorField::Source
void Source(const QudaSourceType sourceType, const int st=0, const int s=0, const int c=0)
Definition: cpu_color_spinor_field.cpp:247

QUDA_FULL_SITE_SUBSET
Definition: enum_quda.h:333

quda::ColorSpinorField::Even
const ColorSpinorField & Even() const
Definition: color_spinor_field.cpp:608

xdim
int xdim
Definition: test_util.cpp:1615

quda::ColorSpinorField::Odd
const ColorSpinorField & Odd() const
Definition: color_spinor_field.cpp:616

QudaGaugeParam_s::staggered_phase_type
QudaStaggeredPhase staggered_phase_type
Definition: quda.h:71

getstaggereddslashtestname
std::string getstaggereddslashtestname(testing::TestParamInfo<::testing::tuple< int, int, int >> param)
Definition: staggered_dslash_ctest.cpp:814

QudaInvertParam_s::dagger
QudaDagType dagger
Definition: quda.h:207

recon_str
const char * recon_str[]
Definition: staggered_dslash_ctest.cpp:102

mass
double mass
Definition: test_util.cpp:1646

finalizeComms
void finalizeComms()
Definition: test_util.cpp:128

quda::cudaColorSpinorField
Definition: color_spinor_field.h:575

getTolerance
double getTolerance(QudaPrecision prec)
Definition: staggered_dslash_ctest.cpp:108

QudaGaugeParam_s::gauge_order
QudaGaugeFieldOrder gauge_order
Definition: quda.h:43

n_naiks
static int n_naiks
Definition: staggered_dslash_ctest.cpp:92

qdp_longlink_cpu_backup
void * qdp_longlink_cpu_backup[1][4]
Definition: staggered_dslash_ctest.cpp:69

dslashCUDA
DslashTime dslashCUDA(int niter)
Definition: staggered_dslash_ctest.cpp:443

util_quda.h

StaggeredDslashTest::SetUp
virtual void SetUp()
Definition: staggered_dslash_ctest.cpp:599

get_prec_str
const char * get_prec_str(QudaPrecision prec)
Definition: misc.cpp:701

quda::Dirac::Flops
unsigned long long Flops() const
Definition: dirac_quda.h:177

latfile
char latfile[]
Definition: test_util.cpp:1623

cudaSpinor
cudaColorSpinorField * cudaSpinor
Definition: staggered_dslash_ctest.cpp:54

qdp_fatlink_cpu
void * qdp_fatlink_cpu[4]
Definition: staggered_dslash_ctest.cpp:59

quda
Definition: blas_cublas.h:5

quda::LatticeFieldParam::siteSubset
QudaSiteSubset siteSubset
Definition: lattice_field.h:71

setDims
void setDims(int *)
Definition: test_util.cpp:151

QudaInvertParam_s::input_location
QudaFieldLocation input_location
Definition: quda.h:99

freeGaugeQuda
void freeGaugeQuda(void)
Definition: interface_quda.cpp:1259

spinor
cpuColorSpinorField * spinor
Definition: staggered_dslash_ctest.cpp:53

quda::blas::xpay
void xpay(ColorSpinorField &x, double a, ColorSpinorField &y)
Definition: blas_quda.h:37

dirac_quda.h

verify_results
bool verify_results
Definition: test_util.cpp:1643

param
QudaGaugeParam param
Definition: pack_test.cpp:17

quda::setDiracParam
void setDiracParam(DiracParam &diracParam, QudaInvertParam *inv_param, bool pc)
Definition: interface_quda.cpp:1562

QudaInvertParam_s::solution_type
QudaSolutionType solution_type
Definition: quda.h:204

end
void end(void)
Definition: staggered_dslash_ctest.cpp:398

quda::LatticeFieldParam::x
int x[QUDA_MAX_DIM]
Definition: lattice_field.h:67

QUDA_RECONSTRUCT_9
Definition: enum_quda.h:70

quda::GaugeFieldParam
Definition: gauge_field.h:10

quda::DiracParam
Definition: dirac_quda.h:19

QudaGaugeParam_s::scale
double scale
Definition: quda.h:40

initQuda
void initQuda(int device)
Definition: interface_quda.cpp:679

QUDA_EVEN_ODD_SITE_ORDER
Definition: enum_quda.h:340

tol
double tol
Definition: test_util.cpp:1656

getPrecision
QudaPrecision getPrecision(int i)
Definition: test_util.h:129

QudaInvertParam_s::output_location
QudaFieldLocation output_location
Definition: quda.h:100

QUDA_RECONSTRUCT_12
Definition: enum_quda.h:68

benchmark
double benchmark(int kernel, const int niter)
Definition: blas_test.cu:303

StaggeredDslashTest
Definition: staggered_dslash_ctest.cpp:566

kappa
double kappa
Definition: test_util.cpp:1647

usage
void usage(char **argv)
Definition: test_util.cpp:1783

QudaGaugeParam_s
Definition: quda.h:32

quda::ColorSpinorParam::fieldOrder
QudaFieldOrder fieldOrder
Definition: color_spinor_field.h:93

link_recon
QudaReconstructType link_recon
Definition: test_util.cpp:1605

reorderQDPtoMILC
void reorderQDPtoMILC(Out *milc_out, In **qdp_in, int V, int siteSize)
Definition: llfat_reference.cpp:856

setSpinorSiteSize
void setSpinorSiteSize(int n)
Definition: test_util.cpp:211

csParam
ColorSpinorParam csParam
Definition: pack_test.cpp:24

QUDA_MILC_GAUGE_ORDER
Definition: enum_quda.h:44

newQudaInvertParam
QudaInvertParam newQudaInvertParam(void)

test_type
int test_type
Definition: test_util.cpp:1636

get_recon_str
const char * get_recon_str(QudaReconstructType recon)
Definition: misc.cpp:768

quda::cpuGaugeField
Definition: gauge_field.h:580

DslashTime::event_time
double event_time
Definition: dslash_ctest.cpp:460

quda::ColorSpinorParam::gammaBasis
QudaGammaBasis gammaBasis
Definition: color_spinor_field.h:94

DslashTime::cpu_time
double cpu_time
Definition: dslash_ctest.cpp:461

warningQuda
#define warningQuda(...)
Definition: util_quda.h:133

StaggeredDslashTest::param
::testing::tuple< int, int, int > param
Definition: staggered_dslash_ctest.cpp:568

argv_copy
char ** argv_copy
Definition: staggered_dslash_ctest.cpp:106

quda::pow
__host__ __device__ ValueType pow(ValueType x, ExponentType e)
Definition: complex_quda.h:111

matdagmat
void matdagmat(void *out, void **link, void *in, int dagger_bit, int mu, QudaPrecision sPrecision, QudaPrecision gPrecision, void *tmp, QudaParity parity)
Definition: covdev_reference.cpp:163

QUDA_PARITY_SITE_SUBSET
Definition: enum_quda.h:332

QudaInvertParam_s::gamma_basis
QudaGammaBasis gamma_basis
Definition: quda.h:221

staggered_dslash
void staggered_dslash(cpuColorSpinorField *out, void **fatlink, void **longlink, void **ghost_fatlink, void **ghost_longlink, cpuColorSpinorField *in, int oddBit, int daggerBit, QudaPrecision sPrecision, QudaPrecision gPrecision, QudaDslashType dslash_type)
Definition: staggered_dslash_reference.cpp:132

QUDA_FLOAT2_FIELD_ORDER
Definition: enum_quda.h:348

QudaGaugeParam_s::cuda_prec_sloppy
QudaPrecision cuda_prec_sloppy
Definition: quda.h:52

quda::GaugeField::Ghost
const void ** Ghost() const
Definition: gauge_field.h:323

dslash_util.h

QudaDagType
enum QudaDagType_s QudaDagType

QUDA_LAPLACE_DSLASH
Definition: enum_quda.h:96

QudaParity
enum QudaParity_s QudaParity

QudaGaugeParam_s::reconstruct
QudaReconstructType reconstruct
Definition: quda.h:50

QudaGaugeParam_s::cuda_prec
QudaPrecision cuda_prec
Definition: quda.h:49

QUDA_ASQTAD_LONG_LINKS
Definition: enum_quda.h:31

QudaGaugeParam_s::X
int X[4]
Definition: quda.h:36

staggeredDslashRef
void staggeredDslashRef()
Definition: staggered_dslash_ctest.cpp:497

QudaInvertParam_s::mass
double mass
Definition: quda.h:105

V
int V
Definition: test_util.cpp:27

StaggeredDslashTest::TearDown
virtual void TearDown()
Definition: staggered_dslash_ctest.cpp:633

quda::LatticeFieldParam::nDim
int nDim
Definition: lattice_field.h:64

quda::cpuColorSpinorField::Compare
static int Compare(const cpuColorSpinorField &a, const cpuColorSpinorField &b, const int resolution=1)
Perform a component by component comparison of two color-spinor fields. In doing we normalize with re...
Definition: cpu_color_spinor_field.cpp:251

QudaInvertParam_s::sp_pad
int sp_pad
Definition: quda.h:246

memset
void * memset(void *s, int c, size_t n)

cpuLong
cpuGaugeField * cpuLong
Definition: staggered_dslash_ctest.cpp:51

blas_quda.h

QUDA_RECONSTRUCT_8
Definition: enum_quda.h:69

construct_fat_long_gauge_field
void construct_fat_long_gauge_field(void **fatlink, void **longlink, int type, QudaPrecision precision, QudaGaugeParam *param, QudaDslashType dslash_type)
Definition: test_util.cpp:1062

device
int device
Definition: test_util.cpp:1602

quda::Dirac::M
virtual void M(ColorSpinorField &out, const ColorSpinorField &in) const =0

StaggeredDslashTest::skip
bool skip()
Definition: staggered_dslash_ctest.cpp:570

quda::ColorSpinorParam
Definition: color_spinor_field.h:80

QUDA_DOUBLE_PRECISION
Definition: enum_quda.h:62

unitarization_links.h

prec_str
const char * prec_str[]
Definition: staggered_dslash_ctest.cpp:101

X
int X[4]
Definition: staggered_dslash_ctest.cpp:96

QudaGaugeParam_s::tadpole_coeff
double tadpole_coeff
Definition: quda.h:39

dirac
Dirac * dirac
Definition: staggered_dslash_ctest.cpp:99

QUDA_STAGGERED_DSLASH
Definition: enum_quda.h:92

QUDA_SINGLE_PRECISION
Definition: enum_quda.h:61

argc_copy
int argc_copy
Definition: staggered_dslash_ctest.cpp:105

quda::ColorSpinorParam::nSpin
int nSpin
Definition: color_spinor_field.h:86

eps_naik
double eps_naik
Definition: test_util.cpp:1652

display_test_info
void display_test_info(int precision, QudaReconstructType link_recon)
Definition: staggered_dslash_ctest.cpp:533

QudaReconstructType
enum QudaReconstructType_s QudaReconstructType

commDimPartitionedReset
void commDimPartitionedReset()
Reset the comm dim partioned array to zero,.
Definition: comm_common.cpp:819

quda.h
Main header file for the QUDA library.

qdp_inlink
void * qdp_inlink[4]
Definition: staggered_dslash_ctest.cpp:45

global_skip
bool global_skip
Definition: staggered_dslash_ctest.cpp:72

MAX
#define MAX(a, b)
Definition: staggered_dslash_ctest.cpp:36

QUDA_DEGRAND_ROSSI_GAMMA_BASIS
Definition: enum_quda.h:367

ghost_fatlink_cpu
void ** ghost_fatlink_cpu
Definition: staggered_dslash_ctest.cpp:60

dslash_quda.h

cpuFat
cpuGaugeField * cpuFat
Definition: staggered_dslash_ctest.cpp:50

printfQuda
#define printfQuda(...)
Definition: util_quda.h:115

QudaGaugeParam_s::t_boundary
QudaTboundary t_boundary
Definition: quda.h:45

DslashTime
Definition: dslash_ctest.cpp:459

quda::blas::flops
unsigned long long flops
Definition: blas_quda.cu:22

DslashTime::cpu_max
double cpu_max
Definition: dslash_ctest.cpp:463

quda::ColorSpinorParam::siteOrder
QudaSiteOrder siteOrder
Definition: color_spinor_field.h:91

QUDA_STAGGERED_PHASE_MILC
Definition: enum_quda.h:490

qio_field.h

main
int main(int argc, char **argv)
Definition: staggered_dslash_ctest.cpp:721

QUDA_DIRAC_ORDER
Definition: enum_quda.h:243

ghost_longlink_cpu
void ** ghost_longlink_cpu
Definition: staggered_dslash_ctest.cpp:60

QUDA_RECONSTRUCT_13
Definition: enum_quda.h:71

QudaDslashType
enum QudaDslashType_s QudaDslashType

QUDA_ANTI_PERIODIC_T
Definition: enum_quda.h:53

QUDA_RANDOM_SOURCE
Definition: enum_quda.h:375

compute_fatlong
bool compute_fatlong
Definition: test_util.cpp:1655

TEST_P
TEST_P(StaggeredDslashTest, verify)
Definition: staggered_dslash_ctest.cpp:647

cudaSpinorOut
cudaColorSpinorField * cudaSpinorOut
Definition: staggered_dslash_ctest.cpp:54

tdim
int tdim
Definition: test_util.cpp:1618

quda::ColorSpinorField::Length
size_t Length() const
Definition: color_spinor_field.h:413

gauge_loaded
bool gauge_loaded
Definition: staggered_dslash_ctest.cpp:44

QUDA_EVEN_PARITY
Definition: enum_quda.h:287

qdp_longlink_cpu
void * qdp_longlink_cpu[4]
Definition: staggered_dslash_ctest.cpp:59

zdim
int zdim
Definition: test_util.cpp:1617

quda::axpy
__device__ void axpy(real a, const real *x, Link &y)
Definition: clover_deriv.cuh:37

checkCudaError
#define checkCudaError()
Definition: util_quda.h:161

QUDA_ZERO_FIELD_CREATE
Definition: enum_quda.h:360

quda::Dirac::create
static Dirac * create(const DiracParam &param)
Definition: dirac.cpp:159

quda::ColorSpinorParam::create
QudaFieldCreate create
Definition: color_spinor_field.h:95

spinorRef
cpuColorSpinorField * spinorRef
Definition: staggered_dslash_ctest.cpp:53

initComms
void initComms(int argc, char **argv, int *const commDims)
Definition: test_util.cpp:88

QUDA_GHOST_EXCHANGE_PAD
Definition: enum_quda.h:483

tmp
cudaColorSpinorField * tmp
Definition: staggered_dslash_ctest.cpp:56

read_gauge_field
void read_gauge_field(const char *filename, void *gauge[], QudaPrecision prec, const int *X, int argc, char *argv[])
Definition: qio_field.h:14

QUDA_MATPC_EVEN_EVEN
Definition: enum_quda.h:210

quda::Dirac::Dslash
virtual void Dslash(ColorSpinorField &out, const ColorSpinorField &in, const QudaParity parity) const =0

quda::ColorSpinorField::GhostBytes
size_t GhostBytes() const
Definition: color_spinor_field.h:420

QUDA_SU3_LINKS
Definition: enum_quda.h:23

StaggeredDslashTest::TearDownTestCase
static void TearDownTestCase()
Definition: staggered_dslash_ctest.cpp:644

QudaInvertParam_s
Definition: quda.h:97

QUDA_CPU_FIELD_LOCATION
Definition: enum_quda.h:325

prec
QudaPrecision prec
Definition: test_util.cpp:1608

niter
int niter
Definition: test_util.cpp:1629

QUDA_ASQTAD_FAT_LINKS
Definition: enum_quda.h:30

gauge_field.h

setVerbosity
void setVerbosity(QudaVerbosity verbosity)
Definition: util_quda.cpp:25

DslashTime::DslashTime
DslashTime()
Definition: staggered_dslash_ctest.cpp:440

QudaInvertParam_s::matpc_type
QudaMatPCType matpc_type
Definition: quda.h:206

quda::DiracParam::tmp1
ColorSpinorField * tmp1
Definition: dirac_quda.h:41

QUDA_STAGGERED_PHASE_NO
Definition: enum_quda.h:489

gauge_param
QudaGaugeParam gauge_param
Definition: staggered_dslash_ctest.cpp:47

quda::cpuColorSpinorField
Definition: color_spinor_field.h:865

QudaGaugeParam_s::cpu_prec
QudaPrecision cpu_prec
Definition: quda.h:47

quda::ColorSpinorField::V
void * V()
Definition: color_spinor_field.h:424

quda::Dirac
Definition: dirac_quda.h:106

updateR
void updateR()
update the radius for halos.
Definition: interface_quda.cpp:674

gaugeSiteSize
#define gaugeSiteSize
Definition: face_gauge.cpp:34

newQudaGaugeParam
QudaGaugeParam newQudaGaugeParam(void)

gridsize_from_cmdline
int gridsize_from_cmdline[]
Definition: test_util.cpp:49

qdp_fatlink_cpu_backup
void * qdp_fatlink_cpu_backup[1][4]
Definition: staggered_dslash_ctest.cpp:68

quda_internal.h

quda::LatticeFieldParam::pad
int pad
Definition: lattice_field.h:69

comm_barrier
void comm_barrier(void)
Definition: comm_mpi.cpp:326

Vh
int Vh
Definition: test_util.cpp:28