v0.9.0/doc/staggered__dslash__ctest_8cpp_source.html

 #include <iostream>
 #include <stdio.h>
 #include <stdlib.h>
 #include <string.h>

 #include <quda.h>
 #include <quda_internal.h>
 #include <dirac_quda.h>
 #include <dslash_quda.h>
 #include <invert_quda.h>
 #include <util_quda.h>
 #include <blas_quda.h>

 #include <misc.h>
 #include <test_util.h>
 #include <dslash_util.h>
 #include <staggered_dslash_reference.h>
 #include <gauge_field.h>

 #include <assert.h>
 #include <gtest.h>

 using namespace quda;

 #define MAX(a,b) ((a)>(b)?(a):(b))
 #define staggeredSpinorSiteSize 6
 // What test are we doing (0 = dslash, 1 = MatPC, 2 = Mat)

 extern void usage(char** argv );

 extern QudaDslashType dslash_type;

 extern int test_type;

 QudaGaugeParam gaugeParam;
 QudaInvertParam inv_param;

 cpuGaugeField *cpuFat = NULL;
 cpuGaugeField *cpuLong = NULL;

 cpuColorSpinorField *spinor, *spinorOut, *spinorRef, *tmpCpu;
 cudaColorSpinorField *cudaSpinor, *cudaSpinorOut;

 cudaColorSpinorField* tmp;

 void *hostGauge[4];
 void *fatlink[4], *longlink[4];

 #ifdef MULTI_GPU
 void **ghost_fatlink, **ghost_longlink;
 #endif

 QudaParity parity = QUDA_EVEN_PARITY;
 extern QudaDagType dagger;
 int transfer = 0; // include transfer time in the benchmark?
 extern int xdim;
 extern int ydim;
 extern int zdim;
 extern int tdim;
 extern int gridsize_from_cmdline[];

 extern int device;
 extern bool verify_results;
 extern int niter;

 extern bool kernel_pack_t;

 extern double mass; // the mass of the Dirac operator

 int X[4];
 extern int Nsrc; // number of spinors to apply to simultaneously

 Dirac* dirac;

 const char *prec_str[] = {"half", "single", "double"};
 const char *recon_str[] = {"r18", "r13", "r9"};

 void init(int precision, QudaReconstructType link_recon) {

   auto prec = precision == 2 ? QUDA_DOUBLE_PRECISION : precision  == 1 ? QUDA_SINGLE_PRECISION : QUDA_HALF_PRECISION;

   setKernelPackT(kernel_pack_t);

   setVerbosity(QUDA_SUMMARIZE);

   gaugeParam = newQudaGaugeParam();
   inv_param = newQudaInvertParam();

   gaugeParam.X[0] = X[0] = xdim;
   gaugeParam.X[1] = X[1] = ydim;
   gaugeParam.X[2] = X[2] = zdim;
   gaugeParam.X[3] = X[3] = tdim;

   setDims(gaugeParam.X);
   dw_setDims(gaugeParam.X,Nsrc); // so we can use 5-d indexing from dwf
   setSpinorSiteSize(6);

   gaugeParam.cpu_prec = QUDA_DOUBLE_PRECISION;
   gaugeParam.cuda_prec = prec;
   gaugeParam.reconstruct = link_recon;
   gaugeParam.reconstruct_sloppy = gaugeParam.reconstruct;
   gaugeParam.cuda_prec_sloppy = gaugeParam.cuda_prec;

     // ensure that the default is improved staggered
   if (dslash_type != QUDA_STAGGERED_DSLASH &&
     dslash_type != QUDA_ASQTAD_DSLASH)
     dslash_type = QUDA_ASQTAD_DSLASH;

   gaugeParam.anisotropy = 1.0;
   gaugeParam.tadpole_coeff = 0.8;
   gaugeParam.scale = (dslash_type == QUDA_ASQTAD_DSLASH) ? -1.0/(24.0*gaugeParam.tadpole_coeff*gaugeParam.tadpole_coeff) : 1.0;
   gaugeParam.gauge_order = QUDA_QDP_GAUGE_ORDER;
   gaugeParam.t_boundary = QUDA_ANTI_PERIODIC_T;
   gaugeParam.gauge_fix = QUDA_GAUGE_FIXED_NO;
   gaugeParam.gaugeGiB = 0;

   inv_param.cpu_prec = QUDA_DOUBLE_PRECISION;
   inv_param.cuda_prec = prec;
   inv_param.dirac_order = QUDA_DIRAC_ORDER;
   inv_param.gamma_basis = QUDA_DEGRAND_ROSSI_GAMMA_BASIS;
   inv_param.dagger = dagger;
   inv_param.matpc_type = QUDA_MATPC_EVEN_EVEN;
   inv_param.dslash_type = dslash_type;
   inv_param.mass = mass;

   // ensure that the default is improved staggered
   if (inv_param.dslash_type != QUDA_STAGGERED_DSLASH &&
     inv_param.dslash_type != QUDA_ASQTAD_DSLASH)
     inv_param.dslash_type = QUDA_ASQTAD_DSLASH;

   inv_param.input_location = QUDA_CPU_FIELD_LOCATION;
   inv_param.output_location = QUDA_CPU_FIELD_LOCATION;

   int tmpint = MAX(X[1]*X[2]*X[3], X[0]*X[2]*X[3]);
   tmpint = MAX(tmpint, X[0]*X[1]*X[3]);
   tmpint = MAX(tmpint, X[0]*X[1]*X[2]);


   gaugeParam.ga_pad = tmpint;
   inv_param.sp_pad = tmpint;

   ColorSpinorParam csParam;
   csParam.nColor=3;
   csParam.nSpin=1;
   csParam.nDim=5;
   for(int d = 0; d < 4; d++) {
     csParam.x[d] = gaugeParam.X[d];
   }
   csParam.x[4] = Nsrc; // number of sources becomes the fifth dimension

   csParam.precision = inv_param.cpu_prec;
   csParam.pad = 0;
   if (test_type < 2) {
     inv_param.solution_type = QUDA_MATPC_SOLUTION;
     csParam.siteSubset = QUDA_PARITY_SITE_SUBSET;
     csParam.x[0] /= 2;
   } else {
     inv_param.solution_type = QUDA_MAT_SOLUTION;
     csParam.siteSubset = QUDA_FULL_SITE_SUBSET;
   }

   csParam.siteOrder = QUDA_EVEN_ODD_SITE_ORDER;
   csParam.fieldOrder  = QUDA_SPACE_SPIN_COLOR_FIELD_ORDER;
   csParam.gammaBasis = inv_param.gamma_basis; // this parameter is meaningless for staggered
   csParam.create = QUDA_ZERO_FIELD_CREATE;

   spinor = new cpuColorSpinorField(csParam);
   spinorOut = new cpuColorSpinorField(csParam);
   spinorRef = new cpuColorSpinorField(csParam);
   tmpCpu = new cpuColorSpinorField(csParam);

   csParam.siteSubset = QUDA_FULL_SITE_SUBSET;
   csParam.x[0] = gaugeParam.X[0];

   // printfQuda("Randomizing fields ...\n");

   spinor->Source(QUDA_RANDOM_SOURCE);

   size_t gSize = (gaugeParam.cpu_prec == QUDA_DOUBLE_PRECISION) ? sizeof(double) : sizeof(float);

   for (int dir = 0; dir < 4; dir++) {
     fatlink[dir] = malloc(V*gaugeSiteSize*gSize);
     longlink[dir] = malloc(V*gaugeSiteSize*gSize);

     if (fatlink[dir] == NULL || longlink[dir] == NULL){
       errorQuda("ERROR: malloc failed for fatlink/longlink");
     }
   }

   construct_fat_long_gauge_field(fatlink, longlink, 1, gaugeParam.cpu_prec, &gaugeParam, dslash_type);

 #ifdef MULTI_GPU
   gaugeParam.type = QUDA_ASQTAD_FAT_LINKS;
   gaugeParam.reconstruct = QUDA_RECONSTRUCT_NO;
   GaugeFieldParam cpuFatParam(fatlink, gaugeParam);
   cpuFatParam.ghostExchange = QUDA_GHOST_EXCHANGE_PAD;
   cpuFat = new cpuGaugeField(cpuFatParam);
   ghost_fatlink = cpuFat->Ghost();

   gaugeParam.type = QUDA_ASQTAD_LONG_LINKS;
   GaugeFieldParam cpuLongParam(longlink, gaugeParam);
   cpuLongParam.ghostExchange = QUDA_GHOST_EXCHANGE_PAD;
   cpuLong = new cpuGaugeField(cpuLongParam);
   ghost_longlink = cpuLong->Ghost();

   int x_face_size = X[1]*X[2]*X[3]/2;
   int y_face_size = X[0]*X[2]*X[3]/2;
   int z_face_size = X[0]*X[1]*X[3]/2;
   int t_face_size = X[0]*X[1]*X[2]/2;
   int pad_size = MAX(x_face_size, y_face_size);
   pad_size = MAX(pad_size, z_face_size);
   pad_size = MAX(pad_size, t_face_size);
   gaugeParam.ga_pad = pad_size;
 #endif

   gaugeParam.type = (dslash_type == QUDA_ASQTAD_DSLASH) ? QUDA_ASQTAD_FAT_LINKS : QUDA_SU3_LINKS;
   if (dslash_type == QUDA_STAGGERED_DSLASH) {
     gaugeParam.reconstruct = gaugeParam.reconstruct_sloppy = link_recon;
   } else {
     gaugeParam.reconstruct = gaugeParam.reconstruct_sloppy = QUDA_RECONSTRUCT_NO;
   }

   // printfQuda("Fat links sending...");
   loadGaugeQuda(fatlink, &gaugeParam);
   // printfQuda("Fat links sent\n");

   gaugeParam.type = QUDA_ASQTAD_LONG_LINKS;

 #ifdef MULTI_GPU
   gaugeParam.ga_pad = 3*pad_size;
 #endif

   if (dslash_type == QUDA_ASQTAD_DSLASH) {

     gaugeParam.reconstruct = gaugeParam.reconstruct_sloppy = (link_recon==QUDA_RECONSTRUCT_12) ? QUDA_RECONSTRUCT_13 : (link_recon==QUDA_RECONSTRUCT_8) ? QUDA_RECONSTRUCT_13 : link_recon;
     // printfQuda("Long links sending...");
     loadGaugeQuda(longlink, &gaugeParam);
     // printfQuda("Long links sent...\n");
   }

   // printfQuda("Sending fields to GPU...");

   if (!transfer) {

     csParam.fieldOrder = QUDA_FLOAT2_FIELD_ORDER;
     csParam.pad = inv_param.sp_pad;
     csParam.precision = inv_param.cuda_prec;
     if (test_type < 2){
       csParam.siteSubset = QUDA_PARITY_SITE_SUBSET;
       csParam.x[0] /=2;
     }

     // printfQuda("Creating cudaSpinor\n");
     cudaSpinor = new cudaColorSpinorField(csParam);

     // printfQuda("Creating cudaSpinorOut\n");
     cudaSpinorOut = new cudaColorSpinorField(csParam);

     // printfQuda("Sending spinor field to GPU\n");
     *cudaSpinor = *spinor;

     cudaDeviceSynchronize();
     checkCudaError();

     // double spinor_norm2 = blas::norm2(*spinor);
     // double cuda_spinor_norm2=  blas::norm2(*cudaSpinor);
     // printfQuda("Source CPU = %f, CUDA=%f\n", spinor_norm2, cuda_spinor_norm2);

     if(test_type == 2) csParam.x[0] /=2;

     csParam.siteSubset = QUDA_PARITY_SITE_SUBSET;
     tmp = new cudaColorSpinorField(csParam);

     bool pc = (test_type != 2);
     DiracParam diracParam;
     setDiracParam(diracParam, &inv_param, pc);

     diracParam.tmp1=tmp;

     dirac = Dirac::create(diracParam);

   } else {
     errorQuda("Error not suppported");
   }

   return;
 }

 void end(void)
 {
   for (int dir = 0; dir < 4; dir++) {
     free(fatlink[dir]);
     free(longlink[dir]);
   }

   if (!transfer){
     delete dirac;
     delete cudaSpinor;
     delete cudaSpinorOut;
     delete tmp;
   }

   delete spinor;
   delete spinorOut;
   delete spinorRef;
   delete tmpCpu;

   freeGaugeQuda();

   if (cpuFat) delete cpuFat;
   if (cpuLong) delete cpuLong;
   commDimPartitionedReset();

 }

 struct DslashTime {
   double event_time;
   double cpu_time;
   double cpu_min;
   double cpu_max;

   DslashTime() : event_time(0.0), cpu_time(0.0), cpu_min(DBL_MAX), cpu_max(0.0) {}
 };

 DslashTime dslashCUDA(int niter) {

   DslashTime dslash_time;
   timeval tstart, tstop;

   cudaEvent_t start, end;
   cudaEventCreate(&start);
   cudaEventRecord(start, 0);
   cudaEventSynchronize(start);

   comm_barrier();
   cudaEventRecord(start, 0);

   for (int i = 0; i < niter; i++) {

     gettimeofday(&tstart, NULL);

     switch (test_type) {
       case 0:
       if (transfer){
           //dslashQuda(spinorOdd, spinorEven, &inv_param, parity);
       } else {
         dirac->Dslash(*cudaSpinorOut, *cudaSpinor, parity);
       }
       break;
       case 1:
       if (transfer){
           //MatPCDagMatPcQuda(spinorOdd, spinorEven, &inv_param);
       } else {
         dirac->MdagM(*cudaSpinorOut, *cudaSpinor);
       }
       break;
       case 2:
       errorQuda("Staggered operator acting on full-site not supported");
       if (transfer){
           //MatQuda(spinorGPU, spinor, &inv_param);
       } else {
         dirac->M(*cudaSpinorOut, *cudaSpinor);
       }
     }

     gettimeofday(&tstop, NULL);
     long ds = tstop.tv_sec - tstart.tv_sec;
     long dus = tstop.tv_usec - tstart.tv_usec;
     double elapsed = ds + 0.000001*dus;

     dslash_time.cpu_time += elapsed;
     // skip first and last iterations since they may skew these metrics if comms are not synchronous
     if (i>0 && i<niter) {
       if (elapsed < dslash_time.cpu_min) dslash_time.cpu_min = elapsed;
       if (elapsed > dslash_time.cpu_max) dslash_time.cpu_max = elapsed;
     }
   }

   cudaEventCreate(&end);
   cudaEventRecord(end, 0);
   cudaEventSynchronize(end);
   float runTime;
   cudaEventElapsedTime(&runTime, start, end);
   cudaEventDestroy(start);
   cudaEventDestroy(end);

   dslash_time.event_time = runTime / 1000;

   // check for errors
   cudaError_t stat = cudaGetLastError();
   if (stat != cudaSuccess)
     errorQuda("with ERROR: %s\n", cudaGetErrorString(stat));

   return dslash_time;
 }

 void staggeredDslashRef()
 {

   // compare to dslash reference implementation
   // printfQuda("Calculating reference implementation...");
   fflush(stdout);
   switch (test_type) {
     case 0:
 #ifdef MULTI_GPU
     staggered_dslash_mg4dir(spinorRef, fatlink, longlink, ghost_fatlink, ghost_longlink,
      spinor, parity, dagger, inv_param.cpu_prec, gaugeParam.cpu_prec);
 #else
     staggered_dslash(spinorRef->V(), fatlink, longlink, spinor->V(), parity, dagger, inv_param.cpu_prec, gaugeParam.cpu_prec);
 #endif
     break;
     case 1:
 #ifdef MULTI_GPU
     matdagmat_mg4dir(spinorRef, fatlink, longlink, ghost_fatlink, ghost_longlink,
      spinor, mass, 0, inv_param.cpu_prec, gaugeParam.cpu_prec, tmpCpu, parity);
 #else
     matdagmat(spinorRef->V(), fatlink, longlink, spinor->V(), mass, 0, inv_param.cpu_prec, gaugeParam.cpu_prec, tmpCpu->V(), parity);
 #endif
     break;
     case 2:
       //mat(spinorRef->V(), fatlink, longlink, spinor->V(), kappa, dagger,
       //inv_param.cpu_prec, gaugeParam.cpu_prec);
     break;
     default:
     errorQuda("Test type not defined");
   }

   // printfQuda("done.\n");

 }


 void display_test_info(int precision, QudaReconstructType link_recon)
 {
   auto prec = precision == 2 ? QUDA_DOUBLE_PRECISION : precision  == 1 ? QUDA_SINGLE_PRECISION : QUDA_HALF_PRECISION;
   // printfQuda("running the following test:\n");
   // auto linkrecon = dslash_type == QUDA_ASQTAD_DSLASH ? (link_recon == QUDA_RECONSTRUCT_12 ?  QUDA_RECONSTRUCT_13 : (link_recon == QUDA_RECONSTRUCT_8 ? QUDA_RECONSTRUCT_9: link_recon)) : link_recon;
   printfQuda("prec recon   test_type     dagger   S_dim         T_dimension\n");
   printfQuda("%s   %s       %d           %d       %d/%d/%d        %d \n",
     get_prec_str(prec), get_recon_str(link_recon),
     test_type, dagger, xdim, ydim, zdim, tdim);
   // printfQuda("Grid partition info:     X  Y  Z  T\n");
   // printfQuda("                         %d  %d  %d  %d\n",
   //     dimPartitioned(0),
   //     dimPartitioned(1),
   //     dimPartitioned(2),
   //     dimPartitioned(3));

   return ;

 }

 using ::testing::TestWithParam;
 using ::testing::Bool;
 using ::testing::Values;
 using ::testing::Range;
 using ::testing::Combine;


 void usage_extra(char** argv )
 {
   printfQuda("Extra options:\n");
   printfQuda("    --test <0/1>                             # Test method\n");
   printfQuda("                                                0: Even destination spinor\n");
   printfQuda("                                                1: Odd destination spinor\n");
   return ;
 }

 using ::testing::TestWithParam;
 using ::testing::Bool;
 using ::testing::Values;
 using ::testing::Range;
 using ::testing::Combine;

 class StaggeredDslashTest : public ::testing::TestWithParam<::testing::tuple<int, int, int>> {
 protected:
   ::testing::tuple<int, int, int> param;

 public:
   virtual ~StaggeredDslashTest() { }
   virtual void SetUp() {
     int prec = ::testing::get<0>(GetParam());
     QudaReconstructType recon = static_cast<QudaReconstructType>(::testing::get<1>(GetParam()));


     int value = ::testing::get<2>(GetParam());
     for(int j=0; j < 4;j++){
       if (value &  (1 << j)){
         commDimPartitionedSet(j);
       }

     }
     updateR();
     init(prec, recon);
     display_test_info(prec, recon);
   }
   virtual void TearDown() { end(); }

   static void SetUpTestCase() {
     initQuda(device);
   }

   // Per-test-case tear-down.
   // Called after the last test in this test case.
   // Can be omitted if not needed.
   static void TearDownTestCase() {
     endQuda();
   }

 };

  TEST_P(StaggeredDslashTest, verify) {
     { // warm-up run
       // printfQuda("Tuning...\n");
       dslashCUDA(1);
     }

     dslashCUDA(2);

     if (!transfer) *spinorOut = *cudaSpinorOut;

     staggeredDslashRef();
     double spinor_ref_norm2 = blas::norm2(*spinorRef);
     double spinor_out_norm2 =  blas::norm2(*spinorOut);

     if (!transfer) {
       double cuda_spinor_out_norm2 =  blas::norm2(*cudaSpinorOut);
       printfQuda("Results: CPU=%f, CUDA=%f, CPU-CUDA=%f\n",  spinor_ref_norm2, cuda_spinor_out_norm2,
        spinor_out_norm2);
     } else {
       printfQuda("Result: CPU=%f , CPU-CUDA=%f", spinor_ref_norm2, spinor_out_norm2);
     }

     double deviation = pow(10, -(double)(cpuColorSpinorField::Compare(*spinorRef, *spinorOut)));
     double tol = (inv_param.cuda_prec == QUDA_DOUBLE_PRECISION ? 1e-12 :
       (inv_param.cuda_prec == QUDA_SINGLE_PRECISION ? 1e-3 : 1e-1));
     ASSERT_LE(deviation, tol) << "CPU and CUDA implementations do not agree";
   }

 TEST_P(StaggeredDslashTest, benchmark) {
     { // warm-up run
       // printfQuda("Tuning...\n");
       dslashCUDA(1);
     }

     // reset flop counter
     dirac->Flops();

     DslashTime dslash_time = dslashCUDA(niter);

     if (!transfer) *spinorOut = *cudaSpinorOut;

     printfQuda("%fus per kernel call\n", 1e6*dslash_time.event_time / niter);

     unsigned long long flops = dirac->Flops();
     double gflops=1.0e-9*flops/dslash_time.event_time;
     printfQuda("GFLOPS = %f\n", gflops );
     RecordProperty("Gflops", std::to_string(gflops));

     RecordProperty("Halo_bidirectitonal_BW_GPU", 1.0e-9*2*cudaSpinor->GhostBytes()*niter/dslash_time.event_time);
     RecordProperty("Halo_bidirectitonal_BW_CPU", 1.0e-9*2*cudaSpinor->GhostBytes()*niter/dslash_time.cpu_time);
     RecordProperty("Halo_bidirectitonal_BW_CPU_min", 1.0e-9*2*cudaSpinor->GhostBytes()/dslash_time.cpu_max);
     RecordProperty("Halo_bidirectitonal_BW_CPU_max", 1.0e-9*2*cudaSpinor->GhostBytes()/dslash_time.cpu_min);
     RecordProperty("Halo_message_size_bytes",2*cudaSpinor->GhostBytes());

     printfQuda("Effective halo bi-directional bandwidth (GB/s) GPU = %f ( CPU = %f, min = %f , max = %f ) for aggregate message size %lu bytes\n",
      1.0e-9*2*cudaSpinor->GhostBytes()*niter/dslash_time.event_time, 1.0e-9*2*cudaSpinor->GhostBytes()*niter/dslash_time.cpu_time,
      1.0e-9*2*cudaSpinor->GhostBytes()/dslash_time.cpu_max, 1.0e-9*2*cudaSpinor->GhostBytes()/dslash_time.cpu_min,
      2*cudaSpinor->GhostBytes());

   }

   int main(int argc, char **argv)
   {
   // initalize google test
     ::testing::InitGoogleTest(&argc, argv);
     for (int i=1 ;i < argc; i++){

       if(process_command_line_option(argc, argv, &i) == 0){
         continue;
       }

       fprintf(stderr, "ERROR: Invalid option:%s\n", argv[i]);
       usage(argv);
     }

     initComms(argc, argv, gridsize_from_cmdline);


   // return result of RUN_ALL_TESTS
     int test_rc = RUN_ALL_TESTS();

     finalizeComms();

     return test_rc;
   }

   std::string getstaggereddslashtestname(testing::TestParamInfo<::testing::tuple<int, int, int>> param){
    const int prec = ::testing::get<0>(param.param);
    const int recon = ::testing::get<1>(param.param);
    const int part = ::testing::get<2>(param.param);
    std::stringstream ss;
    // ss << get_dslash_str(dslash_type) << "_";
    ss << prec_str[prec];
    ss << "_r" << recon;
    ss << "_partition" << part;
    return ss.str();
  }


 #ifdef MULTI_GPU
  INSTANTIATE_TEST_CASE_P(QUDA, StaggeredDslashTest, Combine( Range(0,3), ::testing::Values(QUDA_RECONSTRUCT_NO,QUDA_RECONSTRUCT_12,QUDA_RECONSTRUCT_8), Range(0,16)),getstaggereddslashtestname);
 #else
  INSTANTIATE_TEST_CASE_P(QUDA, StaggeredDslashTest, Combine( Range(0,3), ::testing::Values(QUDA_RECONSTRUCT_NO,QUDA_RECONSTRUCT_12,QUDA_RECONSTRUCT_8), ::testing::Values(0) ),getstaggereddslashtestname);
 #endif

Nsrc
int Nsrc
Definition: test_util.cpp:1628

INSTANTIATE_TEST_CASE_P
INSTANTIATE_TEST_CASE_P(QUDA, StaggeredDslashTest, Combine(Range(0, 3), ::testing::Values(QUDA_RECONSTRUCT_NO, QUDA_RECONSTRUCT_12, QUDA_RECONSTRUCT_8), ::testing::Values(0)), getstaggereddslashtestname)

invert_quda.h

QudaInvertParam_s::dirac_order
QudaDiracFieldOrder dirac_order
Definition: quda.h:195

dagger
QudaDagType dagger
Definition: deg_tm_dslash_cuda_gen.py:960

QudaGaugeParam_s::reconstruct_sloppy
QudaReconstructType reconstruct_sloppy
Definition: quda.h:46

QudaGaugeParam_s::anisotropy
double anisotropy
Definition: quda.h:31

QUDA_RECONSTRUCT_NO
Definition: enum_quda.h:66

usage_extra
void usage_extra(char **argv)
Definition: staggered_dslash_ctest.cpp:460

spinorOut
cpuColorSpinorField * spinorOut
Definition: staggered_dslash_ctest.cpp:41

quda::LatticeFieldParam::ghostExchange
QudaGhostExchange ghostExchange
Definition: lattice_field.h:60

StaggeredDslashTest::~StaggeredDslashTest
virtual ~StaggeredDslashTest()
Definition: staggered_dslash_ctest.cpp:480

QUDA_MAT_SOLUTION
Definition: enum_quda.h:130

endQuda
void endQuda(void)
Definition: interface_quda.cpp:1290

free
void free(void *)

QudaGaugeParam_s::ga_pad
int ga_pad
Definition: quda.h:53

misc.h

dw_setDims
void dw_setDims(int *X, const int L5)
Definition: test_util.cpp:167

QudaGaugeParam_s::gauge_fix
QudaGaugeFixed gauge_fix
Definition: quda.h:51

quda::ColorSpinorParam::nColor
int nColor
Definition: color_spinor_field.h:85

parity
QudaParity parity
Definition: staggered_dslash_ctest.cpp:53

timeval::tv_sec
__darwin_time_t tv_sec
Definition: CMakeCUDACompilerId.cpp1.ii:4833

tmpCpu
cpuColorSpinorField * tmpCpu
Definition: staggered_dslash_ctest.cpp:41

QUDA_ASQTAD_DSLASH
Definition: enum_quda.h:92

inv_param
QudaInvertParam inv_param
Definition: staggered_dslash_ctest.cpp:36

QudaGaugeParam_s::type
QudaLinkType type
Definition: quda.h:35

fflush
int fflush(FILE *)

staggered_dslash_reference.h

errorQuda
#define errorQuda(...)
Definition: util_quda.h:90

quda::blas::norm2
double norm2(const ColorSpinorField &a)
Definition: reduce_quda.cu:241

QudaInvertParam_s::dslash_type
QudaDslashType dslash_type
Definition: quda.h:93

QUDA_GAUGE_FIXED_NO
Definition: enum_quda.h:76

start
cudaEvent_t start
Definition: CMakeCUDACompilerId.cpp1.ii:2453

test_util.h

QudaInvertParam_s::cuda_prec
QudaPrecision cuda_prec
Definition: quda.h:191

ydim
int ydim
Definition: test_util.cpp:1621

QUDA_SPACE_SPIN_COLOR_FIELD_ORDER
Definition: enum_quda.h:321

QUDA_HALF_PRECISION
Definition: enum_quda.h:59

dslash_type
QudaDslashType dslash_type
Definition: test_util.cpp:1626

QUDA_QDP_GAUGE_ORDER
Definition: enum_quda.h:41

loadGaugeQuda
void loadGaugeQuda(void *h_gauge, QudaGaugeParam *param)
Definition: interface_quda.cpp:602

DslashTime::cpu_min
double cpu_min
Definition: dslash_ctest.cpp:463

commDimPartitionedSet
void commDimPartitionedSet(int dir)
Definition: comm_common.cpp:676

staggered_dslash
void staggered_dslash(void *res, void **fatlink, void **longlink, void *spinorField, int oddBit, int daggerBit, QudaPrecision sPrecision, QudaPrecision gPrecision)
Definition: staggered_dslash_reference.cpp:100

QudaInvertParam_s::cpu_prec
QudaPrecision cpu_prec
Definition: quda.h:190

QUDA_SUMMARIZE
Definition: enum_quda.h:236

StaggeredDslashTest::SetUpTestCase
static void SetUpTestCase()
Definition: staggered_dslash_ctest.cpp:499

process_command_line_option
int process_command_line_option(int argc, char **argv, int *idx)
Definition: test_util.cpp:1795

quda::cpuColorSpinorField::Source
void Source(const QudaSourceType sourceType, const int st=0, const int s=0, const int c=0)
Definition: cpu_color_spinor_field.cpp:245

QUDA_FULL_SITE_SUBSET
Definition: enum_quda.h:304

xdim
int xdim
Definition: test_util.cpp:1620

getstaggereddslashtestname
std::string getstaggereddslashtestname(testing::TestParamInfo<::testing::tuple< int, int, int >> param)
Definition: staggered_dslash_ctest.cpp:598

quda::LatticeFieldParam::precision
QudaPrecision precision
Definition: lattice_field.h:54

QudaInvertParam_s::dagger
QudaDagType dagger
Definition: quda.h:184

matdagmat_mg4dir
void matdagmat_mg4dir(cpuColorSpinorField *out, void **link, void **ghostLink, cpuColorSpinorField *in, int dagger_bit, int mu, QudaPrecision sPrecision, QudaPrecision gPrecision, cpuColorSpinorField *tmp, QudaParity parity)

recon_str
const char * recon_str[]
Definition: staggered_dslash_ctest.cpp:76

mass
double mass
Definition: test_util.cpp:1642

finalizeComms
void finalizeComms()
Definition: test_util.cpp:107

quda::cudaColorSpinorField
Definition: color_spinor_field.h:504

QudaGaugeParam_s::gauge_order
QudaGaugeFieldOrder gauge_order
Definition: quda.h:36

dslashCUDA
DslashTime dslashCUDA(int niter)
Definition: staggered_dslash_ctest.cpp:325

util_quda.h

StaggeredDslashTest::SetUp
virtual void SetUp()
Definition: staggered_dslash_ctest.cpp:481

get_prec_str
const char * get_prec_str(QudaPrecision prec)
Definition: misc.cpp:704

quda::Dirac::Flops
unsigned long long Flops() const
Definition: dirac_quda.h:148

cudaSpinor
cudaColorSpinorField * cudaSpinor
Definition: staggered_dslash_ctest.cpp:42

quda::Dirac::MdagM
virtual void MdagM(ColorSpinorField &out, const ColorSpinorField &in) const =0

quda
Definition: blas_cublas.h:6

quda::LatticeFieldParam::siteSubset
QudaSiteSubset siteSubset
Definition: lattice_field.h:55

setDims
void setDims(int *)
Definition: test_util.cpp:130

QudaInvertParam_s::input_location
QudaFieldLocation input_location
Definition: quda.h:90

freeGaugeQuda
void freeGaugeQuda(void)
Definition: interface_quda.cpp:1090

spinor
cpuColorSpinorField * spinor
Definition: staggered_dslash_ctest.cpp:41

dirac_quda.h

timeval::tv_usec
__darwin_suseconds_t tv_usec
Definition: CMakeCUDACompilerId.cpp1.ii:4834

verify_results
bool verify_results
Definition: test_util.cpp:1641

gSize
static size_t gSize
Definition: llfat_test.cpp:36

param
QudaGaugeParam param
Definition: pack_test.cpp:17

quda::setDiracParam
void setDiracParam(DiracParam &diracParam, QudaInvertParam *inv_param, bool pc)
Definition: interface_quda.cpp:1386

QudaInvertParam_s::solution_type
QudaSolutionType solution_type
Definition: quda.h:181

return
else return(__swbuf(_c, _p))

QUDA_MATPC_SOLUTION
Definition: enum_quda.h:132

end
void end(void)
Definition: staggered_dslash_ctest.cpp:289

quda::LatticeFieldParam::x
int x[QUDA_MAX_DIM]
Definition: lattice_field.h:50

quda::GaugeFieldParam
Definition: gauge_field.h:10

longlink
void * longlink[4]
Definition: staggered_dslash_ctest.cpp:47

quda::DiracParam
Definition: dirac_quda.h:19

QudaGaugeParam_s::scale
double scale
Definition: quda.h:33

initQuda
void initQuda(int device)
Definition: interface_quda.cpp:546

QUDA_EVEN_ODD_SITE_ORDER
Definition: enum_quda.h:311

tol
double tol
Definition: test_util.cpp:1647

QudaInvertParam_s::output_location
QudaFieldLocation output_location
Definition: quda.h:91

malloc
void * malloc(size_t __size) __attribute__((__warn_unused_result__)) __attribute__((alloc_size(1)))

QUDA_RECONSTRUCT_12
Definition: enum_quda.h:67

benchmark
double benchmark(int kernel, const int niter)
Definition: blas_test.cu:283

StaggeredDslashTest
Definition: staggered_dslash_ctest.cpp:475

usage
void usage(char **argv)
Definition: test_util.cpp:1693

kernel_pack_t
bool kernel_pack_t
Definition: test_util.cpp:1650

QudaGaugeParam_s
Definition: quda.h:25

quda::ColorSpinorParam::fieldOrder
QudaFieldOrder fieldOrder
Definition: color_spinor_field.h:92

link_recon
QudaReconstructType link_recon
Definition: test_util.cpp:1612

setSpinorSiteSize
void setSpinorSiteSize(int n)
Definition: test_util.cpp:192

csParam
ColorSpinorParam csParam
Definition: pack_test.cpp:24

transfer
int transfer
Definition: staggered_dslash_ctest.cpp:55

hostGauge
void * hostGauge[4]
Definition: staggered_dslash_ctest.cpp:46

newQudaInvertParam
QudaInvertParam newQudaInvertParam(void)

test_type
int test_type
Definition: test_util.cpp:1634

get_recon_str
const char * get_recon_str(QudaReconstructType recon)
Definition: misc.cpp:770

quda::cpuGaugeField
Definition: gauge_field.h:464

gaugeParam
QudaGaugeParam gaugeParam
Definition: staggered_dslash_ctest.cpp:35

DslashTime::event_time
double event_time
Definition: dslash_ctest.cpp:461

V
int V
Definition: test_util.cpp:28

quda::ColorSpinorParam::gammaBasis
QudaGammaBasis gammaBasis
Definition: color_spinor_field.h:93

gaugeSiteSize
#define gaugeSiteSize
Definition: test_util.h:6

init
void init(int precision, QudaReconstructType link_recon)
Definition: staggered_dslash_ctest.cpp:78

fused_exterior_ndeg_tm_dslash_cuda_gen.i
int i
start here
Definition: fused_exterior_ndeg_tm_dslash_cuda_gen.py:816

DslashTime::cpu_time
double cpu_time
Definition: dslash_ctest.cpp:462

StaggeredDslashTest::param
::testing::tuple< int, int, int > param
Definition: staggered_dslash_ctest.cpp:477

quda::pow
__host__ __device__ ValueType pow(ValueType x, ExponentType e)
Definition: complex_quda.h:100

matdagmat
void matdagmat(void *out, void **link, void *in, int dagger_bit, int mu, QudaPrecision sPrecision, QudaPrecision gPrecision, void *tmp, QudaParity parity)
Definition: covdev_reference.cpp:168

QUDA_PARITY_SITE_SUBSET
Definition: enum_quda.h:303

QudaInvertParam_s::gamma_basis
QudaGammaBasis gamma_basis
Definition: quda.h:197

QUDA_FLOAT2_FIELD_ORDER
Definition: enum_quda.h:319

QudaGaugeParam_s::cuda_prec_sloppy
QudaPrecision cuda_prec_sloppy
Definition: quda.h:45

quda::GaugeField::Ghost
const void ** Ghost() const
Definition: gauge_field.h:254

dslash_util.h

timeval
Definition: CMakeCUDACompilerId.cpp1.ii:4831

QudaDagType
enum QudaDagType_s QudaDagType

QudaParity
enum QudaParity_s QudaParity

QudaGaugeParam_s::reconstruct
QudaReconstructType reconstruct
Definition: quda.h:43

QudaGaugeParam_s::cuda_prec
QudaPrecision cuda_prec
Definition: quda.h:42

QUDA_ASQTAD_LONG_LINKS
Definition: enum_quda.h:31

QudaGaugeParam_s::X
int X[4]
Definition: quda.h:29

staggeredDslashRef
void staggeredDslashRef()
Definition: staggered_dslash_ctest.cpp:397

QudaInvertParam_s::mass
double mass
Definition: quda.h:96

fprintf
int fprintf(FILE *, const char *,...) __attribute__((__format__(__printf__

StaggeredDslashTest::TearDown
virtual void TearDown()
Definition: staggered_dslash_ctest.cpp:497

quda::LatticeFieldParam::nDim
int nDim
Definition: lattice_field.h:47

quda::cpuColorSpinorField::Compare
static int Compare(const cpuColorSpinorField &a, const cpuColorSpinorField &b, const int resolution=1)
Definition: cpu_color_spinor_field.cpp:249

QudaInvertParam_s::sp_pad
int sp_pad
Definition: quda.h:221

cpuLong
cpuGaugeField * cpuLong
Definition: staggered_dslash_ctest.cpp:39

blas_quda.h

QUDA_RECONSTRUCT_8
Definition: enum_quda.h:68

construct_fat_long_gauge_field
void construct_fat_long_gauge_field(void **fatlink, void **longlink, int type, QudaPrecision precision, QudaGaugeParam *param, QudaDslashType dslash_type)
Definition: test_util.cpp:1069

device
int device
Definition: CMakeCUDACompilerId.cpp1.ii:2238

quda::Dirac::M
virtual void M(ColorSpinorField &out, const ColorSpinorField &in) const =0

quda::ColorSpinorParam
Definition: color_spinor_field.h:80

QUDA_DOUBLE_PRECISION
Definition: enum_quda.h:61

prec_str
const char * prec_str[]
Definition: staggered_dslash_ctest.cpp:75

X
int X[4]
Definition: staggered_dslash_ctest.cpp:70

QudaGaugeParam_s::tadpole_coeff
double tadpole_coeff
Definition: quda.h:32

QudaGaugeParam_s::gaugeGiB
double gaugeGiB
Definition: quda.h:60

dirac
Dirac * dirac
Definition: staggered_dslash_ctest.cpp:73

QUDA_STAGGERED_DSLASH
Definition: enum_quda.h:91

fatlink
void * fatlink[4]
Definition: staggered_dslash_ctest.cpp:47

QUDA_SINGLE_PRECISION
Definition: enum_quda.h:60

quda::ColorSpinorParam::nSpin
int nSpin
Definition: color_spinor_field.h:86

display_test_info
void display_test_info(int precision, QudaReconstructType link_recon)
Definition: staggered_dslash_ctest.cpp:433

QudaReconstructType
enum QudaReconstructType_s QudaReconstructType

commDimPartitionedReset
void commDimPartitionedReset()
Reset the comm dim partioned array to zero,.
Definition: comm_common.cpp:678

quda.h
Main header file for the QUDA library.

MAX
#define MAX(a, b)
Definition: staggered_dslash_ctest.cpp:25

QUDA_DEGRAND_ROSSI_GAMMA_BASIS
Definition: enum_quda.h:338

dslash_quda.h

cpuFat
cpuGaugeField * cpuFat
Definition: staggered_dslash_ctest.cpp:38

printfQuda
#define printfQuda(...)
Definition: util_quda.h:84

QudaGaugeParam_s::t_boundary
QudaTboundary t_boundary
Definition: quda.h:38

DslashTime
Definition: dslash_ctest.cpp:460

quda::blas::flops
unsigned long long flops
Definition: blas_quda.cu:42

DslashTime::cpu_max
double cpu_max
Definition: dslash_ctest.cpp:464

quda::ColorSpinorParam::siteOrder
QudaSiteOrder siteOrder
Definition: color_spinor_field.h:90

e
return e
Definition: CMakeCUDACompilerId.cpp1.ii:3026

main
int main(int argc, char **argv)
Definition: staggered_dslash_ctest.cpp:573

QUDA_DIRAC_ORDER
Definition: enum_quda.h:215

staggered_dslash_mg4dir
void staggered_dslash_mg4dir(cpuColorSpinorField *out, void **fatlink, void **longlink, void **ghost_fatlink, void **ghost_longlink, cpuColorSpinorField *in, int oddBit, int daggerBit, QudaPrecision sPrecision, QudaPrecision gPrecision)

QUDA_RECONSTRUCT_13
Definition: enum_quda.h:70

QudaDslashType
enum QudaDslashType_s QudaDslashType

QUDA_ANTI_PERIODIC_T
Definition: enum_quda.h:53

QUDA_RANDOM_SOURCE
Definition: enum_quda.h:346

TEST_P
TEST_P(StaggeredDslashTest, verify)
Definition: staggered_dslash_ctest.cpp:512

cudaSpinorOut
cudaColorSpinorField * cudaSpinorOut
Definition: staggered_dslash_ctest.cpp:42

quda::setKernelPackT
void setKernelPackT(bool pack)
Definition: dslash_quda.cu:59

tdim
int tdim
Definition: test_util.cpp:1623

QUDA_EVEN_PARITY
Definition: enum_quda.h:259

zdim
int zdim
Definition: test_util.cpp:1622

checkCudaError
#define checkCudaError()
Definition: util_quda.h:129

QUDA_ZERO_FIELD_CREATE
Definition: enum_quda.h:331

float
float
Definition: CMakeCUDACompilerId.cpp1.ii:12791

quda::Dirac::create
static Dirac * create(const DiracParam &param)
Definition: dirac.cpp:142

quda::ColorSpinorParam::create
QudaFieldCreate create
Definition: color_spinor_field.h:94

spinorRef
cpuColorSpinorField * spinorRef
Definition: staggered_dslash_ctest.cpp:41

QUDA_GHOST_EXCHANGE_PAD
Definition: enum_quda.h:435

tmp
cudaColorSpinorField * tmp
Definition: staggered_dslash_ctest.cpp:44

value
int value
Definition: CMakeCUDACompilerId.cpp1.ii:2296

d
static __inline__ size_t size_t d
Definition: CMakeCUDACompilerId.cpp1.ii:3019

QUDA_MATPC_EVEN_EVEN
Definition: enum_quda.h:182

quda::Dirac::Dslash
virtual void Dslash(ColorSpinorField &out, const ColorSpinorField &in, const QudaParity parity) const =0

quda::ColorSpinorField::GhostBytes
size_t GhostBytes() const
Definition: color_spinor_field.h:374

QUDA_SU3_LINKS
Definition: enum_quda.h:23

StaggeredDslashTest::TearDownTestCase
static void TearDownTestCase()
Definition: staggered_dslash_ctest.cpp:506

QudaInvertParam_s
Definition: quda.h:88

QUDA_CPU_FIELD_LOCATION
Definition: enum_quda.h:296

prec
QudaPrecision prec
Definition: test_util.cpp:1615

niter
int niter
Definition: test_util.cpp:1630

initComms
void initComms(int argc, char **argv, const int *commDims)
Definition: test_util.cpp:72

QUDA_ASQTAD_FAT_LINKS
Definition: enum_quda.h:30

gauge_field.h

DslashTime::DslashTime
DslashTime()
Definition: staggered_dslash_ctest.cpp:322

setVerbosity
void setVerbosity(const QudaVerbosity verbosity)
Definition: util_quda.cpp:24

QudaInvertParam_s::matpc_type
QudaMatPCType matpc_type
Definition: quda.h:183

quda::DiracParam::tmp1
ColorSpinorField * tmp1
Definition: dirac_quda.h:40

quda::cpuColorSpinorField
Definition: color_spinor_field.h:789

QudaGaugeParam_s::cpu_prec
QudaPrecision cpu_prec
Definition: quda.h:40

quda::ColorSpinorField::V
void * V()
Definition: color_spinor_field.h:380

quda::Dirac
Definition: dirac_quda.h:86

updateR
void updateR()
update the radius for halos.
Definition: interface_quda.cpp:541

newQudaGaugeParam
QudaGaugeParam newQudaGaugeParam(void)

gridsize_from_cmdline
int gridsize_from_cmdline[]
Definition: test_util.cpp:50

quda_internal.h

quda::LatticeFieldParam::pad
int pad
Definition: lattice_field.h:52

comm_barrier
void comm_barrier(void)
Definition: comm_mpi.cpp:328