quda-ref/v1.1.0/staggered__dslash__test__utils_8h_source.html

 #pragma once


 #include <iostream>

 #include <stdio.h>

 #include <stdlib.h>

 #include <string.h>

 #include <algorithm>


 #include <quda.h>

 #include <gauge_field.h>

 #include <dirac_quda.h>

 #include <misc.h>

 #include <host_utils.h>

 #include <command_line_params.h>

 #include <dslash_reference.h>

 #include <staggered_dslash_reference.h>

 #include <staggered_gauge_utils.h>


 #include "dslash_test_helpers.h"

 #include <assert.h>

 #include <gtest/gtest.h>


 using namespace quda;


 dslash_test_type dtest_type = dslash_test_type::Dslash;

 CLI::TransformPairs<dslash_test_type> dtest_type_map {

   {"Dslash", dslash_test_type::Dslash}, {"MatPC", dslash_test_type::MatPC}, {"Mat", dslash_test_type::Mat}

   // left here for completeness but not support in staggered dslash test

   // {"MatPCDagMatPC", dslash_test_type::MatPCDagMatPC},

   // {"MatDagMat", dslash_test_type::MatDagMat},

   // {"M5", dslash_test_type::M5},

   // {"M5inv", dslash_test_type::M5inv},

   // {"Dslash4pre", dslash_test_type::Dslash4pre}

 };


 struct DslashTime {

   double event_time;

   double cpu_time;

   double cpu_min;

   double cpu_max;


   DslashTime() : event_time(0.0), cpu_time(0.0), cpu_min(DBL_MAX), cpu_max(0.0) {}

 };


 struct StaggeredDslashTestWrapper {


   bool is_ctest = false; // Added to distinguish from being used in dslash_test.


   void *qdp_inlink[4] = {nullptr, nullptr, nullptr, nullptr};


   QudaGaugeParam gauge_param;

   QudaInvertParam inv_param;


   void *milc_fatlink_gpu;

   void *milc_longlink_gpu;


   cpuGaugeField *cpuFat = nullptr;

   cpuGaugeField *cpuLong = nullptr;


   cpuColorSpinorField *spinor = nullptr;

   cpuColorSpinorField *spinorOut = nullptr;

   cpuColorSpinorField *spinorRef = nullptr;

   cpuColorSpinorField *tmpCpu = nullptr;

   cudaColorSpinorField *cudaSpinor = nullptr;

   cudaColorSpinorField *cudaSpinorOut = nullptr;

   cudaColorSpinorField *tmp = nullptr;


   std::vector<cpuColorSpinorField *> vp_spinor;

   std::vector<cpuColorSpinorField *> vp_spinor_out;


   // In the HISQ case, we include building fat/long links in this unit test

   void *qdp_fatlink_cpu[4] = {nullptr, nullptr, nullptr, nullptr};

   void *qdp_longlink_cpu[4] = {nullptr, nullptr, nullptr, nullptr};

   void **ghost_fatlink_cpu, **ghost_longlink_cpu;


   // To speed up the unit test, build the CPU field once per partition

 #ifdef MULTI_GPU

   void *qdp_fatlink_cpu_backup[16][4];

   void *qdp_longlink_cpu_backup[16][4];

   void *qdp_inlink_backup[16][4];

 #else

   void *qdp_fatlink_cpu_backup[1][4];

   void *qdp_longlink_cpu_backup[1][4];

   void *qdp_inlink_backup[1][4];

 #endif


   QudaParity parity = QUDA_EVEN_PARITY;


   Dirac *dirac;


   // For loading the gauge fields

   int argc_copy;

   char **argv_copy;


   // Split grid options

   int num_src;

   int test_split_grid;


   void staggeredDslashRef()

   {


     // compare to dslash reference implementation

     printfQuda("Calculating reference implementation...");

     switch (dtest_type) {

     case dslash_test_type::Dslash:

       staggeredDslash(spinorRef, qdp_fatlink_cpu, qdp_longlink_cpu, ghost_fatlink_cpu, ghost_longlink_cpu, spinor,

                       parity, dagger, inv_param.cpu_prec, gauge_param.cpu_prec, dslash_type);

       break;

     case dslash_test_type::MatPC:

       staggeredMatDagMat(spinorRef, qdp_fatlink_cpu, qdp_longlink_cpu, ghost_fatlink_cpu, ghost_longlink_cpu, spinor,

                          mass, 0, inv_param.cpu_prec, gauge_param.cpu_prec, tmpCpu, parity, dslash_type);

       break;

     case dslash_test_type::Mat:

       // the !dagger is to reconcile the QUDA convention of D_stag = {{ 2m, -D_{eo}}, -D_{oe}, 2m}} vs the host convention without the minus signs

       staggeredDslash(reinterpret_cast<cpuColorSpinorField *>(&spinorRef->Even()), qdp_fatlink_cpu, qdp_longlink_cpu,

                       ghost_fatlink_cpu, ghost_longlink_cpu, reinterpret_cast<cpuColorSpinorField *>(&spinor->Odd()),

                       QUDA_EVEN_PARITY, !dagger, inv_param.cpu_prec, gauge_param.cpu_prec, dslash_type);

       staggeredDslash(reinterpret_cast<cpuColorSpinorField *>(&spinorRef->Odd()), qdp_fatlink_cpu, qdp_longlink_cpu,

                       ghost_fatlink_cpu, ghost_longlink_cpu, reinterpret_cast<cpuColorSpinorField *>(&spinor->Even()),

                       QUDA_ODD_PARITY, !dagger, inv_param.cpu_prec, gauge_param.cpu_prec, dslash_type);

       if (dslash_type == QUDA_LAPLACE_DSLASH) {

         xpay(spinor->V(), kappa, spinorRef->V(), spinor->Length(), gauge_param.cpu_prec);

       } else {

         axpy(2 * mass, spinor->V(), spinorRef->V(), spinor->Length(), gauge_param.cpu_prec);

       }

       break;

     default: errorQuda("Test type not defined");

     }

   }


   void init_ctest_once()

   {

     static bool has_been_called = false;

     if (has_been_called) { errorQuda("This function is not supposed to be called twice.\n"); }

     // initialize CPU field backup

     int pmax = 1;

 #ifdef MULTI_GPU

     pmax = 16;

 #endif

     for (int p = 0; p < pmax; p++) {

       for (int d = 0; d < 4; d++) {

         qdp_fatlink_cpu_backup[p][d] = nullptr;

         qdp_longlink_cpu_backup[p][d] = nullptr;

         qdp_inlink_backup[p][d] = nullptr;

       }

     }

     is_ctest = true; // Is being used in dslash_ctest.

     has_been_called = true;

   }


   void end_ctest_once()

   {

     static bool has_been_called = false;

     if (has_been_called) { errorQuda("This function is not supposed to be called twice.\n"); }

     // Clean up per-partition backup

     int pmax = 1;

 #ifdef MULTI_GPU

     pmax = 16;

 #endif

     for (int p = 0; p < pmax; p++) {

       for (int d = 0; d < 4; d++) {

         if (qdp_inlink_backup[p][d] != nullptr) {

           free(qdp_inlink_backup[p][d]);

           qdp_inlink_backup[p][d] = nullptr;

         }

         if (qdp_fatlink_cpu_backup[p][d] != nullptr) {

           free(qdp_fatlink_cpu_backup[p][d]);

           qdp_fatlink_cpu_backup[p][d] = nullptr;

         }

         if (qdp_longlink_cpu_backup[p][d] != nullptr) {

           free(qdp_longlink_cpu_backup[p][d]);

           qdp_longlink_cpu_backup[p][d] = nullptr;

         }

       }

     }

     has_been_called = true;

   }


   void init_ctest(int precision, QudaReconstructType link_recon_, int partition)

   {

     gauge_param = newQudaGaugeParam();

     inv_param = newQudaInvertParam();


     setStaggeredGaugeParam(gauge_param);

     setStaggeredInvertParam(inv_param);


     auto prec = getPrecision(precision);

     setVerbosity(QUDA_SUMMARIZE);


     gauge_param.cuda_prec = prec;

     gauge_param.cuda_prec_sloppy = prec;

     gauge_param.cuda_prec_precondition = prec;

     gauge_param.cuda_prec_refinement_sloppy = prec;


     inv_param.cuda_prec = prec;


     link_recon = link_recon_;


     init();

   }


   void init_test()

   {

     gauge_param = newQudaGaugeParam();

     inv_param = newQudaInvertParam();


     setStaggeredGaugeParam(gauge_param);

     setStaggeredInvertParam(inv_param);


     init();

   }


   void init()

   {

     inv_param.split_grid[0] = grid_partition[0];

     inv_param.split_grid[1] = grid_partition[1];

     inv_param.split_grid[2] = grid_partition[2];

     inv_param.split_grid[3] = grid_partition[3];


     num_src = grid_partition[0] * grid_partition[1] * grid_partition[2] * grid_partition[3];

     test_split_grid = num_src > 1;


     if (test_split_grid) { dtest_type = dslash_test_type::Dslash; }


     inv_param.dagger = dagger ? QUDA_DAG_YES : QUDA_DAG_NO;


     setDims(gauge_param.X);

     dw_setDims(gauge_param.X, 1);

     if (Nsrc != 1) {

       warningQuda("Ignoring Nsrc = %d, setting to 1.", Nsrc);

       Nsrc = 1;

     }


     // Allocate a lot of memory because I'm very confused

     void *milc_fatlink_cpu = malloc(4 * V * gauge_site_size * host_gauge_data_type_size);

     void *milc_longlink_cpu = malloc(4 * V * gauge_site_size * host_gauge_data_type_size);


     milc_fatlink_gpu = malloc(4 * V * gauge_site_size * host_gauge_data_type_size);

     milc_longlink_gpu = malloc(4 * V * gauge_site_size * host_gauge_data_type_size);


     void *qdp_fatlink_gpu[4];

     void *qdp_longlink_gpu[4];


     for (int dir = 0; dir < 4; dir++) {

       qdp_fatlink_gpu[dir] = malloc(V * gauge_site_size * host_gauge_data_type_size);

       qdp_longlink_gpu[dir] = malloc(V * gauge_site_size * host_gauge_data_type_size);


       qdp_fatlink_cpu[dir] = malloc(V * gauge_site_size * host_gauge_data_type_size);

       qdp_longlink_cpu[dir] = malloc(V * gauge_site_size * host_gauge_data_type_size);


       if (qdp_fatlink_gpu[dir] == NULL || qdp_longlink_gpu[dir] == NULL || qdp_fatlink_cpu[dir] == NULL

           || qdp_longlink_cpu[dir] == NULL) {

         errorQuda("ERROR: malloc failed for fatlink/longlink");

       }

     }


     // create a base field

     for (int dir = 0; dir < 4; dir++) {

       if (qdp_inlink[dir] == nullptr) { qdp_inlink[dir] = malloc(V * gauge_site_size * host_gauge_data_type_size); }

     }


     bool gauge_loaded = false;

     constructStaggeredHostDeviceGaugeField(qdp_inlink, qdp_longlink_cpu, qdp_longlink_gpu, qdp_fatlink_cpu,

                                            qdp_fatlink_gpu, gauge_param, argc_copy, argv_copy, gauge_loaded);


     // Alright, we've created all the void** links.

     // Create the void* pointers

     reorderQDPtoMILC(milc_fatlink_gpu, qdp_fatlink_gpu, V, gauge_site_size, gauge_param.cpu_prec, gauge_param.cpu_prec);

     reorderQDPtoMILC(milc_fatlink_cpu, qdp_fatlink_cpu, V, gauge_site_size, gauge_param.cpu_prec, gauge_param.cpu_prec);

     reorderQDPtoMILC(milc_longlink_gpu, qdp_longlink_gpu, V, gauge_site_size, gauge_param.cpu_prec, gauge_param.cpu_prec);

     reorderQDPtoMILC(milc_longlink_cpu, qdp_longlink_cpu, V, gauge_site_size, gauge_param.cpu_prec, gauge_param.cpu_prec);

     // Create ghost zones for CPU fields,

     // prepare and load the GPU fields


 #ifdef MULTI_GPU

     gauge_param.type = (dslash_type == QUDA_ASQTAD_DSLASH) ? QUDA_ASQTAD_FAT_LINKS : QUDA_SU3_LINKS;

     gauge_param.reconstruct = QUDA_RECONSTRUCT_NO;

     GaugeFieldParam cpuFatParam(milc_fatlink_cpu, gauge_param);

     cpuFatParam.ghostExchange = QUDA_GHOST_EXCHANGE_PAD;

     cpuFat = new cpuGaugeField(cpuFatParam);

     ghost_fatlink_cpu = cpuFat->Ghost();


     gauge_param.type = QUDA_ASQTAD_LONG_LINKS;

     GaugeFieldParam cpuLongParam(milc_longlink_cpu, gauge_param);

     cpuLongParam.ghostExchange = QUDA_GHOST_EXCHANGE_PAD;

     cpuLong = new cpuGaugeField(cpuLongParam);

     ghost_longlink_cpu = cpuLong->Ghost();

 #endif


     gauge_param.type = (dslash_type == QUDA_ASQTAD_DSLASH) ? QUDA_ASQTAD_FAT_LINKS : QUDA_SU3_LINKS;

     if (dslash_type == QUDA_STAGGERED_DSLASH) {

       gauge_param.reconstruct = gauge_param.reconstruct_sloppy = (link_recon == QUDA_RECONSTRUCT_12) ?

         QUDA_RECONSTRUCT_13 :

         (link_recon == QUDA_RECONSTRUCT_8) ? QUDA_RECONSTRUCT_9 : link_recon;

     } else {

       gauge_param.reconstruct = gauge_param.reconstruct_sloppy = QUDA_RECONSTRUCT_NO;

     }


     // set verbosity prior to loadGaugeQuda

     setVerbosity(verbosity);


     printfQuda("Sending fat links to GPU\n");

     loadGaugeQuda(milc_fatlink_gpu, &gauge_param);


     gauge_param.type = QUDA_ASQTAD_LONG_LINKS;


 #ifdef MULTI_GPU

     gauge_param.ga_pad *= 3;

 #endif


     if (dslash_type == QUDA_ASQTAD_DSLASH) {

       gauge_param.staggered_phase_type = QUDA_STAGGERED_PHASE_NO;

       gauge_param.reconstruct = gauge_param.reconstruct_sloppy = (link_recon == QUDA_RECONSTRUCT_12) ?

         QUDA_RECONSTRUCT_13 :

         (link_recon == QUDA_RECONSTRUCT_8) ? QUDA_RECONSTRUCT_9 : link_recon;

       printfQuda("Sending long links to GPU\n");

       loadGaugeQuda(milc_longlink_gpu, &gauge_param);

     }


     ColorSpinorParam csParam;

     csParam.nColor = 3;

     csParam.nSpin = 1;

     csParam.nDim = 5;

     for (int d = 0; d < 4; d++) { csParam.x[d] = gauge_param.X[d]; }

     csParam.x[4] = 1;


     csParam.setPrecision(inv_param.cpu_prec);

     // inv_param.solution_type = QUDA_MAT_SOLUTION;

     csParam.pad = 0;

     if (dtest_type != dslash_test_type::Mat && dslash_type != QUDA_LAPLACE_DSLASH) {

       csParam.siteSubset = QUDA_PARITY_SITE_SUBSET;

       csParam.x[0] /= 2;

       inv_param.solution_type = QUDA_MATPC_SOLUTION;

     } else {

       csParam.siteSubset = QUDA_FULL_SITE_SUBSET;

       inv_param.solution_type = QUDA_MAT_SOLUTION;

     }


     csParam.siteOrder = QUDA_EVEN_ODD_SITE_ORDER;

     csParam.fieldOrder = QUDA_SPACE_SPIN_COLOR_FIELD_ORDER;

     csParam.gammaBasis = inv_param.gamma_basis; // this parameter is meaningless for staggered

     csParam.create = QUDA_ZERO_FIELD_CREATE;


     spinor = new cpuColorSpinorField(csParam);

     spinorOut = new cpuColorSpinorField(csParam);

     spinorRef = new cpuColorSpinorField(csParam);

     tmpCpu = new cpuColorSpinorField(csParam);


     spinor->Source(QUDA_RANDOM_SOURCE);


     if (test_split_grid) {

       inv_param.num_src = num_src;

       inv_param.num_src_per_sub_partition = 1;

       for (int n = 0; n < num_src; n++) {

         vp_spinor.push_back(new cpuColorSpinorField(csParam));

         vp_spinor_out.push_back(new cpuColorSpinorField(csParam));

         *vp_spinor[n] = *spinor;

       }

     }


     csParam.fieldOrder = QUDA_FLOAT2_FIELD_ORDER;

     csParam.pad = inv_param.sp_pad;

     csParam.setPrecision(inv_param.cuda_prec);


     cudaSpinor = new cudaColorSpinorField(csParam);

     cudaSpinorOut = new cudaColorSpinorField(csParam);

     *cudaSpinor = *spinor;

     tmp = new cudaColorSpinorField(csParam);


     bool pc = (dtest_type == dslash_test_type::MatPC); // For test_type 0, can use either pc or not pc

     // because both call the same "Dslash" directly.

     DiracParam diracParam;

     setDiracParam(diracParam, &inv_param, pc);

     diracParam.tmp1 = tmp;

     dirac = Dirac::create(diracParam);


     for (int dir = 0; dir < 4; dir++) {

       free(qdp_fatlink_gpu[dir]);

       qdp_fatlink_gpu[dir] = nullptr;

       free(qdp_longlink_gpu[dir]);

       qdp_longlink_gpu[dir] = nullptr;

     }

     // free(milc_fatlink_gpu); milc_fatlink_gpu = nullptr;

     // free(milc_longlink_gpu); milc_longlink_gpu = nullptr;

     free(milc_fatlink_cpu);

     milc_fatlink_cpu = nullptr;

     free(milc_longlink_cpu);

     milc_longlink_cpu = nullptr;


     // gauge_param.reconstruct = link_recon;

   }


   void end()

   {

     for (int dir = 0; dir < 4; dir++) {

       if (qdp_fatlink_cpu[dir] != nullptr) {

         free(qdp_fatlink_cpu[dir]);

         qdp_fatlink_cpu[dir] = nullptr;

       }

       if (qdp_longlink_cpu[dir] != nullptr) {

         free(qdp_longlink_cpu[dir]);

         qdp_longlink_cpu[dir] = nullptr;

       }

     }


     if (dirac != nullptr) {

       delete dirac;

       dirac = nullptr;

     }

     if (cudaSpinor != nullptr) {

       delete cudaSpinor;

       cudaSpinor = nullptr;

     }

     if (cudaSpinorOut != nullptr) {

       delete cudaSpinorOut;

       cudaSpinorOut = nullptr;

     }

     if (tmp != nullptr) {

       delete tmp;

       tmp = nullptr;

     }


     if (spinor != nullptr) {

       delete spinor;

       spinor = nullptr;

     }

     if (spinorOut != nullptr) {

       delete spinorOut;

       spinorOut = nullptr;

     }

     if (spinorRef != nullptr) {

       delete spinorRef;

       spinorRef = nullptr;

     }

     if (tmpCpu != nullptr) {

       delete tmpCpu;

       tmpCpu = nullptr;

     }


     if (test_split_grid) {

       for (auto p : vp_spinor) { delete p; }

       for (auto p : vp_spinor_out) { delete p; }

       vp_spinor.clear();

       vp_spinor_out.clear();

     }


     free(milc_fatlink_gpu);

     milc_fatlink_gpu = nullptr;

     free(milc_longlink_gpu);

     milc_longlink_gpu = nullptr;


     freeGaugeQuda();


     if (cpuFat) {

       delete cpuFat;

       cpuFat = nullptr;

     }

     if (cpuLong) {

       delete cpuLong;

       cpuLong = nullptr;

     }

     commDimPartitionedReset();

   }


   DslashTime dslashCUDA(int niter)

   {


     DslashTime dslash_time;

     timeval tstart, tstop;


     cudaEvent_t start, end;

     cudaEventCreate(&start);

     cudaEventRecord(start, 0);

     cudaEventSynchronize(start);


     comm_barrier();

     cudaEventRecord(start, 0);


     if (test_split_grid) {


       std::vector<void *> _hp_x(inv_param.num_src);

       std::vector<void *> _hp_b(inv_param.num_src);

       for (int i = 0; i < inv_param.num_src; i++) {

         _hp_x[i] = vp_spinor_out[i]->V();

         _hp_b[i] = vp_spinor[i]->V();

       }

       dslashMultiSrcStaggeredQuda(_hp_x.data(), _hp_b.data(), &inv_param, parity, milc_fatlink_gpu, milc_longlink_gpu,

                                   &gauge_param);


     } else {


       for (int i = 0; i < niter; i++) {


         gettimeofday(&tstart, NULL);


         switch (dtest_type) {

         case dslash_test_type::Dslash: dirac->Dslash(*cudaSpinorOut, *cudaSpinor, parity); break;

         case dslash_test_type::MatPC: dirac->M(*cudaSpinorOut, *cudaSpinor); break;

         case dslash_test_type::Mat: dirac->M(*cudaSpinorOut, *cudaSpinor); break;

         default: errorQuda("Test type %d not defined on staggered dslash.\n", static_cast<int>(dtest_type));

         }


         gettimeofday(&tstop, NULL);

         long ds = tstop.tv_sec - tstart.tv_sec;

         long dus = tstop.tv_usec - tstart.tv_usec;

         double elapsed = ds + 0.000001 * dus;


         dslash_time.cpu_time += elapsed;

         // skip first and last iterations since they may skew these metrics if comms are not synchronous

         if (i > 0 && i < niter) {

           if (elapsed < dslash_time.cpu_min) dslash_time.cpu_min = elapsed;

           if (elapsed > dslash_time.cpu_max) dslash_time.cpu_max = elapsed;

         }

       }

     }


     cudaEventCreate(&end);

     cudaEventRecord(end, 0);

     cudaEventSynchronize(end);

     float runTime;

     cudaEventElapsedTime(&runTime, start, end);

     cudaEventDestroy(start);

     cudaEventDestroy(end);


     dslash_time.event_time = runTime / 1000;


     return dslash_time;

   }


   void run_test(int niter, bool print_metrics = false)

   {

     printfQuda("Tuning...\n");

     dslashCUDA(1);


     // reset flop counter

     dirac->Flops();


     DslashTime dslash_time = dslashCUDA(niter);

     *spinorOut = *cudaSpinorOut;


     if (print_metrics) {

       printfQuda("%fus per kernel call\n", 1e6 * dslash_time.event_time / niter);


       unsigned long long flops = dirac->Flops();

       double gflops = 1.0e-9 * flops / dslash_time.event_time;

       printfQuda("GFLOPS = %f\n", gflops);

       ::testing::Test::RecordProperty("Gflops", std::to_string(gflops));


       size_t ghost_bytes = cudaSpinor->GhostBytes();


       ::testing::Test::RecordProperty("Halo_bidirectitonal_BW_GPU",

                                       1.0e-9 * 2 * ghost_bytes * niter / dslash_time.event_time);

       ::testing::Test::RecordProperty("Halo_bidirectitonal_BW_CPU",

                                       1.0e-9 * 2 * ghost_bytes * niter / dslash_time.cpu_time);

       ::testing::Test::RecordProperty("Halo_bidirectitonal_BW_CPU_min", 1.0e-9 * 2 * ghost_bytes / dslash_time.cpu_max);

       ::testing::Test::RecordProperty("Halo_bidirectitonal_BW_CPU_max", 1.0e-9 * 2 * ghost_bytes / dslash_time.cpu_min);

       ::testing::Test::RecordProperty("Halo_message_size_bytes", 2 * ghost_bytes);


       printfQuda(

         "Effective halo bi-directional bandwidth (GB/s) GPU = %f ( CPU = %f, min = %f , max = %f ) for aggregate "

         "message size %lu bytes\n",

         1.0e-9 * 2 * ghost_bytes * niter / dslash_time.event_time,

         1.0e-9 * 2 * ghost_bytes * niter / dslash_time.cpu_time, 1.0e-9 * 2 * ghost_bytes / dslash_time.cpu_max,

         1.0e-9 * 2 * ghost_bytes / dslash_time.cpu_min, 2 * ghost_bytes);

     }

   }


   double verify()

   {

     double deviation = 0.0;


     if (test_split_grid) {

       for (int n = 0; n < num_src; n++) {

         double spinor_ref_norm2 = blas::norm2(*spinorRef);

         double spinor_out_norm2 = blas::norm2(*vp_spinor_out[n]);


         bool failed = false;

         // Catching nans is weird.

         if (std::isnan(spinor_ref_norm2)) { failed = true; }

         if (std::isnan(spinor_out_norm2)) { failed = true; }


         printfQuda("Results: CPU=%f, CPU-CUDA=%f\n", spinor_ref_norm2, spinor_out_norm2);

         deviation = std::max(deviation, pow(10, -(double)(cpuColorSpinorField::Compare(*spinorRef, *vp_spinor_out[n]))));

         if (failed) { deviation = 1.0; }

       }

     } else {

       double spinor_ref_norm2 = blas::norm2(*spinorRef);

       double spinor_out_norm2 = blas::norm2(*spinorOut);


       bool failed = false;

       // Catching nans is weird.

       if (std::isnan(spinor_ref_norm2)) { failed = true; }

       if (std::isnan(spinor_out_norm2)) { failed = true; }


       double cuda_spinor_out_norm2 = blas::norm2(*cudaSpinorOut);

       printfQuda("Results: CPU=%f, CUDA=%f, CPU-CUDA=%f\n", spinor_ref_norm2, cuda_spinor_out_norm2, spinor_out_norm2);

       deviation = pow(10, -(double)(cpuColorSpinorField::Compare(*spinorRef, *spinorOut)));

       if (failed) { deviation = 1.0; }

     }


     return deviation;

   }

 };

quda::ColorSpinorField::Length
size_t Length() const
Definition: color_spinor_field.h:487

quda::ColorSpinorField::Odd
const ColorSpinorField & Odd() const
Definition: color_spinor_field.cpp:578

quda::ColorSpinorField::GhostBytes
size_t GhostBytes() const
Definition: color_spinor_field.h:495

quda::ColorSpinorField::V
void * V()
Definition: color_spinor_field.h:500

quda::ColorSpinorField::Even
const ColorSpinorField & Even() const
Definition: color_spinor_field.cpp:570

quda::ColorSpinorParam
Definition: color_spinor_field.h:131

quda::ColorSpinorParam::gammaBasis
QudaGammaBasis gammaBasis
Definition: color_spinor_field.h:145

quda::ColorSpinorParam::nColor
int nColor
Definition: color_spinor_field.h:136

quda::ColorSpinorParam::setPrecision
void setPrecision(QudaPrecision precision, QudaPrecision ghost_precision=QUDA_INVALID_PRECISION, bool force_native=false)
Definition: color_spinor_field.h:172

quda::ColorSpinorParam::fieldOrder
QudaFieldOrder fieldOrder
Definition: color_spinor_field.h:144

quda::ColorSpinorParam::siteOrder
QudaSiteOrder siteOrder
Definition: color_spinor_field.h:142

quda::ColorSpinorParam::nSpin
int nSpin
Definition: color_spinor_field.h:137

quda::ColorSpinorParam::create
QudaFieldCreate create
Definition: color_spinor_field.h:146

quda::Dirac
Definition: dirac_quda.h:133

quda::Dirac::Flops
unsigned long long Flops() const
returns and then zeroes flopcount
Definition: dirac_quda.h:313

quda::Dirac::create
static Dirac * create(const DiracParam &param)
Creates a subclass from parameters.
Definition: dirac.cpp:151

quda::DiracParam
Definition: dirac_quda.h:21

quda::DiracParam::tmp1
ColorSpinorField * tmp1
Definition: dirac_quda.h:52

quda::GaugeCovDev::M
virtual void M(ColorSpinorField &out, const ColorSpinorField &in) const
Apply M for the dirac op. E.g. the Schur Complement operator.
Definition: gauge_covdev.cpp:63

quda::GaugeCovDev::Dslash
virtual void Dslash(ColorSpinorField &out, const ColorSpinorField &in, const QudaParity parity) const
apply 'dslash' operator for the DiracOp. This may be e.g. AD
Definition: gauge_covdev.cpp:49

quda::GaugeField::Ghost
const void ** Ghost() const
Definition: gauge_field.h:368

quda::cpuColorSpinorField
Definition: color_spinor_field.h:976

quda::cpuColorSpinorField::Source
void Source(const QudaSourceType sourceType, const int st=0, const int s=0, const int c=0)
Definition: cpu_color_spinor_field.cpp:245

quda::cpuColorSpinorField::Compare
static int Compare(const cpuColorSpinorField &a, const cpuColorSpinorField &b, const int resolution=1)
Perform a component by component comparison of two color-spinor fields. In doing we normalize with re...
Definition: cpu_color_spinor_field.cpp:249

quda::cpuGaugeField
Definition: gauge_field.h:626

quda::cudaColorSpinorField
Definition: color_spinor_field.h:682

testing::Test::RecordProperty
static void RecordProperty(const std::string &key, const std::string &value)

comm_barrier
void comm_barrier(void)
Definition: communicator_stack.cpp:192

commDimPartitionedReset
void commDimPartitionedReset()
Reset the comm dim partioned array to zero,.
Definition: communicator_stack.cpp:210

kappa
double kappa
Definition: command_line_params.cpp:72

mass
double mass
Definition: command_line_params.cpp:71

link_recon
QudaReconstructType link_recon
Definition: command_line_params.cpp:22

niter
int niter
Definition: command_line_params.cpp:49

verbosity
QudaVerbosity verbosity
Definition: command_line_params.cpp:33

grid_partition
std::array< int, 4 > grid_partition
Definition: command_line_params.cpp:246

dslash_type
QudaDslashType dslash_type
Definition: command_line_params.cpp:41

Nsrc
int Nsrc
Definition: command_line_params.cpp:47

prec
QudaPrecision prec
Definition: command_line_params.cpp:26

dagger
bool dagger
Definition: command_line_params.cpp:40

command_line_params.h

V
int V
Definition: host_utils.cpp:37

setDims
void setDims(int *)
Definition: host_utils.cpp:315

end
void end(void)
Definition: covdev_test.cpp:141

dirac
GaugeCovDev * dirac
Definition: covdev_test.cpp:42

dslashCUDA
double dslashCUDA(int niter, int mu)
Definition: covdev_test.cpp:160

cudaSpinor
cudaColorSpinorField * cudaSpinor
Definition: covdev_test.cpp:32

parity
QudaParity parity
Definition: covdev_test.cpp:40

cudaSpinorOut
cudaColorSpinorField * cudaSpinorOut
Definition: covdev_test.cpp:32

tmp
cudaColorSpinorField * tmp
Definition: covdev_test.cpp:34

spinor
cpuColorSpinorField * spinor
Definition: covdev_test.cpp:31

spinorOut
cpuColorSpinorField * spinorOut
Definition: covdev_test.cpp:31

spinorRef
cpuColorSpinorField * spinorRef
Definition: covdev_test.cpp:31

gauge_param
QudaGaugeParam gauge_param
Definition: covdev_test.cpp:26

inv_param
QudaInvertParam inv_param
Definition: covdev_test.cpp:27

dirac_quda.h

argc_copy
int argc_copy
Definition: dslash_ctest.cpp:8

argv_copy
char ** argv_copy
Definition: dslash_ctest.cpp:9

dslash_reference.h

dslash_test_helpers.h

dslash_test_type
dslash_test_type
Definition: dslash_test_helpers.h:5

dslash_test_type::Dslash
@ Dslash

dslash_test_type::Mat
@ Mat

dslash_test_type::MatPC
@ MatPC

QUDA_RANDOM_SOURCE
@ QUDA_RANDOM_SOURCE
Definition: enum_quda.h:376

QUDA_STAGGERED_PHASE_NO
@ QUDA_STAGGERED_PHASE_NO
Definition: enum_quda.h:515

QUDA_STAGGERED_DSLASH
@ QUDA_STAGGERED_DSLASH
Definition: enum_quda.h:97

QUDA_ASQTAD_DSLASH
@ QUDA_ASQTAD_DSLASH
Definition: enum_quda.h:98

QUDA_LAPLACE_DSLASH
@ QUDA_LAPLACE_DSLASH
Definition: enum_quda.h:101

QUDA_DAG_NO
@ QUDA_DAG_NO
Definition: enum_quda.h:223

QUDA_DAG_YES
@ QUDA_DAG_YES
Definition: enum_quda.h:223

QUDA_SUMMARIZE
@ QUDA_SUMMARIZE
Definition: enum_quda.h:266

QUDA_FULL_SITE_SUBSET
@ QUDA_FULL_SITE_SUBSET
Definition: enum_quda.h:333

QUDA_PARITY_SITE_SUBSET
@ QUDA_PARITY_SITE_SUBSET
Definition: enum_quda.h:332

QUDA_RECONSTRUCT_NO
@ QUDA_RECONSTRUCT_NO
Definition: enum_quda.h:70

QUDA_RECONSTRUCT_12
@ QUDA_RECONSTRUCT_12
Definition: enum_quda.h:71

QUDA_RECONSTRUCT_13
@ QUDA_RECONSTRUCT_13
Definition: enum_quda.h:74

QUDA_RECONSTRUCT_8
@ QUDA_RECONSTRUCT_8
Definition: enum_quda.h:72

QUDA_RECONSTRUCT_9
@ QUDA_RECONSTRUCT_9
Definition: enum_quda.h:73

QUDA_EVEN_PARITY
@ QUDA_EVEN_PARITY
Definition: enum_quda.h:284

QUDA_ODD_PARITY
@ QUDA_ODD_PARITY
Definition: enum_quda.h:284

QUDA_GHOST_EXCHANGE_PAD
@ QUDA_GHOST_EXCHANGE_PAD
Definition: enum_quda.h:509

QUDA_EVEN_ODD_SITE_ORDER
@ QUDA_EVEN_ODD_SITE_ORDER
Definition: enum_quda.h:340

QudaReconstructType
enum QudaReconstructType_s QudaReconstructType

QUDA_MATPC_SOLUTION
@ QUDA_MATPC_SOLUTION
Definition: enum_quda.h:159

QUDA_MAT_SOLUTION
@ QUDA_MAT_SOLUTION
Definition: enum_quda.h:157

QUDA_FLOAT2_FIELD_ORDER
@ QUDA_FLOAT2_FIELD_ORDER
Definition: enum_quda.h:348

QUDA_SPACE_SPIN_COLOR_FIELD_ORDER
@ QUDA_SPACE_SPIN_COLOR_FIELD_ORDER
Definition: enum_quda.h:351

QUDA_ZERO_FIELD_CREATE
@ QUDA_ZERO_FIELD_CREATE
Definition: enum_quda.h:361

QudaParity
enum QudaParity_s QudaParity

QUDA_SU3_LINKS
@ QUDA_SU3_LINKS
Definition: enum_quda.h:24

QUDA_ASQTAD_LONG_LINKS
@ QUDA_ASQTAD_LONG_LINKS
Definition: enum_quda.h:32

QUDA_ASQTAD_FAT_LINKS
@ QUDA_ASQTAD_FAT_LINKS
Definition: enum_quda.h:31

gauge_site_size
#define gauge_site_size
Definition: face_gauge.cpp:34

gauge_field.h

gtest.h

host_gauge_data_type_size
size_t host_gauge_data_type_size
Definition: host_utils.cpp:65

dw_setDims
void dw_setDims(int *X, const int L5)
Definition: host_utils.cpp:353

host_utils.h

setStaggeredInvertParam
void setStaggeredInvertParam(QudaInvertParam &inv_param)
Definition: set_params.cpp:868

constructStaggeredHostDeviceGaugeField
void constructStaggeredHostDeviceGaugeField(void **qdp_inlink, void **qdp_longlink_cpu, void **qdp_longlink_gpu, void **qdp_fatlink_cpu, void **qdp_fatlink_gpu, QudaGaugeParam &gauge_param, int argc, char **argv, bool &gauge_loaded)
Definition: staggered_host_utils.cpp:46

reorderQDPtoMILC
void reorderQDPtoMILC(void *milc_out, void **qdp_in, int V, int siteSize, QudaPrecision out_precision, QudaPrecision in_precision)
Definition: staggered_host_utils.cpp:723

setStaggeredGaugeParam
void setStaggeredGaugeParam(QudaGaugeParam &gauge_param)
Definition: set_params.cpp:69

getPrecision
QudaPrecision getPrecision(int i)
Definition: host_utils.h:222

misc.h

quda::blas_lapack::native::init
void init()
Create the BLAS context.
Definition: blas_lapack_cublas.cpp:28

quda::blas::flops
unsigned long long flops

quda::blas::xpay
void xpay(ColorSpinorField &x, double a, ColorSpinorField &y)
Definition: blas_quda.h:45

quda::blas::norm2
double norm2(const ColorSpinorField &a)

quda::blas::axpy
void axpy(double a, ColorSpinorField &x, ColorSpinorField &y)
Definition: blas_quda.h:43

quda::device::profile::start
void start()
Start profiling.
Definition: device.cpp:226

quda
Definition: blas_lapack.h:24

quda::pow
__host__ __device__ ValueType pow(ValueType x, ExponentType e)
Definition: complex_quda.h:111

quda::setDiracParam
void setDiracParam(DiracParam &diracParam, QudaInvertParam *inv_param, bool pc)
Definition: interface_quda.cpp:1570

csParam
ColorSpinorParam csParam
Definition: pack_test.cpp:25

quda.h
Main header file for the QUDA library.

newQudaGaugeParam
QudaGaugeParam newQudaGaugeParam(void)

freeGaugeQuda
void freeGaugeQuda(void)
Definition: interface_quda.cpp:1190

loadGaugeQuda
void loadGaugeQuda(void *h_gauge, QudaGaugeParam *param)
Definition: interface_quda.cpp:553

newQudaInvertParam
QudaInvertParam newQudaInvertParam(void)

dslashMultiSrcStaggeredQuda
void dslashMultiSrcStaggeredQuda(void **_hp_x, void **_hp_b, QudaInvertParam *param, QudaParity parity, void *milc_fatlinks, void *milc_longlinks, QudaGaugeParam *gauge_param)
Really the same with @dslashMultiSrcQuda but for staggered-style fermions, by accepting pointers to f...
Definition: interface_quda.cpp:3641

gauge_loaded
bool gauge_loaded
Definition: staggered_dslash_ctest.cpp:7

staggeredMatDagMat
void staggeredMatDagMat(ColorSpinorField *out, void **fatlink, void **longlink, void **ghost_fatlink, void **ghost_longlink, ColorSpinorField *in, double mass, int dagger_bit, QudaPrecision sPrecision, QudaPrecision gPrecision, ColorSpinorField *tmp, QudaParity parity, QudaDslashType dslash_type)
Definition: staggered_dslash_reference.cpp:170

staggeredDslash
void staggeredDslash(ColorSpinorField *out, void **fatlink, void **longlink, void **ghost_fatlink, void **ghost_longlink, ColorSpinorField *in, int oddBit, int daggerBit, QudaPrecision sPrecision, QudaPrecision gPrecision, QudaDslashType dslash_type)
Definition: staggered_dslash_reference.cpp:126

staggered_dslash_reference.h

dtest_type_map
CLI::TransformPairs< dslash_test_type > dtest_type_map
Definition: staggered_dslash_test_utils.h:26

dtest_type
dslash_test_type dtest_type
Definition: staggered_dslash_test_utils.h:25

staggered_gauge_utils.h

DslashTime
Definition: dslash_test_utils.h:41

DslashTime::cpu_min
double cpu_min
Definition: dslash_test_utils.h:44

DslashTime::cpu_time
double cpu_time
Definition: dslash_test_utils.h:43

DslashTime::event_time
double event_time
Definition: dslash_test_utils.h:42

DslashTime::cpu_max
double cpu_max
Definition: dslash_test_utils.h:45

DslashTime::DslashTime
DslashTime()
Definition: staggered_dslash_test_utils.h:42

QudaGaugeParam_s
Definition: quda.h:31

QudaGaugeParam_s::reconstruct
QudaReconstructType reconstruct
Definition: quda.h:49

QudaGaugeParam_s::cuda_prec_precondition
QudaPrecision cuda_prec_precondition
Definition: quda.h:57

QudaGaugeParam_s::ga_pad
int ga_pad
Definition: quda.h:65

QudaGaugeParam_s::type
QudaLinkType type
Definition: quda.h:41

QudaGaugeParam_s::cuda_prec_refinement_sloppy
QudaPrecision cuda_prec_refinement_sloppy
Definition: quda.h:54

QudaGaugeParam_s::cuda_prec_sloppy
QudaPrecision cuda_prec_sloppy
Definition: quda.h:51

QudaGaugeParam_s::reconstruct_sloppy
QudaReconstructType reconstruct_sloppy
Definition: quda.h:52

QudaGaugeParam_s::cuda_prec
QudaPrecision cuda_prec
Definition: quda.h:48

QudaGaugeParam_s::staggered_phase_type
QudaStaggeredPhase staggered_phase_type
Definition: quda.h:73

QudaGaugeParam_s::X
int X[4]
Definition: quda.h:35

QudaGaugeParam_s::cpu_prec
QudaPrecision cpu_prec
Definition: quda.h:46

QudaInvertParam_s
Definition: quda.h:98

QudaInvertParam_s::solution_type
QudaSolutionType solution_type
Definition: quda.h:228

QudaInvertParam_s::sp_pad
int sp_pad
Definition: quda.h:273

QudaInvertParam_s::split_grid
int split_grid[QUDA_MAX_DIM]
Definition: quda.h:195

QudaInvertParam_s::cuda_prec
QudaPrecision cuda_prec
Definition: quda.h:238

QudaInvertParam_s::num_src
int num_src
Definition: quda.h:188

QudaInvertParam_s::num_src_per_sub_partition
int num_src_per_sub_partition
Definition: quda.h:190

QudaInvertParam_s::dagger
QudaDagType dagger
Definition: quda.h:231

QudaInvertParam_s::cpu_prec
QudaPrecision cpu_prec
Definition: quda.h:237

QudaInvertParam_s::gamma_basis
QudaGammaBasis gamma_basis
Definition: quda.h:246

StaggeredDslashTestWrapper
Definition: staggered_dslash_test_utils.h:45

StaggeredDslashTestWrapper::run_test
void run_test(int niter, bool print_metrics=false)
Definition: staggered_dslash_test_utils.h:530

StaggeredDslashTestWrapper::dslashCUDA
DslashTime dslashCUDA(int niter)
Definition: staggered_dslash_test_utils.h:465

StaggeredDslashTestWrapper::vp_spinor_out
std::vector< cpuColorSpinorField * > vp_spinor_out
Definition: staggered_dslash_test_utils.h:69

StaggeredDslashTestWrapper::dirac
Dirac * dirac
Definition: staggered_dslash_test_utils.h:89

StaggeredDslashTestWrapper::init
void init()
Definition: staggered_dslash_test_utils.h:213

StaggeredDslashTestWrapper::verify
double verify()
Definition: staggered_dslash_test_utils.h:568

StaggeredDslashTestWrapper::init_test
void init_test()
Definition: staggered_dslash_test_utils.h:202

StaggeredDslashTestWrapper::milc_fatlink_gpu
void * milc_fatlink_gpu
Definition: staggered_dslash_test_utils.h:54

StaggeredDslashTestWrapper::gauge_param
QudaGaugeParam gauge_param
Definition: staggered_dslash_test_utils.h:51

StaggeredDslashTestWrapper::init_ctest_once
void init_ctest_once()
Definition: staggered_dslash_test_utils.h:131

StaggeredDslashTestWrapper::argv_copy
char ** argv_copy
Definition: staggered_dslash_test_utils.h:93

StaggeredDslashTestWrapper::ghost_fatlink_cpu
void ** ghost_fatlink_cpu
Definition: staggered_dslash_test_utils.h:74

StaggeredDslashTestWrapper::test_split_grid
int test_split_grid
Definition: staggered_dslash_test_utils.h:97

StaggeredDslashTestWrapper::staggeredDslashRef
void staggeredDslashRef()
Definition: staggered_dslash_test_utils.h:99

StaggeredDslashTestWrapper::end_ctest_once
void end_ctest_once()
Definition: staggered_dslash_test_utils.h:151

StaggeredDslashTestWrapper::milc_longlink_gpu
void * milc_longlink_gpu
Definition: staggered_dslash_test_utils.h:55

StaggeredDslashTestWrapper::vp_spinor
std::vector< cpuColorSpinorField * > vp_spinor
Definition: staggered_dslash_test_utils.h:68

StaggeredDslashTestWrapper::num_src
int num_src
Definition: staggered_dslash_test_utils.h:96

StaggeredDslashTestWrapper::argc_copy
int argc_copy
Definition: staggered_dslash_test_utils.h:92

StaggeredDslashTestWrapper::init_ctest
void init_ctest(int precision, QudaReconstructType link_recon_, int partition)
Definition: staggered_dslash_test_utils.h:179

StaggeredDslashTestWrapper::inv_param
QudaInvertParam inv_param
Definition: staggered_dslash_test_utils.h:52

StaggeredDslashTestWrapper::end
void end()
Definition: staggered_dslash_test_utils.h:393

quda::GaugeFieldParam
Definition: gauge_field.h:44

quda::LatticeFieldParam::pad
int pad
Definition: lattice_field.h:70

quda::LatticeFieldParam::ghostExchange
QudaGhostExchange ghostExchange
Definition: lattice_field.h:77

quda::LatticeFieldParam::nDim
int nDim
Definition: lattice_field.h:65

quda::LatticeFieldParam::x
int x[QUDA_MAX_DIM]
Definition: lattice_field.h:68

quda::LatticeFieldParam::siteSubset
QudaSiteSubset siteSubset
Definition: lattice_field.h:72

printfQuda
#define printfQuda(...)
Definition: util_quda.h:114

warningQuda
#define warningQuda(...)
Definition: util_quda.h:132

setVerbosity
void setVerbosity(QudaVerbosity verbosity)
Definition: util_quda.cpp:25

errorQuda
#define errorQuda(...)
Definition: util_quda.h:120