quda-ref/v0.7.0/llfat__quda__itf_8cpp_source.html

 #include <stdio.h>

 #include <cuda_runtime.h>

 #include <cuda.h>


 #include <quda_internal.h>

 #include <read_gauge.h>

 #include "gauge_field.h"

 #include <force_common.h>

 #include "llfat_quda.h"

 #include <face_quda.h>


 #define BLOCK_DIM 64

 #define MIN_COEFF 1e-7


 extern void exchange_gpu_staple_start(int* X, void* _cudaStaple, int dir, int whichway, cudaStream_t * stream);

 extern void exchange_gpu_staple_comms(int* X, void* _cudaStaple, int dir, int whichway, cudaStream_t * stream);

 extern void exchange_gpu_staple_wait(int* X, void* _cudaStaple, int dir, int whichway, cudaStream_t * stream);


 namespace quda {


   void

     llfat_cuda(cudaGaugeField* cudaFatLink,

         cudaGaugeField* cudaLongLink,

         cudaGaugeField& cudaSiteLink,

         cudaGaugeField& cudaStaple, cudaGaugeField& cudaStaple1,

         QudaGaugeParam* param, double* act_path_coeff)

     {

       int volume = param->X[0]*param->X[1]*param->X[2]*param->X[3];

       int Vh = volume/2;

       dim3 gridDim((volume + BLOCK_DIM-1)/BLOCK_DIM,1,1);

       dim3 halfGridDim((Vh + BLOCK_DIM-1)/BLOCK_DIM,1,1);

       dim3 blockDim(BLOCK_DIM , 1, 1);


       QudaPrecision prec = cudaSiteLink.Precision();

       QudaReconstructType recon = cudaSiteLink.Reconstruct();


       if( ((param->X[0] % 2 != 0)

             ||(param->X[1] % 2 != 0)

             ||(param->X[2] % 2 != 0)

             ||(param->X[3] % 2 != 0))

           && (recon  == QUDA_RECONSTRUCT_12)){

         errorQuda("12 reconstruct and odd dimensionsize is not supported by link fattening code (yet)\n");


       }


       int nStream=9;

       cudaStream_t stream[nStream];

       for(int i = 0;i < nStream; i++){

         cudaStreamCreate(&stream[i]);

       }


       llfat_kernel_param_t kparam;

       kparam.blockDim = blockDim;

       kparam.threads = Vh;

       kparam.halfGridDim = halfGridDim;

       kparam.D1 = param->X[0];

       kparam.D2 = param->X[1];

       kparam.D3 = param->X[2];

       kparam.D4 = param->X[3];

       kparam.D1h = param->X[0]/2;


       for(int i=0;i < 4;i++){

         kparam.ghostDim[i] = commDimPartitioned(i);

       }


       llfatOneLinkKernel(*cudaFatLink, cudaSiteLink,cudaStaple, cudaStaple1,

           param, act_path_coeff);

 #ifdef MULTI_GPU

       if(cudaLongLink)

         errorQuda("Multi-GPU long-link calculation requires extended gauge field\n");

 #else

       if(cudaLongLink)

         computeLongLinkCuda((void*)cudaLongLink->Even_p(), (void*)cudaLongLink->Odd_p(),

             (const void*)cudaSiteLink.Even_p(), (const void*)cudaSiteLink.Odd_p(),

             act_path_coeff[1], recon, prec, halfGridDim, kparam);

 #endif


       if(fabs(act_path_coeff[2]) < MIN_COEFF &&

           fabs(act_path_coeff[3]) < MIN_COEFF &&

           fabs(act_path_coeff[4]) < MIN_COEFF &&

           fabs(act_path_coeff[5]) < MIN_COEFF) return;


 #ifdef MULTI_GPU

       int ktype[8] = {

         LLFAT_EXTERIOR_KERNEL_BACK_X,

         LLFAT_EXTERIOR_KERNEL_FWD_X,

         LLFAT_EXTERIOR_KERNEL_BACK_Y,

         LLFAT_EXTERIOR_KERNEL_FWD_Y,

         LLFAT_EXTERIOR_KERNEL_BACK_Z,

         LLFAT_EXTERIOR_KERNEL_FWD_Z,

         LLFAT_EXTERIOR_KERNEL_BACK_T,

         LLFAT_EXTERIOR_KERNEL_FWD_T,

       };

 #endif


       for(int dir = 0;dir < 4; dir++){

         for(int nu = 0; nu < 4; nu++){

           if (nu != dir){


 #ifdef MULTI_GPU

             //start of one call

             for(int k=3; k >= 0 ;k--){

               if(!commDimPartitioned(k)) continue;


               kparam.kernel_type = ktype[2*k];

               siteComputeGenStapleParityKernel((void*)cudaStaple.Even_p(), (void*)cudaStaple.Odd_p(),

                   (const void*)cudaSiteLink.Even_p(), (const void*)cudaSiteLink.Odd_p(),

                   (void*)cudaFatLink->Even_p(), (void*)cudaFatLink->Odd_p(),

                   dir, nu,

                   act_path_coeff[2],

                   recon, prec, halfGridDim,

                   kparam, &stream[2*k]);


               exchange_gpu_staple_start(param->X, &cudaStaple, k, (int)QUDA_BACKWARDS, &stream[2*k]);


               kparam.kernel_type = ktype[2*k+1];

               siteComputeGenStapleParityKernel((void*)cudaStaple.Even_p(), (void*)cudaStaple.Odd_p(),

                   (const void*)cudaSiteLink.Even_p(), (const void*)cudaSiteLink.Odd_p(),

                   (void*)cudaFatLink->Even_p(), (void*)cudaFatLink->Odd_p(),

                   dir, nu,

                   act_path_coeff[2],

                   recon, prec, halfGridDim,

                   kparam, &stream[2*k+1]);

               exchange_gpu_staple_start(param->X, &cudaStaple, k, (int)QUDA_FORWARDS, &stream[2*k+1]);

             }

 #endif

             kparam.kernel_type = LLFAT_INTERIOR_KERNEL;

             siteComputeGenStapleParityKernel((void*)cudaStaple.Even_p(), (void*)cudaStaple.Odd_p(),

                 (const void*)cudaSiteLink.Even_p(), (const void*)cudaSiteLink.Odd_p(),

                 (void*)cudaFatLink->Even_p(), (void*)cudaFatLink->Odd_p(),

                 dir, nu,

                 act_path_coeff[2],

                 recon, prec, halfGridDim,

                 kparam, &stream[nStream-1]);


 #ifdef MULTI_GPU

             for(int k=3; k >= 0 ;k--){

               if(!commDimPartitioned(k)) continue;

               exchange_gpu_staple_comms(param->X, &cudaStaple, k, (int)QUDA_BACKWARDS, &stream[2*k]);

               exchange_gpu_staple_comms(param->X, &cudaStaple, k, (int)QUDA_FORWARDS, &stream[2*k+1]);

             }

             for(int k=3; k >= 0 ;k--){

               if(!commDimPartitioned(k)) continue;

               exchange_gpu_staple_wait(param->X, &cudaStaple, k, (int)QUDA_BACKWARDS, &stream[2*k]);

               exchange_gpu_staple_wait(param->X, &cudaStaple, k, (int)QUDA_FORWARDS, &stream[2*k+1]);

             }

             for(int k=3; k >= 0 ;k--){

               if(!commDimPartitioned(k)) continue;

               cudaStreamSynchronize(stream[2*k]);

               cudaStreamSynchronize(stream[2*k+1]);

             }

             cudaStreamSynchronize(stream[nStream-1]);

 #endif

             //end


             //start of one call

             kparam.kernel_type = LLFAT_INTERIOR_KERNEL;

             if(act_path_coeff[5] != 0.0){

               computeGenStapleFieldParityKernel((void*)NULL, (void*)NULL,

                   (const void*)cudaSiteLink.Even_p(), (const void*)cudaSiteLink.Odd_p(),

                   (void*)cudaFatLink->Even_p(), (void*)cudaFatLink->Odd_p(),

                   (const void*)cudaStaple.Even_p(), (const void*)cudaStaple.Odd_p(),

                   dir, nu, 0,

                   act_path_coeff[5],

                   recon, prec,  halfGridDim, kparam, &stream[nStream-1]);

             }


 #ifdef MULTI_GPU

             cudaStreamSynchronize(stream[nStream-1]);

 #endif

             //end


             for(int rho = 0; rho < 4; rho++){

               if (rho != dir && rho != nu){


                 //start of one call

 #ifdef MULTI_GPU

                 for(int k=3; k >= 0 ;k--){

                   if(!commDimPartitioned(k)) continue;

                   kparam.kernel_type = ktype[2*k];

                   computeGenStapleFieldParityKernel((void*)cudaStaple1.Even_p(), (void*)cudaStaple1.Odd_p(),

                       (const void*)cudaSiteLink.Even_p(), (const void*)cudaSiteLink.Odd_p(),

                       (void*)cudaFatLink->Even_p(), (void*)cudaFatLink->Odd_p(),

                       (const void*)cudaStaple.Even_p(), (const void*)cudaStaple.Odd_p(),

                       dir, rho, 1,

                       act_path_coeff[3],

                       recon, prec, halfGridDim, kparam, &stream[2*k]);

                   exchange_gpu_staple_start(param->X, &cudaStaple1, k, (int)QUDA_BACKWARDS, &stream[2*k]);

                   kparam.kernel_type = ktype[2*k+1];

                   computeGenStapleFieldParityKernel((void*)cudaStaple1.Even_p(), (void*)cudaStaple1.Odd_p(),

                       (const void*)cudaSiteLink.Even_p(), (const void*)cudaSiteLink.Odd_p(),

                       (void*)cudaFatLink->Even_p(), (void*)cudaFatLink->Odd_p(),

                       (const void*)cudaStaple.Even_p(), (const void*)cudaStaple.Odd_p(),

                       dir, rho, 1,

                       act_path_coeff[3],

                       recon, prec, halfGridDim, kparam, &stream[2*k+1]);

                   exchange_gpu_staple_start(param->X, &cudaStaple1, k, (int)QUDA_FORWARDS, &stream[2*k+1]);

                 }

 #endif


                 kparam.kernel_type = LLFAT_INTERIOR_KERNEL;

                 computeGenStapleFieldParityKernel((void*)cudaStaple1.Even_p(), (void*)cudaStaple1.Odd_p(),

                     (const void*)cudaSiteLink.Even_p(), (const void*)cudaSiteLink.Odd_p(),

                     (void*)cudaFatLink->Even_p(), (void*)cudaFatLink->Odd_p(),

                     (const void*)cudaStaple.Even_p(), (const void*)cudaStaple.Odd_p(),

                     dir, rho, 1,

                     act_path_coeff[3],

                     recon, prec, halfGridDim, kparam, &stream[nStream-1]);


 #ifdef MULTI_GPU

                 for(int k=3; k >= 0 ;k--){

                   if(!commDimPartitioned(k)) continue;

                   exchange_gpu_staple_comms(param->X, &cudaStaple1, k, (int)QUDA_BACKWARDS, &stream[2*k]);

                   exchange_gpu_staple_comms(param->X, &cudaStaple1, k, (int)QUDA_FORWARDS, &stream[2*k+1]);

                 }

                 for(int k=3; k >= 0 ;k--){

                   if(!commDimPartitioned(k)) continue;

                   exchange_gpu_staple_wait(param->X, &cudaStaple1, k, QUDA_BACKWARDS, &stream[2*k]);

                   exchange_gpu_staple_wait(param->X, &cudaStaple1, k, QUDA_FORWARDS, &stream[2*k+1]);

                 }

                 for(int k=3; k >= 0 ;k--){

                   if(!commDimPartitioned(k)) continue;

                   cudaStreamSynchronize(stream[2*k]);

                   cudaStreamSynchronize(stream[2*k+1]);

                 }

                 cudaStreamSynchronize(stream[nStream-1]);

 #endif

                 //end


                 for(int sig = 0; sig < 4; sig++){

                   if (sig != dir && sig != nu && sig != rho){


                     //start of one call

                     kparam.kernel_type = LLFAT_INTERIOR_KERNEL;

                     computeGenStapleFieldParityKernel((void*)NULL, (void*)NULL,

                         (const void*)cudaSiteLink.Even_p(), (const void*)cudaSiteLink.Odd_p(),

                         (void*)cudaFatLink->Even_p(), (void*)cudaFatLink->Odd_p(),

                         (const void*)cudaStaple1.Even_p(), (const void*)cudaStaple1.Odd_p(),

                         dir, sig, 0,

                         act_path_coeff[4],

                         recon, prec, halfGridDim, kparam, &stream[nStream-1]);


                     //end


                   }

                 }//sig


 #ifdef MULTI_GPU

                 cudaStreamSynchronize(stream[nStream-1]);

 #endif


               }

             }//rho

           }

         }//nu

       }//dir


       cudaDeviceSynchronize();

       checkCudaError();


       for(int i=0;i < nStream; i++){

         cudaStreamDestroy(stream[i]);

       }


       return;

     }


   void

     llfat_cuda_ex(cudaGaugeField* cudaFatLink, cudaGaugeField* cudaLongLink,

         cudaGaugeField& cudaSiteLink,

         cudaGaugeField& cudaStaple, cudaGaugeField& cudaStaple1,

         QudaGaugeParam* param, double* act_path_coeff)

     {


       dim3 blockDim(BLOCK_DIM, 1,1);


       int volume = (param->X[0])*(param->X[1])*(param->X[2])*(param->X[3]);

       int Vh = volume/2;

       dim3 halfGridDim((Vh+blockDim.x-1)/blockDim.x,1,1);


       int volume_1g = (param->X[0]+2)*(param->X[1]+2)*(param->X[2]+2)*(param->X[3]+2);

       int Vh_1g = volume_1g/2;

       dim3 halfGridDim_1g((Vh_1g+blockDim.x-1)/blockDim.x,1,1);


       int volume_2g = (param->X[0]+4)*(param->X[1]+4)*(param->X[2]+4)*(param->X[3]+4);

       int Vh_2g = volume_2g/2;

       dim3 halfGridDim_2g((Vh_2g+blockDim.x-1)/blockDim.x,1,1);


       QudaPrecision prec = cudaSiteLink.Precision();

       QudaReconstructType recon = cudaSiteLink.Reconstruct();


       if( ((param->X[0] % 2 != 0)

             ||(param->X[1] % 2 != 0)

             ||(param->X[2] % 2 != 0)

             ||(param->X[3] % 2 != 0))

           && (recon  == QUDA_RECONSTRUCT_12)){

         errorQuda("12 reconstruct and odd dimensionsize is not supported by link fattening code (yet)\n");


       }


       dim3 blockDim_ll(2*BLOCK_DIM, 1, 1);

       dim3 halfGridDim_ll((Vh+blockDim.x-1)/blockDim_ll.x,1,1);


       llfat_kernel_param_t kparam;

       llfat_kernel_param_t kparam_1g;

       llfat_kernel_param_t kparam_2g;

       llfat_kernel_param_t kparam_ll; // for the long-link calculation


       kparam.threads= Vh;

       kparam.halfGridDim = halfGridDim;

       kparam.D1 = param->X[0];

       kparam.D2 = param->X[1];

       kparam.D3 = param->X[2];

       kparam.D4 = param->X[3];

       kparam.D1h = param->X[0]/2;

       kparam.base_idx = 2;


       kparam_ll.threads = Vh;

       kparam_ll.halfGridDim = halfGridDim_ll;

       kparam_ll.D1 = param->X[0];

       kparam_ll.D2 = param->X[1];

       kparam_ll.D3 = param->X[2];

       kparam_ll.D4 = param->X[3];

       kparam_ll.D1h = param->X[0]/2;

       kparam_ll.base_idx = 2;

       kparam_ll.blockDim = blockDim_ll;


       kparam_1g.threads= Vh_1g;

       kparam_1g.halfGridDim = halfGridDim_1g;

       kparam_1g.D1 = param->X[0] + 2;

       kparam_1g.D2 = param->X[1] + 2;

       kparam_1g.D3 = param->X[2] + 2;

       kparam_1g.D4 = param->X[3] + 2;

       kparam_1g.D1h = (param->X[0] + 2)/2;

       kparam_1g.base_idx = 1;


       kparam_2g.threads= Vh_2g;

       kparam_2g.halfGridDim = halfGridDim_2g;

       kparam_2g.D1 = param->X[0] + 4;

       kparam_2g.D2 = param->X[1] + 4;

       kparam_2g.D3 = param->X[2] + 4;

       kparam_2g.D4 = param->X[3] + 4;

       kparam_2g.D1h = (param->X[0] + 4)/2;

       kparam_2g.base_idx = 0;


       kparam_1g.blockDim = kparam_2g.blockDim = kparam.blockDim = blockDim;


       llfatOneLinkKernel_ex(*cudaFatLink, cudaSiteLink,cudaStaple, cudaStaple1,

           param, act_path_coeff, kparam);


       if(cudaLongLink) // if this pointer is not NULL, compute the long link

         computeLongLinkCuda((void*)cudaLongLink->Even_p(), (void*)cudaLongLink->Odd_p(),

             (const void*)cudaSiteLink.Even_p(), (const void*)cudaSiteLink.Odd_p(),

             act_path_coeff[1], recon, prec, kparam_ll.halfGridDim, kparam_ll);


       // Check the coefficients. If all of the following are zero, return.

       if(fabs(act_path_coeff[2]) < MIN_COEFF &&

           fabs(act_path_coeff[3]) < MIN_COEFF &&

           fabs(act_path_coeff[4]) < MIN_COEFF &&

           fabs(act_path_coeff[5]) < MIN_COEFF) return;


       for(int dir = 0;dir < 4; dir++){

         for(int nu = 0; nu < 4; nu++){

           if (nu != dir){


             siteComputeGenStapleParityKernel_ex((void*)cudaStaple.Even_p(), (void*)cudaStaple.Odd_p(),

                 (const void*)cudaSiteLink.Even_p(), (const void*)cudaSiteLink.Odd_p(),

                 (void*)cudaFatLink->Even_p(), (void*)cudaFatLink->Odd_p(),

                 dir, nu,

                 act_path_coeff[2],

                 recon, prec, kparam_1g);


             if(act_path_coeff[5] != 0.0){

               computeGenStapleFieldParityKernel_ex((void*)NULL, (void*)NULL,

                   (const void*)cudaSiteLink.Even_p(), (const void*)cudaSiteLink.Odd_p(),

                   (void*)cudaFatLink->Even_p(), (void*)cudaFatLink->Odd_p(),

                   (const void*)cudaStaple.Even_p(), (const void*)cudaStaple.Odd_p(),

                   dir, nu, 0,

                   act_path_coeff[5],

                   recon, prec, kparam);

             }


             for(int rho = 0; rho < 4; rho++){

               if (rho != dir && rho != nu){


                 computeGenStapleFieldParityKernel_ex((void*)cudaStaple1.Even_p(), (void*)cudaStaple1.Odd_p(),

                     (const void*)cudaSiteLink.Even_p(), (const void*)cudaSiteLink.Odd_p(),

                     (void*)cudaFatLink->Even_p(), (void*)cudaFatLink->Odd_p(),

                     (const void*)cudaStaple.Even_p(), (const void*)cudaStaple.Odd_p(),

                     dir, rho, 1,

                     act_path_coeff[3],

                     recon, prec, kparam_1g);


                 if(fabs(act_path_coeff[4]) > MIN_COEFF){

                   for(int sig = 0; sig < 4; sig++){

                     if (sig != dir && sig != nu && sig != rho){


                       computeGenStapleFieldParityKernel_ex((void*)NULL, (void*)NULL,

                           (const void*)cudaSiteLink.Even_p(), (const void*)cudaSiteLink.Odd_p(),

                           (void*)cudaFatLink->Even_p(), (void*)cudaFatLink->Odd_p(),

                           (const void*)cudaStaple1.Even_p(), (const void*)cudaStaple1.Odd_p(),

                           dir, sig, 0,

                           act_path_coeff[4],

                           recon, prec, kparam);


                     }

                   }//sig

                 } // MIN_COEFF

               }

             }//rho

           }

         }//nu

       }//dir


       cudaDeviceSynchronize();

       checkCudaError();


       return;

     }


 } // namespace quda


 #undef BLOCK_DIM

LLFAT_EXTERIOR_KERNEL_BACK_X
#define LLFAT_EXTERIOR_KERNEL_BACK_X
Definition: llfat_quda.h:9

QUDA_BACKWARDS
Definition: enum_quda.h:367

Vh
__constant__ int Vh
Definition: dslash_constants.h:152

MIN_COEFF
#define MIN_COEFF
Definition: llfat_quda_itf.cpp:14

quda::llfat_kernel_param_s::D2
int D2
Definition: llfat_quda.h:25

quda::cudaGaugeField::Even_p
void * Even_p()
Definition: gauge_field.h:254

quda::llfat_cuda
void llfat_cuda(cudaGaugeField *cudaFatLink, cudaGaugeField *cudaLongLink, cudaGaugeField &cudaSiteLink, cudaGaugeField &cudaStaple, cudaGaugeField &cudaStaple1, QudaGaugeParam *param, double *act_path_coeff)
Definition: llfat_quda_itf.cpp:23

QudaPrecision
enum QudaPrecision_s QudaPrecision

exchange_gpu_staple_start
void exchange_gpu_staple_start(int *X, void *_cudaStaple, int dir, int whichway, cudaStream_t *stream)

commDimPartitioned
int commDimPartitioned(int dir)
Definition: face_buffer.cpp:539

quda::llfat_kernel_param_s::base_idx
int base_idx
Definition: llfat_quda.h:28

LLFAT_EXTERIOR_KERNEL_FWD_X
#define LLFAT_EXTERIOR_KERNEL_FWD_X
Definition: llfat_quda.h:8

errorQuda
#define errorQuda(...)
Definition: util_quda.h:73

exchange_gpu_staple_wait
void exchange_gpu_staple_wait(int *X, void *_cudaStaple, int dir, int whichway, cudaStream_t *stream)

quda::stream
cudaStream_t * stream
Definition: cuda_color_spinor_field.cu:816

quda::computeLongLinkCuda
void computeLongLinkCuda(void *outEven, void *outOdd, const void *const inEven, const void *const inOdd, double coeff, QudaReconstructType recon, QudaPrecision prec, dim3 halfGridDim, llfat_kernel_param_t kparam)

LLFAT_EXTERIOR_KERNEL_FWD_Z
#define LLFAT_EXTERIOR_KERNEL_FWD_Z
Definition: llfat_quda.h:12

quda::cudaGaugeField::Odd_p
void * Odd_p()
Definition: gauge_field.h:255

quda::llfat_kernel_param_s::kernel_type
int kernel_type
Definition: llfat_quda.h:22

LLFAT_EXTERIOR_KERNEL_BACK_T
#define LLFAT_EXTERIOR_KERNEL_BACK_T
Definition: llfat_quda.h:15

quda::llfat_kernel_param_s::ghostDim
int ghostDim[4]
Definition: llfat_quda.h:21

quda::llfat_kernel_param_s
Definition: llfat_quda.h:19

quda::llfat_kernel_param_s::blockDim
dim3 blockDim
Definition: llfat_quda.h:26

LLFAT_EXTERIOR_KERNEL_FWD_Y
#define LLFAT_EXTERIOR_KERNEL_FWD_Y
Definition: llfat_quda.h:10

param
QudaGaugeParam param
Definition: pack_test.cpp:17

quda::LatticeField::Precision
QudaPrecision Precision() const
Definition: lattice_field.h:176

LLFAT_INTERIOR_KERNEL
#define LLFAT_INTERIOR_KERNEL
Definition: llfat_quda.h:7

quda::siteComputeGenStapleParityKernel_ex
void siteComputeGenStapleParityKernel_ex(void *staple_even, void *staple_odd, const void *sitelink_even, const void *sitelink_odd, void *fatlink_even, void *fatlink_odd, int mu, int nu, double mycoeff, QudaReconstructType recon, QudaPrecision prec, llfat_kernel_param_t kparam)

force_common.h

quda::llfatOneLinkKernel
void llfatOneLinkKernel(cudaGaugeField &cudaFatLink, cudaGaugeField &cudaSiteLink, cudaGaugeField &cudaStaple, cudaGaugeField &cudaStaple1, QudaGaugeParam *param, double *act_path_coeff)
Definition: llfat_quda.cu:1187

QUDA_RECONSTRUCT_12
Definition: enum_quda.h:56

quda::computeGenStapleFieldParityKernel_ex
void computeGenStapleFieldParityKernel_ex(void *staple_even, void *staple_odd, const void *sitelink_even, const void *sitelink_odd, void *fatlink_even, void *fatlink_odd, const void *mulink_even, const void *mulink_odd, int mu, int nu, int save_staple, double mycoeff, QudaReconstructType recon, QudaPrecision prec, llfat_kernel_param_t kparam)

quda::llfat_cuda_ex
void llfat_cuda_ex(cudaGaugeField *cudaFatLink, cudaGaugeField *cudaLongLink, cudaGaugeField &cudaSiteLink, cudaGaugeField &cudaStaple, cudaGaugeField &cudaStaple1, QudaGaugeParam *param, double *act_path_coeff)
Definition: llfat_quda_itf.cpp:276

QudaGaugeParam_s
Definition: quda.h:25

LLFAT_EXTERIOR_KERNEL_BACK_Y
#define LLFAT_EXTERIOR_KERNEL_BACK_Y
Definition: llfat_quda.h:11

cudaFatLink
cudaGaugeField * cudaFatLink
Definition: hisq_unitarize_force_test.cpp:18

face_quda.h

exchange_gpu_staple_comms
void exchange_gpu_staple_comms(int *X, void *_cudaStaple, int dir, int whichway, cudaStream_t *stream)

quda::GaugeField::Reconstruct
QudaReconstructType Reconstruct() const
Definition: gauge_field.h:168

quda::cudaGaugeField
Definition: gauge_field.h:216

quda::computeGenStapleFieldParityKernel
void computeGenStapleFieldParityKernel(void *staple_even, void *staple_odd, const void *sitelink_even, const void *sitelink_odd, void *fatlink_even, void *fatlink_odd, const void *mulink_even, const void *mulink_odd, int mu, int nu, int save_staple, double mycoeff, QudaReconstructType recon, QudaPrecision prec, dim3 halfGridDim, llfat_kernel_param_t kparam, cudaStream_t *stream)

quda::llfat_kernel_param_s::D1h
int D1h
Definition: llfat_quda.h:25

QudaGaugeParam_s::X
int X[4]
Definition: quda.h:29

quda::llfat_kernel_param_s::halfGridDim
dim3 halfGridDim
Definition: llfat_quda.h:27

X
int X
Definition: asym_wilson_clover_dslash_dagger_fermi_core.h:394

quda::llfat_kernel_param_s::D4
int D4
Definition: llfat_quda.h:25

quda::siteComputeGenStapleParityKernel
void siteComputeGenStapleParityKernel(void *staple_even, void *staple_odd, const void *sitelink_even, const void *sitelink_odd, void *fatlink_even, void *fatlink_odd, int mu, int nu, double mycoeff, QudaReconstructType recon, QudaPrecision prec, dim3 halfGridDim, llfat_kernel_param_t kparam, cudaStream_t *stream)

LLFAT_EXTERIOR_KERNEL_BACK_Z
#define LLFAT_EXTERIOR_KERNEL_BACK_Z
Definition: llfat_quda.h:13

kparam
__global__ void const RealA *const const RealA *const const RealA *const const RealB *const const RealB *const int int RealTypeId< RealA >::Type RealA *const RealA *const RealA *const RealA *const RealA *const RealA *const RealA *const RealA *const hisq_kernel_param_t kparam
Definition: hisq_paths_force_core.h:92

quda::llfat_kernel_param_s::D3
int D3
Definition: llfat_quda.h:25

LLFAT_EXTERIOR_KERNEL_FWD_T
#define LLFAT_EXTERIOR_KERNEL_FWD_T
Definition: llfat_quda.h:14

QudaReconstructType
enum QudaReconstructType_s QudaReconstructType

QUDA_FORWARDS
Definition: enum_quda.h:368

checkCudaError
#define checkCudaError()
Definition: util_quda.h:110

sig
__global__ void const RealA *const const RealA *const const RealA *const const RealB *const const RealB *const int sig
Definition: hisq_paths_force_core.h:82

quda::llfat_kernel_param_s::threads
unsigned long threads
Definition: llfat_quda.h:20

read_gauge.h

quda::llfat_kernel_param_s::D1
int D1
Definition: llfat_quda.h:25

prec
QudaPrecision prec
Definition: test_util.cpp:1551

quda::llfatOneLinkKernel_ex
void llfatOneLinkKernel_ex(cudaGaugeField &cudaFatLink, cudaGaugeField &cudaSiteLink, cudaGaugeField &cudaStaple, cudaGaugeField &cudaStaple1, QudaGaugeParam *param, double *act_path_coeff, llfat_kernel_param_t kparam)
Definition: llfat_quda.cu:1232

llfat_quda.h

BLOCK_DIM
#define BLOCK_DIM
Definition: llfat_quda_itf.cpp:13

gauge_field.h

quda_internal.h