quda-ref/v0.7.0/read__gauge_8h_source.html

//#include <half_quda.h>


// Performs complex addition

#define COMPLEX_ADD_TO(a, b)                    \

  a##_re += b##_re,                             \

  a##_im += b##_im


#define COMPLEX_PRODUCT(a, b, c)                \

  a##_re = b##_re*c##_re;                       \

  a##_re -= b##_im*c##_im;                      \

  a##_im = b##_re*c##_im;                       \

  a##_im += b##_im*c##_re


#define COMPLEX_CONJUGATE_PRODUCT(a, b, c)      \

  a##_re = b##_re*c##_re;                       \

  a##_re -= b##_im*c##_im;                      \

  a##_im = -b##_re*c##_im;                      \

  a##_im -= b##_im*c##_re


// Performs a complex dot product

#define COMPLEX_DOT_PRODUCT(a, b, c)            \

  a##_re = b##_re*c##_re;                       \

  a##_re += b##_im*c##_im;                      \

  a##_im = b##_re*c##_im;                       \

  a##_im -= b##_im*c##_re


// Performs a complex norm

#define COMPLEX_NORM(a, b)                      \

  a = b##_re*b##_re;                            \

  a += b##_im*b##_im


#define ACC_COMPLEX_PROD(a, b, c)                       \

  a##_re += b##_re*c##_re;                              \

  a##_re -= b##_im*c##_im;                              \

  a##_im += b##_re*c##_im;                              \

  a##_im += b##_im*c##_re


// Performs the complex conjugated accumulation: a += b* c*

#define ACC_CONJ_PROD(a, b, c)                  \

  a##_re += b##_re * c##_re;                    \

  a##_re -= b##_im * c##_im;                    \

  a##_im -= b##_re * c##_im;                    \

  a##_im -= b##_im * c##_re


#define READ_GAUGE_MATRIX_18_FLOAT2_TEX(G, gauge, dir, idx, stride)     \

  float2 G##0 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+0)*stride);        \

  float2 G##1 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+1)*stride);        \

  float2 G##2 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+2)*stride);        \

  float2 G##3 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+3)*stride);        \

  float2 G##4 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+4)*stride);        \

  float2 G##5 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+5)*stride);        \

  float2 G##6 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+6)*stride);        \

  float2 G##7 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+7)*stride);        \

  float2 G##8 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+8)*stride);        \


#define READ_GAUGE_MATRIX_18_SHORT2_TEX(G, gauge, dir, idx, stride)     \

  float2 G##0 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+0)*stride);        \

  float2 G##1 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+1)*stride);        \

  float2 G##2 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+2)*stride);        \

  float2 G##3 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+3)*stride);        \

  float2 G##4 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+4)*stride);        \

  float2 G##5 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+5)*stride);        \

  float2 G##6 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+6)*stride);        \

  float2 G##7 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+7)*stride); \

  float2 G##8 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+8)*stride);        \


#define READ_GAUGE_MATRIX_12_FLOAT4_TEX(G, gauge, dir, idx, stride)     \

  float4 G##0 = TEX1DFETCH(float4, (gauge), idx + ((dir/2)*3+0)*stride);        \

  float4 G##1 = TEX1DFETCH(float4, (gauge), idx + ((dir/2)*3+1)*stride);        \

  float4 G##2 = TEX1DFETCH(float4, (gauge), idx + ((dir/2)*3+2)*stride);        \

  float4 G##3 = make_float4(0,0,0,0);                                   \

  float4 G##4 = make_float4(0,0,0,0);


#define READ_GAUGE_MATRIX_12_SHORT4_TEX(G, gauge, dir, idx, stride)     \

  float4 G##0 = TEX1DFETCH(float4, (gauge), idx + ((dir/2)*3+0)*stride);        \

  float4 G##1 = TEX1DFETCH(float4, (gauge), idx + ((dir/2)*3+1)*stride);        \

  float4 G##2 = TEX1DFETCH(float4, (gauge), idx + ((dir/2)*3+2)*stride);        \

  float4 G##3 = make_float4(0,0,0,0);                                   \

  float4 G##4 = make_float4(0,0,0,0);


// set A to be last components of G4 (otherwise unused)

#define READ_GAUGE_MATRIX_8_FLOAT4_TEX(G, gauge, dir, idx, stride)      \

  float4 G##0 = TEX1DFETCH(float4, (gauge), idx + ((dir/2)*2+0)*stride);        \

  float4 G##1 = TEX1DFETCH(float4, (gauge), idx + ((dir/2)*2+1)*stride);        \

  float4 G##2 = make_float4(0,0,0,0);                                   \

  float4 G##3 = make_float4(0,0,0,0);                                   \

  float4 G##4 = make_float4(0,0,0,0);                                   \

  (G##3).z = (G##0).x;                                                  \

  (G##3).w = (G##0).y;


#define READ_GAUGE_MATRIX_8_SHORT4_TEX(G, gauge, dir, idx, stride)      \

  float4 G##0 = TEX1DFETCH(float4, (gauge), idx + ((dir/2)*2+0)*stride);        \

  float4 G##1 = TEX1DFETCH(float4, (gauge), idx + ((dir/2)*2+1)*stride);        \

  float4 G##2 = make_float4(0,0,0,0);                                   \

  float4 G##3 = make_float4(0,0,0,0);                                   \

  float4 G##4 = make_float4(0,0,0,0);                                   \

  (G##3).z = (G##0).x = pi_f*(G##0).x;                                          \

  (G##3).w = (G##0).y = pi_f*(G##0).y;


#define READ_GAUGE_MATRIX_18_DOUBLE2(G, gauge, dir, idx, stride)    \

  double2 G##0 = gauge[idx + ((dir/2)*9+0)*stride];                 \

  double2 G##1 = gauge[idx + ((dir/2)*9+1)*stride];                 \

  double2 G##2 = gauge[idx + ((dir/2)*9+2)*stride];                 \

  double2 G##3 = gauge[idx + ((dir/2)*9+3)*stride];                 \

  double2 G##4 = gauge[idx + ((dir/2)*9+4)*stride];                 \

  double2 G##5 = gauge[idx + ((dir/2)*9+5)*stride];                 \

  double2 G##6 = gauge[idx + ((dir/2)*9+6)*stride];                 \

  double2 G##7 = gauge[idx + ((dir/2)*9+7)*stride];                 \

  double2 G##8 = gauge[idx + ((dir/2)*9+8)*stride];                 \


#define READ_GAUGE_MATRIX_18_FLOAT2(G, gauge, dir, idx, stride) \

  float2 G##0 = ((float2*)gauge)[idx + ((dir/2)*9+0)*stride];   \

  float2 G##1 = ((float2*)gauge)[idx + ((dir/2)*9+1)*stride];   \

  float2 G##2 = ((float2*)gauge)[idx + ((dir/2)*9+2)*stride];   \

  float2 G##3 = ((float2*)gauge)[idx + ((dir/2)*9+3)*stride];   \

  float2 G##4 = ((float2*)gauge)[idx + ((dir/2)*9+4)*stride];   \

  float2 G##5 = ((float2*)gauge)[idx + ((dir/2)*9+5)*stride];   \

  float2 G##6 = ((float2*)gauge)[idx + ((dir/2)*9+6)*stride];   \

  float2 G##7 = ((float2*)gauge)[idx + ((dir/2)*9+7)*stride];   \

  float2 G##8 = ((float2*)gauge)[idx + ((dir/2)*9+8)*stride];   \


#define READ_GAUGE_MATRIX_18_SHORT2(G, gauge, dir, idx, stride)         \

  float2 G##0 = short22float2(((short2*)gauge)[idx + ((dir/2)*9+0)*stride]); \

  float2 G##1 = short22float2(((short2*)gauge)[idx + ((dir/2)*9+1)*stride]); \

  float2 G##2 = short22float2(((short2*)gauge)[idx + ((dir/2)*9+2)*stride]); \

  float2 G##3 = short22float2(((short2*)gauge)[idx + ((dir/2)*9+3)*stride]); \

  float2 G##4 = short22float2(((short2*)gauge)[idx + ((dir/2)*9+4)*stride]); \

  float2 G##5 = short22float2(((short2*)gauge)[idx + ((dir/2)*9+5)*stride]); \

  float2 G##6 = short22float2(((short2*)gauge)[idx + ((dir/2)*9+6)*stride]); \

  float2 G##7 = short22float2(((short2*)gauge)[idx + ((dir/2)*9+7)*stride]); \

  float2 G##8 = short22float2(((short2*)gauge)[idx + ((dir/2)*9+8)*stride]); \


#define READ_GAUGE_MATRIX_12_DOUBLE2(G, gauge, dir, idx, stride)        \

  double2 G##0 = gauge[idx + ((dir/2)*6+0)*stride];                     \

  double2 G##1 = gauge[idx + ((dir/2)*6+1)*stride];                     \

  double2 G##2 = gauge[idx + ((dir/2)*6+2)*stride];                     \

  double2 G##3 = gauge[idx + ((dir/2)*6+3)*stride];                     \

  double2 G##4 = gauge[idx + ((dir/2)*6+4)*stride];                     \

  double2 G##5 = gauge[idx + ((dir/2)*6+5)*stride];                     \

  double2 G##6 = make_double2(0,0);                                     \

  double2 G##7 = make_double2(0,0);                                     \

  double2 G##8 = make_double2(0,0);


#define READ_GAUGE_MATRIX_12_FLOAT4(G, gauge, dir, idx, stride) \

  float4 G##0 = gauge[idx + ((dir/2)*3+0)*stride];              \

  float4 G##1 = gauge[idx + ((dir/2)*3+1)*stride];              \

  float4 G##2 = gauge[idx + ((dir/2)*3+2)*stride];              \

  float4 G##3 = make_float4(0,0,0,0);                           \

  float4 G##4 = make_float4(0,0,0,0);


#define READ_GAUGE_MATRIX_12_SHORT4(G, gauge, dir, idx, stride)         \

  float4 G##0 = short42float4(gauge[idx + ((dir/2)*3+0)*stride]);       \

  float4 G##1 = short42float4(gauge[idx + ((dir/2)*3+1)*stride]);       \

  float4 G##2 = short42float4(gauge[idx + ((dir/2)*3+2)*stride]);       \

  float4 G##3 = make_float4(0,0,0,0);                                   \

  float4 G##4 = make_float4(0,0,0,0);


// set A to be last components of G4 (otherwise unused)

#define READ_GAUGE_MATRIX_8_DOUBLE2(G, gauge, dir, idx, stride)         \

  double2 G##0 = gauge[idx + ((dir/2)*4+0)*stride];                     \

  double2 G##1 = gauge[idx + ((dir/2)*4+1)*stride];                     \

  double2 G##2 = gauge[idx + ((dir/2)*4+2)*stride];                     \

  double2 G##3 = gauge[idx + ((dir/2)*4+3)*stride];                     \

  double2 G##4 = make_double2(0,0);                                     \

  double2 G##5 = make_double2(0,0);                                     \

  double2 G##6 = make_double2(0,0);                                     \

  double2 G##7 = make_double2(0,0);                                     \

  double2 G##8 = make_double2(0,0);                                     \

  (G##7).x = (G##0).x;                                                  \

  (G##7).y = (G##0).y;


// set A to be last components of G4 (otherwise unused)

#define READ_GAUGE_MATRIX_8_FLOAT4(G, gauge, dir, idx, stride)  \

  float4 G##0 = gauge[idx + ((dir/2)*2+0)*stride];              \

  float4 G##1 = gauge[idx + ((dir/2)*2+1)*stride];              \

  float4 G##2 = make_float4(0,0,0,0);                           \

  float4 G##3 = make_float4(0,0,0,0);                           \

  float4 G##4 = make_float4(0,0,0,0);                           \

  (G##3).z = (G##0).x;                                          \

  (G##3).w = (G##0).y;


#define READ_GAUGE_MATRIX_8_SHORT4(G, gauge, dir, idx, stride)          \

  float4 G##0 = short42float4(gauge[idx + ((dir/2)*2+0)*stride]);       \

  float4 G##1 = short42float4(gauge[idx + ((dir/2)*2+1)*stride]);       \

  float4 G##2 = make_float4(0,0,0,0);                                   \

  float4 G##3 = make_float4(0,0,0,0);                                   \

  float4 G##4 = make_float4(0,0,0,0);                                   \

  (G##3).z = (G##0).x = pi_f*(G##0).x;                                          \

  (G##3).w = (G##0).y = pi_f*(G##0).y;


#define READ_GAUGE_PHASE_DOUBLE(P, phase, dir, idx, stride){ \

  P = 2.*M_PI*phase[idx + (dir/2)*stride]; \

}


#define READ_GAUGE_PHASE_FLOAT(P, phase, dir, idx, stride){ \

  P = 2.f*pi_f*phase[idx + (dir/2)*stride];  \

}


#define READ_GAUGE_PHASE_SHORT(P, phase, dir, idx, stride){ \

  P = 2.f*pi_f*short2float(phase[idx + (dir/2)*stride]);  \

}


#define ASSN_GAUGE_MATRIX_18_FLOAT2_TEX(G, gauge, dir, idx, stride)     \

  G##0 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+0)*stride);       \

  G##1 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+1)*stride);       \

  G##2 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+2)*stride);       \

  G##3 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+3)*stride);       \

  G##4 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+4)*stride);       \

  G##5 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+5)*stride);       \

  G##6 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+6)*stride);       \

  G##7 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+7)*stride);       \

  G##8 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+8)*stride);       \


#define ASSN_GAUGE_MATRIX_18_SHORT2_TEX(G, gauge, dir, idx, stride)     \

  G##0 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+0)*stride);       \

  G##1 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+1)*stride);       \

  G##2 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+2)*stride);       \

  G##3 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+3)*stride);       \

  G##4 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+4)*stride);       \

  G##5 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+5)*stride);       \

  G##6 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+6)*stride);       \

  G##7 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+7)*stride);       \

  G##8 = TEX1DFETCH(float2, (gauge), idx + ((dir/2)*9+8)*stride);       \


#define ASSN_GAUGE_MATRIX_12_FLOAT4_TEX(G, gauge, dir, idx, stride)     \

  G##0 = TEX1DFETCH(float4, (gauge), idx + ((dir/2)*3+0)*stride);       \

  G##1 = TEX1DFETCH(float4, (gauge), idx + ((dir/2)*3+1)*stride);       \

  G##2 = TEX1DFETCH(float4, (gauge), idx + ((dir/2)*3+2)*stride);       \

  G##3 = make_float4(0,0,0,0);                                          \

  G##4 = make_float4(0,0,0,0);


#define ASSN_GAUGE_MATRIX_12_SHORT4_TEX(G, gauge, dir, idx, stride)     \

  G##0 = TEX1DFETCH(float4, (gauge), idx + ((dir/2)*3+0)*stride);       \

  G##1 = TEX1DFETCH(float4, (gauge), idx + ((dir/2)*3+1)*stride);       \

  G##2 = TEX1DFETCH(float4, (gauge), idx + ((dir/2)*3+2)*stride);       \

  G##3 = make_float4(0,0,0,0);                                          \

  G##4 = make_float4(0,0,0,0);


// set A to be last components of G4 (otherwise unused)

#define ASSN_GAUGE_MATRIX_8_FLOAT4_TEX(G, gauge, dir, idx, stride)      \

  G##0 = TEX1DFETCH(float4, (gauge), idx + ((dir/2)*2+0)*stride);       \

  G##1 = TEX1DFETCH(float4, (gauge), idx + ((dir/2)*2+1)*stride);       \

  G##2 = make_float4(0,0,0,0);                                          \

  G##3 = make_float4(0,0,0,0);                                          \

  G##4 = make_float4(0,0,0,0);                                          \

  (G##3).z = (G##0).x;                                                  \

  (G##3).w = (G##0).y;


#define ASSN_GAUGE_MATRIX_8_SHORT4_TEX(G, gauge, dir, idx, stride)      \

  G##0 = TEX1DFETCH(float4, (gauge), idx + ((dir/2)*2+0)*stride);       \

  G##1 = TEX1DFETCH(float4, (gauge), idx + ((dir/2)*2+1)*stride);       \

  G##2 = make_float4(0,0,0,0);                                          \

  G##3 = make_float4(0,0,0,0);                                          \

  G##4 = make_float4(0,0,0,0);                                          \

  (G##3).z = (G##0).x = pi_f*(G##0).x;                                  \

  (G##3).w = (G##0).y = pi_f*(G##0).y;


#define ASSN_GAUGE_MATRIX_18_DOUBLE2(G, gauge, dir, idx, stride)    \

   G##0 = gauge[idx + ((dir/2)*9+0)*stride];                \

   G##1 = gauge[idx + ((dir/2)*9+1)*stride];                \

   G##2 = gauge[idx + ((dir/2)*9+2)*stride];                \

   G##3 = gauge[idx + ((dir/2)*9+3)*stride];                \

   G##4 = gauge[idx + ((dir/2)*9+4)*stride];                \

   G##5 = gauge[idx + ((dir/2)*9+5)*stride];                \

   G##6 = gauge[idx + ((dir/2)*9+6)*stride];                \

   G##7 = gauge[idx + ((dir/2)*9+7)*stride];                \

   G##8 = gauge[idx + ((dir/2)*9+8)*stride];                \


#define ASSN_GAUGE_MATRIX_18_FLOAT2(G, gauge, dir, idx, stride) \

   G##0 = ((float2*)gauge)[idx + ((dir/2)*9+0)*stride]; \

   G##1 = ((float2*)gauge)[idx + ((dir/2)*9+1)*stride]; \

   G##2 = ((float2*)gauge)[idx + ((dir/2)*9+2)*stride]; \

   G##3 = ((float2*)gauge)[idx + ((dir/2)*9+3)*stride]; \

   G##4 = ((float2*)gauge)[idx + ((dir/2)*9+4)*stride]; \

   G##5 = ((float2*)gauge)[idx + ((dir/2)*9+5)*stride]; \

   G##6 = ((float2*)gauge)[idx + ((dir/2)*9+6)*stride]; \

   G##7 = ((float2*)gauge)[idx + ((dir/2)*9+7)*stride]; \

   G##8 = ((float2*)gauge)[idx + ((dir/2)*9+8)*stride]; \


#define ASSN_GAUGE_MATRIX_18_SHORT2(G, gauge, dir, idx, stride)         \

   G##0 = short22float2(((short2*)gauge)[idx + ((dir/2)*9+0)*stride]); \

   G##1 = short22float2(((short2*)gauge)[idx + ((dir/2)*9+1)*stride]); \

   G##2 = short22float2(((short2*)gauge)[idx + ((dir/2)*9+2)*stride]); \

   G##3 = short22float2(((short2*)gauge)[idx + ((dir/2)*9+3)*stride]); \

   G##4 = short22float2(((short2*)gauge)[idx + ((dir/2)*9+4)*stride]); \

   G##5 = short22float2(((short2*)gauge)[idx + ((dir/2)*9+5)*stride]); \

   G##6 = short22float2(((short2*)gauge)[idx + ((dir/2)*9+6)*stride]); \

   G##7 = short22float2(((short2*)gauge)[idx + ((dir/2)*9+7)*stride]); \

   G##8 = short22float2(((short2*)gauge)[idx + ((dir/2)*9+8)*stride]); \


#define ASSN_GAUGE_MATRIX_12_DOUBLE2(G, gauge, dir, idx, stride)        \

   G##0 = gauge[idx + ((dir/2)*6+0)*stride];                    \

   G##1 = gauge[idx + ((dir/2)*6+1)*stride];                    \

   G##2 = gauge[idx + ((dir/2)*6+2)*stride];                    \

   G##3 = gauge[idx + ((dir/2)*6+3)*stride];                    \

   G##4 = gauge[idx + ((dir/2)*6+4)*stride];                    \

   G##5 = gauge[idx + ((dir/2)*6+5)*stride];                    \

   G##6 = make_double2(0,0);                                    \

   G##7 = make_double2(0,0);                                    \

   G##8 = make_double2(0,0);


#define ASSN_GAUGE_MATRIX_12_FLOAT4(G, gauge, dir, idx, stride) \

   G##0 = gauge[idx + ((dir/2)*3+0)*stride];            \

   G##1 = gauge[idx + ((dir/2)*3+1)*stride];            \

   G##2 = gauge[idx + ((dir/2)*3+2)*stride];            \

   G##3 = make_float4(0,0,0,0);                         \

   G##4 = make_float4(0,0,0,0);


#define ASSN_GAUGE_MATRIX_12_SHORT4(G, gauge, dir, idx, stride)         \

   G##0 = short42float4(gauge[idx + ((dir/2)*3+0)*stride]);     \

   G##1 = short42float4(gauge[idx + ((dir/2)*3+1)*stride]);     \

   G##2 = short42float4(gauge[idx + ((dir/2)*3+2)*stride]);     \

   G##3 = make_float4(0,0,0,0);                                 \

   G##4 = make_float4(0,0,0,0);


// set A to be last components of G4 (otherwise unused)

#define ASSN_GAUGE_MATRIX_8_DOUBLE2(G, gauge, dir, idx, stride)         \

   G##0 = gauge[idx + ((dir/2)*4+0)*stride];                    \

   G##1 = gauge[idx + ((dir/2)*4+1)*stride];                    \

   G##2 = gauge[idx + ((dir/2)*4+2)*stride];                    \

   G##3 = gauge[idx + ((dir/2)*4+3)*stride];                    \

   G##4 = make_double2(0,0);                                    \

   G##5 = make_double2(0,0);                                    \

   G##6 = make_double2(0,0);                                    \

   G##7 = make_double2(0,0);                                    \

   G##8 = make_double2(0,0);                                    \

  (G##7).x = (G##0).x;                                                  \

  (G##7).y = (G##0).y;


// set A to be last components of G4 (otherwise unused)

#define ASSN_GAUGE_MATRIX_8_FLOAT4(G, gauge, dir, idx, stride)  \

   G##0 = gauge[idx + ((dir/2)*2+0)*stride];            \

   G##1 = gauge[idx + ((dir/2)*2+1)*stride];            \

   G##2 = make_float4(0,0,0,0);                         \

   G##3 = make_float4(0,0,0,0);                         \

   G##4 = make_float4(0,0,0,0);                         \

  (G##3).z = (G##0).x;                                          \

  (G##3).w = (G##0).y;


#define ASSN_GAUGE_MATRIX_8_SHORT4(G, gauge, dir, idx, stride)          \

   G##0 = short42float4(gauge[idx + ((dir/2)*2+0)*stride]);     \

   G##1 = short42float4(gauge[idx + ((dir/2)*2+1)*stride]);     \

   G##2 = make_float4(0,0,0,0);                                 \

   G##3 = make_float4(0,0,0,0);                                 \

   G##4 = make_float4(0,0,0,0);                                 \

  (G##3).z = (G##0).x = pi_f*(G##0).x;                                          \

  (G##3).w = (G##0).y = pi_f*(G##0).y;


/*----END--*/


#define RESCALE2(G, max)                                                \

  (G##0).x *= max; (G##0).y *= max; (G##1).x *= max; (G##1).y *= max;   \

  (G##2).x *= max; (G##2).y *= max; (G##3).x *= max; (G##3).y *= max;   \

  (G##4).x *= max; (G##4).y *= max; (G##5).x *= max; (G##5).y *= max;   \

  (G##6).x *= max; (G##6).y *= max; (G##7).x *= max; (G##7).y *= max;   \

  (G##8).x *= max; (G##8).y *= max;


// FIXME: merge staggered and Wilson reconstruct macros


#define RECONSTRUCT_MATRIX_18_DOUBLE(dir)

#define RECONSTRUCT_MATRIX_18_SINGLE(dir)


#ifndef MULTI_GPU

#define do_boundary ga_idx >= X4X3X2X1hmX3X2X1h

#else

#define do_boundary ( (Pt0 && (ga_idx >= Vh)) || ( PtNm1 && (ga_idx >= X4X3X2X1hmX3X2X1h) && (ga_idx < Vh) ) )

#endif


#define RECONSTRUCT_MATRIX_12_DOUBLE(dir)                               \

  ACC_CONJ_PROD(g20, +g01, +g12);                                       \

  ACC_CONJ_PROD(g20, -g02, +g11);                                       \

  ACC_CONJ_PROD(g21, +g02, +g10);                                       \

  ACC_CONJ_PROD(g21, -g00, +g12);                                       \

  ACC_CONJ_PROD(g22, +g00, +g11);                                       \

  ACC_CONJ_PROD(g22, -g01, +g10);                                       \

  double u0 = (dir < 6 ? anisotropy : (do_boundary ? t_boundary : 1)); \

  G6.x*=u0; G6.y*=u0; G7.x*=u0; G7.y*=u0; G8.x*=u0; G8.y*=u0;


#define RECONSTRUCT_MATRIX_12_SINGLE(dir)                       \

  ACC_CONJ_PROD(g20, +g01, +g12);                               \

  ACC_CONJ_PROD(g20, -g02, +g11);                               \

  ACC_CONJ_PROD(g21, +g02, +g10);                               \

  ACC_CONJ_PROD(g21, -g00, +g12);                               \

  ACC_CONJ_PROD(g22, +g00, +g11);                               \

  ACC_CONJ_PROD(g22, -g01, +g10);                               \

  float u0 = (dir < 6 ? anisotropy_f : (do_boundary ? t_boundary_f : 1)); \

  G3.x*=u0; G3.y*=u0; G3.z*=u0; G3.w*=u0; G4.x*=u0; G4.y*=u0;


#define RECONSTRUCT_MATRIX_8_DOUBLE(dir)                                \

  double row_sum = g01_re*g01_re;                                       \

  row_sum += g01_im*g01_im;                                             \

  row_sum += g02_re*g02_re;                                             \

  row_sum += g02_im*g02_im;                                             \

  double u0 = (dir < 6 ? anisotropy : (do_boundary ? t_boundary : 1)); \

  double u02_inv = 1.0 / (u0*u0);                                       \

  double column_sum = u02_inv - row_sum;                                \

  double U00_mag = sqrt((column_sum > 0 ? column_sum : 0));             \

  sincos(g21_re, &g00_im, &g00_re);                                     \

  g00_re *= U00_mag;                                                    \

  g00_im *= U00_mag;                                                    \

  column_sum += g10_re*g10_re;                                          \

  column_sum += g10_im*g10_im;                                          \

  sincos(g21_im, &g20_im, &g20_re);                                     \

  double U20_mag = sqrt(((u02_inv - column_sum) > 0 ? (u02_inv-column_sum) : 0)); \

   g20_re *= U20_mag;                                                   \

   g20_im *= U20_mag;                                                   \

   double r_inv2 = 1.0 / (u0*row_sum);                                  \

   double A_re, A_im;                                                   \

   COMPLEX_DOT_PRODUCT(A, g00, g10);                                    \

   A_re *= u0; A_im *= u0;                                              \

   COMPLEX_CONJUGATE_PRODUCT(g11, g20, g02);                            \

   ACC_COMPLEX_PROD(g11, A, g01);                                       \

   g11_re *= -r_inv2;                                                   \

   g11_im *= -r_inv2;                                                   \

   COMPLEX_CONJUGATE_PRODUCT(g12, g20, g01);                            \

   ACC_COMPLEX_PROD(g12, -A, g02);                                      \

   g12_re *= r_inv2;                                                    \

   g12_im *= r_inv2;                                                    \

   COMPLEX_DOT_PRODUCT(A, g00, g20);                                    \

   A_re *= u0; A_im *= u0;                                              \

   COMPLEX_CONJUGATE_PRODUCT(g21, g10, g02);                            \

   ACC_COMPLEX_PROD(g21, -A, g01);                                      \

   g21_re *= r_inv2;                                                    \

   g21_im *= r_inv2;                                                    \

   COMPLEX_CONJUGATE_PRODUCT(g22, g10, g01);                            \

   ACC_COMPLEX_PROD(g22, A, g02);                                       \

   g22_re *= -r_inv2;                                                   \

   g22_im *= -r_inv2;


 #define RECONSTRUCT_MATRIX_8_SINGLE(dir)                               \

   float row_sum = g01_re*g01_re;                                       \

   row_sum += g01_im*g01_im;                                            \

   row_sum += g02_re*g02_re;                                            \

   row_sum += g02_im*g02_im;                                            \

   __sincosf(g21_re, &g00_im, &g00_re);                                 \

   __sincosf(g21_im, &g20_im, &g20_re);                                 \

   float2 u0_2 = (dir < 6 ? An2 : (do_boundary ? TB2 : No2)); \

   float column_sum = u0_2.y - row_sum;                                 \

   float U00_mag = column_sum * rsqrtf((column_sum > 0 ? column_sum : 1e14)); \

   g00_re *= U00_mag;                                                   \

   g00_im *= U00_mag;                                                   \

   column_sum += g10_re*g10_re;                                         \

   column_sum += g10_im*g10_im;                                         \

   column_sum = u0_2.y - column_sum;                                    \

   float U20_mag = column_sum * rsqrtf((column_sum > 0 ? column_sum : 1e14)); \

   g20_re *= U20_mag;                                                   \

   g20_im *= U20_mag;                                                   \

   float r_inv2 = __fdividef(1.0f, u0_2.x*row_sum);                     \

   float A_re, A_im;                                                    \

   COMPLEX_DOT_PRODUCT(A, g00, g10);                                    \

   A_re *= u0_2.x; A_im *= u0_2.x;                                      \

   COMPLEX_CONJUGATE_PRODUCT(g11, g20, g02);                            \

   ACC_COMPLEX_PROD(g11, A, g01);                                       \

   g11_re *= -r_inv2;                                                   \

   g11_im *= -r_inv2;                                                   \

   COMPLEX_CONJUGATE_PRODUCT(g12, g20, g01);                            \

   ACC_COMPLEX_PROD(g12, -A, g02);                                      \

   g12_re *= r_inv2;                                                    \

   g12_im *= r_inv2;                                                    \

   COMPLEX_DOT_PRODUCT(A, g00, g20);                                    \

   A_re *= u0_2.x; A_im *= u0_2.x;                                      \

   COMPLEX_CONJUGATE_PRODUCT(g21, g10, g02);                            \

   ACC_COMPLEX_PROD(g21, -A, g01);                                      \

   g21_re *= r_inv2;                                                    \

   g21_im *= r_inv2;                                                    \

   COMPLEX_CONJUGATE_PRODUCT(g22, g10, g01);                            \

   ACC_COMPLEX_PROD(g22, A, g02);                                       \

   g22_re *= -r_inv2;                                                   \

   g22_im *= -r_inv2;


/************* the following is added for staggered *********/


#define RECONSTRUCT_GAUGE_MATRIX_12_SINGLE(dir, gauge, idx, sign)       \

  ACC_CONJ_PROD(gauge##20, +gauge##01, +gauge##12);                     \

  ACC_CONJ_PROD(gauge##20, -gauge##02, +gauge##11);                     \

  ACC_CONJ_PROD(gauge##21, +gauge##02, +gauge##10);                     \

  ACC_CONJ_PROD(gauge##21, -gauge##00, +gauge##12);                     \

  ACC_CONJ_PROD(gauge##22, +gauge##00, +gauge##11);                     \

  ACC_CONJ_PROD(gauge##22, -gauge##01, +gauge##10);                     \

  {float u0 = coeff_f*sign;                                             \

    gauge##20_re *=u0;gauge##20_im *=u0; gauge##21_re *=u0; gauge##21_im *=u0; \

    gauge##22_re *=u0;gauge##22_im *=u0;}


#define RECONSTRUCT_GAUGE_MATRIX_12_DOUBLE(dir, gauge, idx, sign)       \

  ACC_CONJ_PROD(gauge##20, +gauge##01, +gauge##12);                     \

  ACC_CONJ_PROD(gauge##20, -gauge##02, +gauge##11);                     \

  ACC_CONJ_PROD(gauge##21, +gauge##02, +gauge##10);                     \

  ACC_CONJ_PROD(gauge##21, -gauge##00, +gauge##12);                     \

  ACC_CONJ_PROD(gauge##22, +gauge##00, +gauge##11);                     \

  ACC_CONJ_PROD(gauge##22, -gauge##01, +gauge##10);                     \

  {double u0 = coeff* sign;                                             \

    gauge##20_re *=u0;gauge##20_im *=u0; gauge##21_re *=u0; gauge##21_im *=u0; \

    gauge##22_re *=u0;gauge##22_im *=u0;}


#define RECONSTRUCT_GAUGE_MATRIX_13_SINGLE(dir, gauge, idx, sign) { \

  RECONSTRUCT_GAUGE_MATRIX_12_SINGLE(dir, gauge, idx, sign)  \

  float exp_i3phase_re, exp_i3phase_im;                      \

  sincosf(3.f*PHASE, &exp_i3phase_im, &exp_i3phase_re);      \

  float A_re, A_im;                                          \

  COMPLEX_PRODUCT(A, exp_i3phase, gauge##20);                \

  gauge##20_re = A_re;                                       \

  gauge##20_im = A_im;                                       \

  COMPLEX_PRODUCT(A, exp_i3phase, gauge##21);                \

  gauge##21_re = A_re;                                       \

  gauge##21_im = A_im;                                       \

  COMPLEX_PRODUCT(A, exp_i3phase, gauge##22);                \

  gauge##22_re = A_re;                                       \

  gauge##22_im = A_im;                                       \

}


#define RECONSTRUCT_GAUGE_MATRIX_13_DOUBLE(dir, gauge, idx, sign) { \

  RECONSTRUCT_GAUGE_MATRIX_12_DOUBLE(dir, gauge, idx, sign)   \

  double exp_i3phase_re, exp_i3phase_im;                      \

  sincos(3.*PHASE, &exp_i3phase_im, &exp_i3phase_re);         \

  double A_re, A_im;                                          \

  COMPLEX_PRODUCT(A, exp_i3phase, gauge##20);                 \

  gauge##20_re = A_re;                                        \

  gauge##20_im = A_im;                                        \

  COMPLEX_PRODUCT(A, exp_i3phase, gauge##21);                 \

  gauge##21_re = A_re;                                        \

  gauge##21_im = A_im;                                        \

  COMPLEX_PRODUCT(A, exp_i3phase, gauge##22);                 \

  gauge##22_re = A_re;                                        \

  gauge##22_im = A_im;                                        \

}


#define RECONSTRUCT_GAUGE_MATRIX_8_DOUBLE(dir, gauge, idx, sign)        \

  double row_sum = gauge##01_re*gauge##01_re + gauge##01_im*gauge##01_im; \

  row_sum += gauge##02_re*gauge##02_re + gauge##02_im*gauge##02_im;     \

  double u0 = coeff*sign;                                               \

  double u02_inv = 1.0 / (u0*u0);                                       \

  double column_sum = u02_inv - row_sum;                                \

  double U00_mag = sqrt(column_sum);                                    \

  sincos(gauge##21_re, &gauge##00_im, &gauge##00_re);                   \

  gauge##00_re *= U00_mag;                                              \

  gauge##00_im *= U00_mag;                                              \

  column_sum += gauge##10_re*gauge##10_re;                              \

  column_sum += gauge##10_im*gauge##10_im;                              \

  sincos(gauge##21_im, &gauge##20_im, &gauge##20_re);                   \

  double U20_mag = sqrt(u02_inv - column_sum);                          \

  gauge##20_re *= U20_mag;                                              \

  gauge##20_im *= U20_mag;                                              \

  double r_inv2 = 1.0 / (u0*row_sum);                                   \

  double A_re, A_im;                                                    \

  COMPLEX_DOT_PRODUCT(A, gauge##00, gauge##10);                         \

  A_re *= u0; A_im *= u0;                                               \

  COMPLEX_CONJUGATE_PRODUCT(gauge##11, gauge##20, gauge##02);           \

  ACC_COMPLEX_PROD(gauge##11, A, gauge##01);                            \

  gauge##11_re *= -r_inv2;                                              \

  gauge##11_im *= -r_inv2;                                              \

  COMPLEX_CONJUGATE_PRODUCT(gauge##12, gauge##20, gauge##01);           \

  ACC_COMPLEX_PROD(gauge##12, -A, gauge##02);                           \

  gauge##12_re *= r_inv2;                                               \

  gauge##12_im *= r_inv2;                                               \

  COMPLEX_DOT_PRODUCT(A, gauge##00, gauge##20);                         \

  A_re *= u0; A_im *= u0;                                               \

  COMPLEX_CONJUGATE_PRODUCT(gauge##21, gauge##10, gauge##02);           \

  ACC_COMPLEX_PROD(gauge##21, -A, gauge##01);                           \

  gauge##21_re *= r_inv2;                                               \

  gauge##21_im *= r_inv2;                                               \

  COMPLEX_CONJUGATE_PRODUCT(gauge##22, gauge##10, gauge##01);           \

  ACC_COMPLEX_PROD(gauge##22, A, gauge##02);                            \

  gauge##22_re *= -r_inv2;                                              \

  gauge##22_im *= -r_inv2;


#define RECONSTRUCT_GAUGE_MATRIX_8_SINGLE(dir, gauge, idx, sign)        { \

    float row_sum = gauge##01_re*gauge##01_re + gauge##01_im*gauge##01_im; \

    row_sum += gauge##02_re*gauge##02_re + gauge##02_im*gauge##02_im;   \

    float u0 = coeff_f*sign;                                            \

    float u02_inv = __fdividef(1.f, u0*u0);                             \

    float column_sum = u02_inv - row_sum;                               \

    float U00_mag = sqrtf(column_sum > 0 ?column_sum:0);                \

    __sincosf(gauge##21_re, &gauge##00_im, &gauge##00_re);              \

    gauge##00_re *= U00_mag;                                            \

    gauge##00_im *= U00_mag;                                            \

    column_sum += gauge##10_re*gauge##10_re;                            \

    column_sum += gauge##10_im*gauge##10_im;                            \

    __sincosf(gauge##21_im, &gauge##20_im, &gauge##20_re);              \

    float U20_mag = sqrtf( (u02_inv - column_sum)>0? (u02_inv - column_sum): 0); \

    gauge##20_re *= U20_mag;                                            \

    gauge##20_im *= U20_mag;                                            \

    float r_inv2 = __fdividef(1.0f, u0*row_sum);                        \

    float A_re, A_im;                                                   \

    COMPLEX_DOT_PRODUCT(A, gauge##00, gauge##10);                       \

    A_re *= u0; A_im *= u0;                                             \

    COMPLEX_CONJUGATE_PRODUCT(gauge##11, gauge##20, gauge##02);         \

    ACC_COMPLEX_PROD(gauge##11, A, gauge##01);                          \

    gauge##11_re *= -r_inv2;                                            \

    gauge##11_im *= -r_inv2;                                            \

    COMPLEX_CONJUGATE_PRODUCT(gauge##12, gauge##20, gauge##01);         \

    ACC_COMPLEX_PROD(gauge##12, -A, gauge##02);                         \

    gauge##12_re *= r_inv2;                                             \

    gauge##12_im *= r_inv2;                                             \

    COMPLEX_DOT_PRODUCT(A, gauge##00, gauge##20);                       \

    A_re *= u0; A_im *= u0;                                             \

    COMPLEX_CONJUGATE_PRODUCT(gauge##21, gauge##10, gauge##02);         \

    ACC_COMPLEX_PROD(gauge##21, -A, gauge##01);                         \

    gauge##21_re *= r_inv2;                                             \

    gauge##21_im *= r_inv2;                                             \

    COMPLEX_CONJUGATE_PRODUCT(gauge##22, gauge##10, gauge##01);         \

    ACC_COMPLEX_PROD(gauge##22, A, gauge##02);                          \

    gauge##22_re *= -r_inv2;                                            \

    gauge##22_im *= -r_inv2;}


#define RECONSTRUCT_GAUGE_MATRIX_9_SINGLE(dir, gauge, idx, sign) { \

  RECONSTRUCT_GAUGE_MATRIX_8_SINGLE(dir, gauge, idx, sign)    \

  float exp_iphase_re, exp_iphase_im;                         \

  __sincosf(PHASE, &exp_iphase_im, &exp_iphase_re);           \

  float B_re, B_im;                                           \

  COMPLEX_PRODUCT(B, exp_iphase, gauge##00);                  \

  gauge##00_re = B_re;                                        \

  gauge##00_im = B_im;                                        \

  COMPLEX_PRODUCT(B, exp_iphase, gauge##01);                  \

  gauge##01_re = B_re;                                        \

  gauge##01_im = B_im;                                        \

  COMPLEX_PRODUCT(B, exp_iphase, gauge##02);                  \

  gauge##02_re = B_re;                                        \

  gauge##02_im = B_im;                                        \

  COMPLEX_PRODUCT(B, exp_iphase, gauge##10);                  \

  gauge##10_re = B_re;                                        \

  gauge##10_im = B_im;                                        \

  COMPLEX_PRODUCT(B, exp_iphase, gauge##11);                  \

  gauge##11_re = B_re;                                        \

  gauge##11_im = B_im;                                        \

  COMPLEX_PRODUCT(B, exp_iphase, gauge##12);                  \

  gauge##12_re = B_re;                                        \

  gauge##12_im = B_im;                                        \

  COMPLEX_PRODUCT(B, exp_iphase, gauge##20);                  \

  gauge##20_re = B_re;                                        \

  gauge##20_im = B_im;                                        \

  COMPLEX_PRODUCT(B, exp_iphase, gauge##21);                  \

  gauge##21_re = B_re;                                        \

  gauge##21_im = B_im;                                        \

  COMPLEX_PRODUCT(B, exp_iphase, gauge##22);                  \

  gauge##22_re = B_re;                                        \

  gauge##22_im = B_im;                                        \

}


#define RECONSTRUCT_GAUGE_MATRIX_9_DOUBLE(dir, gauge, idx, sign) { \

  RECONSTRUCT_GAUGE_MATRIX_8_DOUBLE(dir, gauge, idx, sign)    \

  double exp_iphase_re, exp_iphase_im;                        \

  sincos(PHASE, &exp_iphase_im, &exp_iphase_re);              \

  double B_re, B_im;                                          \

  COMPLEX_PRODUCT(B, exp_iphase, gauge##00);                  \

  gauge##00_re = B_re;                                        \

  gauge##00_im = B_im;                                        \

  COMPLEX_PRODUCT(B, exp_iphase, gauge##01);                  \

  gauge##01_re = B_re;                                        \

  gauge##01_im = B_im;                                        \

  COMPLEX_PRODUCT(B, exp_iphase, gauge##02);                  \

  gauge##02_re = B_re;                                        \

  gauge##02_im = B_im;                                        \

  COMPLEX_PRODUCT(B, exp_iphase, gauge##10);                  \

  gauge##10_re = B_re;                                        \

  gauge##10_im = B_im;                                        \

  COMPLEX_PRODUCT(B, exp_iphase, gauge##11);                  \

  gauge##11_re = B_re;                                        \

  gauge##11_im = B_im;                                        \

  COMPLEX_PRODUCT(B, exp_iphase, gauge##12);                  \

  gauge##12_re = B_re;                                        \

  gauge##12_im = B_im;                                        \

  COMPLEX_PRODUCT(B, exp_iphase, gauge##20);                  \

  gauge##20_re = B_re;                                        \

  gauge##20_im = B_im;                                        \

  COMPLEX_PRODUCT(B, exp_iphase, gauge##21);                  \

  gauge##21_re = B_re;                                        \

  gauge##21_im = B_im;                                        \

  COMPLEX_PRODUCT(B, exp_iphase, gauge##22);                  \

  gauge##22_re = B_re;                                        \

  gauge##22_im = B_im;                                        \

}


// Fermi patch to disable double-precision texture reads

#ifdef FERMI_NO_DBLE_TEX

#define READ_GAUGE_MATRIX_18_DOUBLE2_TEX(G, gauge, dir, idx, stride)    \

  READ_GAUGE_MATRIX_18_DOUBLE2(G, gauge, dir, idx, stride)

#define READ_GAUGE_MATRIX_12_DOUBLE2_TEX(G, gauge, dir, idx, stride)    \

  READ_GAUGE_MATRIX_12_DOUBLE2(G, gauge, dir, idx, stride)

#define READ_GAUGE_MATRIX_8_DOUBLE2_TEX(G, gauge, dir, idx, stride)     \

  READ_GAUGE_MATRIX_8_DOUBLE2(G, gauge, dir, idx, stride)

#define READ_GAUGE_PHASE_DOUBLE_TEX(P, phase, dir, idx, stride)         \

  READ_GAUGE_PHASE_DOUBLE(P, phase, dir, idx, stride)


#define ASSN_GAUGE_MATRIX_18_DOUBLE2_TEX(G, gauge, dir, idx, stride)    \

  ASSN_GAUGE_MATRIX_18_DOUBLE2(G, gauge, dir, idx, stride)

#define ASSN_GAUGE_MATRIX_12_DOUBLE2_TEX(G, gauge, dir, idx, stride)    \

  ASSN_GAUGE_MATRIX_12_DOUBLE2(G, gauge, dir, idx, stride)

#define ASSN_GAUGE_MATRIX_8_DOUBLE2_TEX(G, gauge, dir, idx, stride)     \

  ASSN_GAUGE_MATRIX_8_DOUBLE2(G, gauge, dir, idx, stride)


#else


#define READ_GAUGE_MATRIX_18_DOUBLE2_TEX(G, gauge, dir, idx, stride) \

  double2 G##0 = fetch_double2((gauge), idx + ((dir/2)*9+0)*stride); \

  double2 G##1 = fetch_double2((gauge), idx + ((dir/2)*9+1)*stride); \

  double2 G##2 = fetch_double2((gauge), idx + ((dir/2)*9+2)*stride); \

  double2 G##3 = fetch_double2((gauge), idx + ((dir/2)*9+3)*stride); \

  double2 G##4 = fetch_double2((gauge), idx + ((dir/2)*9+4)*stride); \

  double2 G##5 = fetch_double2((gauge), idx + ((dir/2)*9+5)*stride); \

  double2 G##6 = fetch_double2((gauge), idx + ((dir/2)*9+6)*stride); \

  double2 G##7 = fetch_double2((gauge), idx + ((dir/2)*9+7)*stride); \

  double2 G##8 = fetch_double2((gauge), idx + ((dir/2)*9+8)*stride); \


#define READ_GAUGE_MATRIX_12_DOUBLE2_TEX(G, gauge, dir, idx, stride)    \

  double2 G##0 = fetch_double2((gauge), idx + ((dir/2)*6+0)*stride);    \

  double2 G##1 = fetch_double2((gauge), idx + ((dir/2)*6+1)*stride);    \

  double2 G##2 = fetch_double2((gauge), idx + ((dir/2)*6+2)*stride);    \

  double2 G##3 = fetch_double2((gauge), idx + ((dir/2)*6+3)*stride);    \

  double2 G##4 = fetch_double2((gauge), idx + ((dir/2)*6+4)*stride);    \

  double2 G##5 = fetch_double2((gauge), idx + ((dir/2)*6+5)*stride);    \

  double2 G##6 = make_double2(0,0);                                     \

  double2 G##7 = make_double2(0,0);                                     \

  double2 G##8 = make_double2(0,0);                                     \


// set A to be last components of G4 (otherwise unused)

#define READ_GAUGE_MATRIX_8_DOUBLE2_TEX(G, gauge, dir, idx, stride)     \

  double2 G##0 = fetch_double2((gauge), idx + ((dir/2)*4+0)*stride);    \

  double2 G##1 = fetch_double2((gauge), idx + ((dir/2)*4+1)*stride);    \

  double2 G##2 = fetch_double2((gauge), idx + ((dir/2)*4+2)*stride);    \

  double2 G##3 = fetch_double2((gauge), idx + ((dir/2)*4+3)*stride);    \

  double2 G##4 = make_double2(0,0);                                     \

  double2 G##5 = make_double2(0,0);                                     \

  double2 G##6 = make_double2(0,0);                                     \

  double2 G##7 = make_double2(0,0);                                     \

  double2 G##8 = make_double2(0,0);                                     \

  (G##7).x = (G##0).x;                                                  \

  (G##7).y = (G##0).y;


#define READ_GAUGE_PHASE_FLOAT_TEX(P, phase, dir, idx, stride) { \

  P = 2.f*pi_f*TEX1DFETCH(float, (phase), idx + (dir/2)*stride); \

}


#define READ_GAUGE_PHASE_SHORT_TEX(P, phase, dir, idx, stride) READ_GAUGE_PHASE_FLOAT_TEX(P, phase, dir, idx, stride)


#define READ_GAUGE_PHASE_DOUBLE_TEX(P, phase, dir, idx, stride) { \

  P = 2*M_PI*fetch_double((phase), idx + (dir/2)*stride); \

}


#define ASSN_GAUGE_MATRIX_18_DOUBLE2_TEX(G, gauge, dir, idx, stride) \

   G##0 = fetch_double2((gauge), idx + ((dir/2)*9+0)*stride); \

   G##1 = fetch_double2((gauge), idx + ((dir/2)*9+1)*stride); \

   G##2 = fetch_double2((gauge), idx + ((dir/2)*9+2)*stride); \

   G##3 = fetch_double2((gauge), idx + ((dir/2)*9+3)*stride); \

   G##4 = fetch_double2((gauge), idx + ((dir/2)*9+4)*stride); \

   G##5 = fetch_double2((gauge), idx + ((dir/2)*9+5)*stride); \

   G##6 = fetch_double2((gauge), idx + ((dir/2)*9+6)*stride); \

   G##7 = fetch_double2((gauge), idx + ((dir/2)*9+7)*stride); \

   G##8 = fetch_double2((gauge), idx + ((dir/2)*9+8)*stride); \


#define ASSN_GAUGE_MATRIX_12_DOUBLE2_TEX(G, gauge, dir, idx, stride)    \

   G##0 = fetch_double2((gauge), idx + ((dir/2)*6+0)*stride);   \

   G##1 = fetch_double2((gauge), idx + ((dir/2)*6+1)*stride);   \

   G##2 = fetch_double2((gauge), idx + ((dir/2)*6+2)*stride);           \

   G##3 = fetch_double2((gauge), idx + ((dir/2)*6+3)*stride);   \

   G##4 = fetch_double2((gauge), idx + ((dir/2)*6+4)*stride);   \

   G##5 = fetch_double2((gauge), idx + ((dir/2)*6+5)*stride);   \

   G##6 = make_double2(0,0);                                    \

   G##7 = make_double2(0,0);                                    \

   G##8 = make_double2(0,0);                                    \


// set A to be last components of G4 (otherwise unused)

#define ASSN_GAUGE_MATRIX_8_DOUBLE2_TEX(G, gauge, dir, idx, stride)     \

   G##0 = fetch_double2((gauge), idx + ((dir/2)*4+0)*stride);   \

   G##1 = fetch_double2((gauge), idx + ((dir/2)*4+1)*stride);   \

   G##2 = fetch_double2((gauge), idx + ((dir/2)*4+2)*stride);   \

   G##3 = fetch_double2((gauge), idx + ((dir/2)*4+3)*stride);   \

   G##4 = make_double2(0,0);                                    \

   G##5 = make_double2(0,0);                                    \

   G##6 = make_double2(0,0);                                    \

   G##7 = make_double2(0,0);                                    \

   G##8 = make_double2(0,0);                                    \

  (G##7).x = (G##0).x;                                                  \

  (G##7).y = (G##0).y;


#endif