4.2.1.2.2 : La fonction de calcul vectorisée
Commençons avec la documentation (j'insisterai toujours) suivit de la définition de notre fonction :
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 |
///Propagate the U and V species in the matU and matV /** @param[out] poutMatU : updated matrix U version * @param[out] poutMatV : updated matrix V version * @param pmatU : input of matrix U * @param pmatV : input of matrix V * @param nbRow : number of rows of the matrices * @param nbCol : number of columns of the matrices * @param matDeltaSquare : matrix of the delta square values * @param nbStencilRow : number of rows of the matrix matDeltaSquare * @param nbStencilCol : number of columns of the matrix matDeltaSquare * @param diffudionRateU : diffusion rate of the U specie * @param diffudionRateV : diffusion rate of the V specie * @param feedRate : rate of the process which feeds U and drains U, V and P * @param killRate : rate of the process which converts V into P * @param dt : time interval between two steps */ void grayscott_propagation(float * __restrict__ poutMatU, float * __restrict__ poutMatV, const float * __restrict__ pmatU, const float * __restrict__ pmatV, long nbRow, long nbCol, const float * matDeltaSquare, long nbStencilRow, long nbStencilCol, float diffudionRateU, float diffusionRateV, float feedRate, float killRate, float dt) { |
Il faut indiquer au compilateur que les pointeurs que l'on utilise sont alignés sur PLIB_VECTOR_SIZE_BYTE_FLOAT octets. C'est basiquement la seule différence avec notre implémentation naïve noteAprès, si nous jouons au jeu des erreurs, il vous reste une diférence à trouver... :
1 2 3 4 |
const float* matU = (const float*)__builtin_assume_aligned(pmatU, PLIB_VECTOR_SIZE_BYTE_FLOAT); const float* matV = (const float*)__builtin_assume_aligned(pmatV, PLIB_VECTOR_SIZE_BYTE_FLOAT); float* outMatU = (float*)__builtin_assume_aligned(poutMatU, PLIB_VECTOR_SIZE_BYTE_FLOAT); float* outMatV = (float*)__builtin_assume_aligned(poutMatV, PLIB_VECTOR_SIZE_BYTE_FLOAT); |
Nous déterminons les offset de notre stencil (le nombre de couches à partir de la cellule centrale) :
1 2 |
long offsetStencilRow((nbStencilRow - 1l)/2l); long offsetStencilCol((nbStencilCol - 1l)/2l); |
Nous bouclons sur les lignes de nos matrices pour mettre à jour toutes nos cellules :
1 |
for(long i(0l); i < nbRow; ++i){ |
Il faut maintenant déterminer les bornes de nos calculs en ligne (voir section 4.1.1.1) :
1 2 |
long firstRowStencil(std::max(i - offsetStencilRow, 0l)); long lastRowStencil(std::min(i + offsetStencilRow + 1l, nbRow)); |
Nous bouclons sur les colonnes de nos matrices pour mettre à jour toutes nos cellules :
1 |
for(long j(0l); j < nbCol; ++j){ |
Il faut maintenant déterminer les bornes de nos calculs en colonne (voir section 4.1.1.1) :
1 2 |
long firstColStencil(std::max(j - offsetStencilCol, 0l)); long lastColStencil(std::min(j + offsetStencilCol + 1l, nbCol)); |
Définissons quelques variables temporaires :
1 2 3 |
long stencilIndexRow(0l); float u(matU[i*nbCol + j]), v(matV[i*nbCol + j]); float fullU(0.0f), fullV(0.0f); |
Nous devons maintenant boucler sur les lignes et les colonnes de notre stencil :
1 2 3 |
for(long k(firstRowStencil); k < lastRowStencil; ++k){ long stencilIndexCol(0l); for(long l(firstColStencil); l < lastColStencil; ++l){ |
Nous pouvons enfin calculer notre gradient :
1 2 3 |
float deltaSquare(matDeltaSquare[stencilIndexRow*nbStencilCol + stencilIndexCol]);
fullU += (matU[k*nbCol + l] - u)*deltaSquare;
fullV += (matV[k*nbCol + l] - v)*deltaSquare;
|
Il ne faut pas oublier d'incrémenter les indices qui nous permettent de parcourir la matrice matDeltaSquare] :
1 2 3 4 |
++stencilIndexCol; } ++stencilIndexRow; } |
On finalise le calcul :
1 2 3 |
float uvSquare(u*v*v); float du(diffudionRateU*fullU - uvSquare + feedRate*(1.0f - u)); float dv(diffusionRateV*fullV + uvSquare - (feedRate + killRate)*v); |
Et on sauvegarde le résultat :
1 2 |
outMatU[i*nbCol + j] = u + du*dt; outMatV[i*nbCol + j] = v + dv*dt; |
Fin des deux boucles sur les lignes et les colonnes :
1 2 |
} } |
Fin de la fonction :
1 |
} |