Main générique

6.1.2 : Main générique

Écrivons le fichier main_sgemm.cpp :

Comme ce main est générique, nous devons ajouter tous les includes qui pouraient s'avérer nécessaires.

Le premier permet d'insérer aléatoirement des valeurs déterminées comme des NaN ou des nombres dénormalisés :

1	#include "randinit.h"

Ensuite, nous devons inclure la bibliothèque qui permet de faire simplement des tests de performances :

1	#include "micro_benchmark.h"

Enfin, nous devons inclure la bibliothèque qui permet de gérer des tableax alignés automatiquement car ce main servira pour les tests de performance vectoriés et en fonctions intrisèques :

1	#include "PTensor.h"

L'inclusion du header de calcul doit quant à elle être flexible. Nous allons donc devoir passé la macro INCLUDE_FUNCTION_NAME qui indiquera au compilateur quel header utiliser :

1	#include INCLUDE_FUNCTION_NAME

La fonction qui évaluera les performances de notre calcul ne prend qu'un seule paramètre, le nombre d'éléments dans les tableaux :

///Get the number of nanoseconds per elements of the Matrix product
/**	@param nbElement : number of elements of the tables
*/
void evaluateMatrixProduct(size_t nbElement){

Ensuite, nous allouons les tenseurs en prennant garde de les alignés pour qu'il soient utilisable par les calculs vectoriés et en fonctions intrisèques :

	//Allocation of the tensors
	PTensor<float> tensorX(AllocMode::ALIGNED, nbElement, nbElement);
	PTensor<float> tensorY(AllocMode::ALIGNED, nbElement, nbElement);
	PTensor<float> tensorOut(AllocMode::ALIGNED, nbElement, nbElement);

Nous devons également initialiser nos tenseurs avec des valeurs raisonnable :

	size_t fullNbElement(nbElement*nbElement);
	//Initialisation of the tables
	tensorOut.fill(0.0f);
	for(size_t i(0lu); i < fullNbElement; ++i){
		tensorX.setValue(i, (float)(i*32lu%17lu) + 42.0f);
		tensorY.setValue(i, (float)(i*57lu%31lu) + 12.5f);
	}

Si ce main est utilisé avec des valeurs exotique nous devons les prendre en compte.

Elles devront être définies par deux macros :

RATIO_NB_NAN : qui donnera la proportion de nombres exotiques à initialiser dans les tenseurs
VALUE_DEF : qui donnera la valeur à initialiser dans les tenseurs

Comme cette partie ne doit être activée que dans certains cas, nous devons l'activée que sous certaines conditions :

#if defined(RATIO_NB_NAN) && defined(VALUE_DEF)
	size_t nbNan((size_t)(RATIO_NB_NAN*((double)fullNbElement)));
	setValueInTable(tensorX.getData(), fullNbElement, nbNan, VALUE_DEF);
	setValueInTable(tensorY.getData(), fullNbElement, nbNan, VALUE_DEF);
#endif

Enfin nous devons appeler le test de performance proprement dit, dans ce cas :

le nom du test de performance, la macro KERNEL_STR_FUNCTION_NAME donnera le nom de la fonction entre guillemets
fullNbElement : le nombre total d'éléments utilisés (utile si on traite des matrices)
FUNCTION_NAME : la fonction à appeler qui sera une macro passée au compilateur
enfin les parametres de la fonction que l'on a appelée (resultat, x, y, nombre d'éléments)

1
2
3

	//Stating the timer
	micro_benchmarkAutoNsPrint("evaluate " KERNEL_STR_FUNCTION_NAME, fullNbElement, FUNCTION_NAME,
					tensorOut.getData(), tensorX.getData(), tensorY.getData(), nbElement);

Cette fonction est maintenant terminée. Place à la fonction main.

La définition de la fonction main est classique :

1	int main(int argc, char** argv){

Nous devons changer le mode de calcul des nombres dénormalisés si besoin :

1
2
3

#ifdef DENORM_SET_TO_ZERO
	_mm_setcsr(_mm_getcsr() | (_MM_DENORMALS_ZERO_ON));
#endif

Nous devons initialiser les aléatoires que si nous en avons besoin :

1
2
3

#if defined(RATIO_NB_NAN) && defined(VALUE_DEF)
	initRandom();
#endif

Enfin, nous appellons la fonction qui permet de traiter plusieurs tailles de vecteurs différents, qui seront passés en paramètres du programme :

1	return micro_benchmarkParseArg(argc, argv, evaluateMatrixProduct);

Ceci est la fin du main :

Le fichier main_sgemm.cpp complet :

/***************************************
	Auteur : Pierre Aubert
	Mail : pierre.aubert@lapp.in2p3.fr
	Licence : CeCILL-C
****************************************/

#include "randinit.h"

#include "micro_benchmark.h"

#include "PTensor.h"

#include INCLUDE_FUNCTION_NAME

///Get the number of nanoseconds per elements of the Matrix product
/**	@param nbElement : number of elements of the tables
*/
void evaluateMatrixProduct(size_t nbElement){
	//Allocation of the tensors
	PTensor<float> tensorX(AllocMode::ALIGNED, nbElement, nbElement);
	PTensor<float> tensorY(AllocMode::ALIGNED, nbElement, nbElement);
	PTensor<float> tensorOut(AllocMode::ALIGNED, nbElement, nbElement);
	size_t fullNbElement(nbElement*nbElement);
	//Initialisation of the tables
	tensorOut.fill(0.0f);
	for(size_t i(0lu); i < fullNbElement; ++i){
		tensorX.setValue(i, (float)(i*32lu%17lu) + 42.0f);
		tensorY.setValue(i, (float)(i*57lu%31lu) + 12.5f);
	}
#if defined(RATIO_NB_NAN) && defined(VALUE_DEF)
	size_t nbNan((size_t)(RATIO_NB_NAN*((double)fullNbElement)));
	setValueInTable(tensorX.getData(), fullNbElement, nbNan, VALUE_DEF);
	setValueInTable(tensorY.getData(), fullNbElement, nbNan, VALUE_DEF);
#endif
	
	//Stating the timer
	micro_benchmarkAutoNsPrint("evaluate " KERNEL_STR_FUNCTION_NAME, fullNbElement, FUNCTION_NAME,
					tensorOut.getData(), tensorX.getData(), tensorY.getData(), nbElement);
}

int main(int argc, char** argv){
#ifdef DENORM_SET_TO_ZERO
	_mm_setcsr(_mm_getcsr() | (_MM_DENORMALS_ZERO_ON));
#endif
#if defined(RATIO_NB_NAN) && defined(VALUE_DEF)
	initRandom();
#endif
	return micro_benchmarkParseArg(argc, argv, evaluateMatrixProduct);
}

Vous pouvez le télécharger ici.