Basic Linear Algebra Subprograms

Basic Linear Algebra Subprograms (BLAS) est un ensemble de fonctions standardisées (interface de programmation) réalisant des opérations de base de l'algèbre linéaire telles que des additions de vecteurs, des produits scalaires ou des multiplications de matrices. Ces fonctions ont d'abord été publiées en 1979 et sont utilisées dans des bibliothèques plus développées comme LAPACK. Largement utilisées pour le calcul haute performance, ces fonctions ont été développées de manière très optimisée par des constructeurs de calculateurs comme Intel et AMD, ou encore par d'autres auteurs (Goto (en) BLAS et ATLAS (en) - une version portable de BLAS - en sont des exemples). Les tests de performance LINPACK utilisent massivement la fonction multiplication de matrices générales (DGEMM) de BLAS.

Nécessité de BLAS

Jusqu'au début des années 1970, les codes de calcul rapide utilisaient des routines optimisées codées directement en langage machine pour l'évaluation de certaines fonctions[1]. Entre 1972 et 1978, on identifia les fonctions les plus couramment appelées dans ces programmes. Ainsi, en 1964, alors qu'il travaillait sur le projet de l'IBM 7030, Sweeney[2] rassembla des statistiques sur les calculs en virgule flottante les plus fréquemment exécutés sur les IBM 704, et s'aperçut que les sommations simples représentaient 11 % de l'ensemble[3]. De ces programmes, on fit des routines à nom générique, afin de pouvoir les utiliser en « boîte noire » : ainsi, les programmes devenaient plus faciles à lire et à déboguer, tandis qu'on continuait à accélérer ces routines.

Certains ordinateurs permettaient d'accélérer les calculs d'opérations (sommes ou produits de nombres en virgule flottante) dès qu'on enchaînait plus d'une dizaine de ces opérations à la suite (architecture pipeline) ; d'autres, tels le RS/6000, disposaient d'une architecture leur permettant de calculer à la même vitesse (avec le même nombre de cycles d'horloge) un produit suivi d'une addition (x*y +z), et un produit simple (x*y) ou une addition (x + y)[1] ; d'autres spécificités machines (présence de coprocesseurs, etc.) apparaissaient sur le marché, qu'il fallait exploiter. C'est ainsi qu'entre 1984 et 1986, BLAS fut augmentée d'opérations de niveau 2 (produits matrice-vecteur). Les progrès du calcul parallèle montraient que l'architecture mémoire joue un rôle critique sur le temps d'accès aux données. Une ré-écriture des algorithmes, localisant au maximum les calculs dans la mémoire cache, provoque une accélération spectaculaire. En 1987-88, les opérations de niveau 3 (produits et sommes matrice-matrice) voyaient le jour : BLAS 3 incite les programmeurs à privilégier les calculs par blocs avec des blocs pleins (à minimum de termes nuls).

Trois niveaux de complexité

Les opérations d'algèbre linéaire mises en œuvre dans BLAS sont réparties en 3 niveaux de complexité croissante.

Niveau 1
Ce niveau contient les opérations sur les vecteurs de la forme
est un scalaire et et sont des vecteurs ; ainsi que les opérations produit scalaire et norme, parmi tant d'autres.
Niveau 2
Ce niveau contient entre autres les opérations de type matrice-vecteur de la forme
et sont des scalaires, et sont des vecteurs et est une matrice ; ainsi que la résolution de en lorsque est une matrice triangulaire.
Niveau 3
Ce niveau contient entre autres les opérations de type matrice-matrice de la forme
et sont des scalaires et , et sont des matrices ; ainsi que la résolution de pour des matrices triangulaires . Le niveau 3 contient notamment la très usitée opération de multiplication de matrices générales (DGEMM).

Mise en œuvre

BLAS de Netlib
c'est la mise en œuvre de référence, disponible sur le site Netlib, écrite en Fortran 77[4]. Elle est peu optimisée.
CBLAS de Netlib
interfaçage de référence de BLAS pour le langage C. Il est également possible (et habituel) d'appeler BLAS en Fortran, directement depuis un code écrit en C[5].
ATLAS
Automatically Tuned Linear Algebra Software (en), une implémentation open source de BLAS pour les langages C (par interface de programmation) et Fortran 77[6].
OpenBLAS (anciennement GotoBLAS2)
Cette implémentation de BLAS est fondée sur une autre réalisée par Kazushige Goto (en), qui était sous licence BSD et était adaptée en particulier aux architectures Intel Nehalem/Atom, VIA Nano, AMD Opteron[7]. OpenBLAS est développé actuellement par Zhang Xianyi et Martin Kroeker. L’implémentation est optimisée pour un plus grand nombre d’architectures et le code est disponible sur GitHub[8].
CUBLAS
une implémentation des trois niveaux de BLAS réalisée par NVIDIA optimisée pour ses processeurs graphiques supportant Cuda[9].
clAmdBlas
une implémentation des trois niveaux de BLAS réalisée par AMD en OpenCL, et optimisée pour ses processeurs graphiques supportant OpenCL[10].
Intel MKL (en)
une implémentation d'Intel pour ses processeurs, comprenant BLAS et d'autres bibliothèques, dont LAPACK.

Notes et références

Notes

  1. a et b Cf. Nicholas J. Higham, Accuracy and Stability of Numerical Algorithms, Soc. Ind. Appl. Math., , 688 p. (ISBN 0-89871-355-2), p. 60.
  2. D'après D. W. Sweeney, « An analysis of floating-point addition », IBM System Journal, no 4,‎ , p. 31-42.
  3. Il porta ses efforts sur le décalage d'exposant préalable à l'addition des mantisses, et c'est ainsi que fut conçu le circuit shifter de l'IBM 7030. Cf. Nicholas J. Higham, Accuracy and Stability of Numerical Algorithms, Soc. Ind. Appl. Math., , 688 p. (ISBN 0-89871-355-2), p. 60.
  4. BLAS de Netlib
  5. CBLAS de Netlib
  6. ATLAS sur SourceForge
  7. Goto BLAS sur UTexas.edu
  8. OpenBLAS
  9. (en) « CUBLAS documentation », sur nvidia.com (consulté le )
  10. clAmdBlas

Voir aussi

Liens externes