mercredi juil. 04, 2007

Parlons commutateur

Jusqu'à tout récemment, Sun n'intervenait que très peu dans le monde des superordinateurs (HPC). À compter de 2001, l'aspect performance a commencé à nous échapper, car les clients qui mettaient l'accent sur les performances ne souhaitaient plus travailler avec un nombre restreint de gros systèmes (ce qui est traditionnellement une spécialité Sun), mais plutôt avec un grand nombre de petits systèmes, ou grappes. En 2001, ce n'était pas notre priorité.

Mais, durant les cinq dernières années, nous avons investi dans le but de changer de cap. D'ailleurs, nos lignes Galaxy et Niagara sont les produits Sun connaissant la plus forte progression. OpenSolaris commence à s'imposer sur les petits systèmes, et nous avons redoublé d'efforts quant à l'optimisation du compilateur et l'innovation linguistique. Tous ces efforts sont mobilisés dans un esprit d'efficacité et de performances extrêmes. C'est le moment ou jamais de revenir sur le marché.

Plutôt que de copier la concurrence, nous avons commencé à examiner les problèmes et les défis auxquels sont confrontées les plus grosses installations HPC que nous pouvions trouver. Il est certain que la performance était la priorité des priorités. Cela dit, il y en avait d'autres... si vous pensiez qu'une grappe signifie trois ordinateurs installés dans un placard, vous allez être surpris.

Avec trois ou quatre cents ordinateurs, la construction d'une grappe est une activité qui se complique sensiblement. Les exemples de problèmes qui me viennent à l'esprit sont la climatisation, l'approvisionnement en courant électrique, la gestion des versions logicielles et des pannes de matériels, mais il y en a bien d'autres. Quand il s'agit de trois ou quatre mille nœuds, les facteurs critiques décuplent : poids (charge au sol), rayon de pliage des câbles optiques, dimensionnement colossal des logiciels, vitesse à laquelle les données peuvent se déplacer dans une pièce, et j'en passe. Nous avons donc décidé de concentrer nos efforts vers l'extrême, en comptant sur le fait qu'un jour nos solutions deviendraient la norme (comme c'est souvent le cas dans cette industrie).

J'ai lu pas mal de commentaires d'experts et d'analystes ces derniers jours, et je voulais leur répondre sur un aspect, surtout à ceux qui estiment que le marché des superordinateurs haut de gamme est restreint, hermétique et inintéressant en termes de marges bénéficiaires.

Le marché des superordinateurs haut de gamme est restreint, hermétique et inintéressant en termes de marges bénéficiaires... ils ont parfaitement raison.

Effectivement, tout comme dans le monde du logiciel libre (ce n'est pas en vendant à la communauté Open Source que l'on peut s'enrichir), il n'est pas possible d'exploiter une opération commerciale rentable en ciblant les universitaires et les chercheurs, à savoir les professionnels qui travaillent avec des systèmes HPC extrêmes.

Mais ce n'est pas là que je veux en venir.

La communauté (tiens, revoilà ce mot) de la superinformatique pour la recherche universitaire détermine la tendance de l'informatique d'entreprise dans le monde entier. En effet, l'informatique classique s'est inspirée du HPC pour relever des défis réels, à savoir la recherche virale, médicale et pharmaceutique, ainsi que les analyses des tendances de consommation, les marchés des capitaux, la recherche énergétique, la gestion des ressources dynamiques, etc... Il s'agit de l'un des segments du marché dont la croissance est la plus rapide. La recherche universitaire inspire et rode les améliorations informatiques, qui finissent par être adoptées sur le marché classique. L'industrie se tourne vers la recherche universitaire et les institutions de recherche pour comprendre les innovations permettant d'assurer des échelles et des performances exceptionnelles (demandez à Linus qui, pendant que j'y pense, n'a toujours pas répondu à mon invitation à dîner... j'espère que ça n'a rien à voir avec mes talents de cuisinier).

Ce que nous avons annoncé

En début de semaine, nous avons annoncé la sortie du système Constellation, à Dresde, en Allemagne. Il s'agit de blocs de construction disponibles sur le marché que tout client, universitaire ou commercial, peut utiliser pour bâtir des systèmes pouvant aller de quelques téraflops à plus de 2 pétaflops. Dans le cadre de cette annonce, nous avons présenté quelques éléments, notamment...

Notre engagement à développer OpenSolaris dans la communauté HPC, afin de rejoindre Linux en tant que plate-forme fiable et solide pour des systèmes de plusieurs pétaflops (capables d'exécuter mille trilliards d'instructions à la seconde). Qu'est-ce qui explique la préférence pour OpenSolaris ? Une prise en charge légendaire pour de gigantesques configurations de mémoire, la virtualisation intégrée, DTrace et le système de fichier ZFS constituent certainement les plus importants critères. Je précise aussi que la prise en charge de ROCKS, dont le côté GRATUIT/Open Source fait briller les yeux des entrepreneurs, et le fait qu'il fonctionne sur n'importe quel serveur ne gâche rien. La réussite dans le monde du HPC est une priorité majeure pour l'équipe Solaris. De ce fait, nos partenaires et nous-mêmes réalisons des investissements dans ce domaine. (Je souligne que cela ne diminue pas notre engagement envers Linux... cela l'augmenterait plutôt si nous pouvons associer nos licences).

ensuite, nous avons présenté une baie intégrée à 48 lames prenant en charge tous les microprocesseurs de volume, AMD, Niagara et Intel – dans la même baie, avec entrée/sortie standardisées. Voir l'image à gauche. Nous avons aussi annoncé un nouveau serveur lame, Pegasus, conçu spécialement pour les grilles HPC. Pas de ceinture de sécurité, pas de redondance, des performances, un point c'est tout.

Enfin, et c'est le point le plus important à mon sens, nous avons présenté le Projet Magnum (à droite), un commutateur infiniband (IB) absolument gigantesque (3 456 ports - cliquez ici pour savoir combien ce chiffre est significatif), conçu pour soulager les problèmes qui pourrissent la vie des installations de superordinateurs, à savoir le poids du câblage (trois tonnes de moins), le poids du matériel, le coût et la latence. Cette innovation, que nous devons à l'extraordinaire équipe Systèmes dirigée par l'architecte Andy Bechtolsheim, permet aux unités ayant d'importants besoins informatiques de se débarrasser d'un très grand nombre de complexités et de frais. Le commutateur IB le plus compétitif sur le marché actuel dispose de 288 ports. Par conséquent, il vous en faudrait beaucoup (avec une prolifération équivalente des nœuds de support, du câblage et de la complexité) pour surpasser Magnum. Dans une industrie où la taille compte, nous pouvons marcher la tête haute. (Nous pensons que l'économie de Magnum sera de l'ordre de 420 nœuds, donc, même si vous construisez une petite grille, Magnum reste très rentable.)

Notre objectif est de réduire par un facteur de deux ou trois, au minimum, le coût et la complexité de la construction d'un superordinateur, dans un environnement universitaire ou commercial. Notre mission est de fournir des systèmes généralistes et des économies de volume sur un marché qui avait une fâcheuse tendance à devenir propriétaire. Le système Constellation permet une transition de cette première image...

Vers celle-ci : une installation HPC de plusieurs pétaflops plus simple, plus légère, et plus facile à gérer/entretenir.

.

Résumons : trois tonnes de moins, trois fois moins cher à construire, beaucoup moins de câblage et une gestion beaucoup plus simple. Et avec deux pétaflops, je suis convaincu que nous pourrions battre Bobby Fischer aux échecs sans problème...

Si vous voulez en savoir plus sur le système que nous avons installé pour Texas Advanced Computing Center (TACC), voilà des infos :

TFLOP : environ 500 TÉRAFLOPS
Magnums : 2 (>2 000 4 ports IB chacun, pouvant passer à 6 912 ports)
Générateurs : 72 (1 728 Po)
Stockage de métadonnées : STK6450 RAID (9,3 To)
Stockage de bande : STK SL8500
Gestion du stockage et des données : SAM/QFS
Baies : 82
NEM IB : 328
Lames Pegasus : 3 936
Taille totale de la mémoire : 123 To
Nombre de cœurs : 62 976

Baies (Total) : 94
Espace au sol (approx.) : 189,24 mètres carrés
Puissance (approx.) : 2,4 MWatts
Longueur de câble IB : ~14 kilomètres

Pour vous donner une idée concrète, cette installation informatique représentera environ la moitié de la taille d'un terrain de basketball. C'est déjà pas mal, comme surface... en fait, il s'agira certainement du plus grand système au monde.

Et si vous voulez savoir pourquoi nous n'avons pas choisi 3 456 ports...

____________________________

Message transféré :
De : Andreas Bechtolsheim
Date: 28 juin 2007 06 h 58 59" PDT
De : Jonathan Schwartz
Copie : John Fowler
Objet : 3 456

Nous mettons en œuvre une matrice à 5 étages, avec un élément de commutation à 24 ports.
Le nombre maximum de ports est n x n/2 x n/2, soit 24 x 12 x 12 = 3 456.

Les autres commutateurs Infiniband sur le marché aujourd'hui sont des matrices à 3 étages,
soit n x n/2 or 24 x 12 = 288 ports.

Vous pouvez donc construire un commutateur à 5 étages à 3 456 ports avec 12 288 commutateurs de port
et 288 commutateurs à nœuds de 24 ports, mais vous allez vous retrouver avec 300 boîtes occupant
environ 456 U d'espace, soit 12 baies, et 6 912 câbles.
Nous utilisons une double baie avec 1 152 câbles, c'est-à-dire un sixième de l'espace,
un sixième du câblage et un sixième du poids.

Le 28 juin 2007, à 06 h 36, Jonathan Schwartz a écrit :

alors... pourquoi opter pour 3 456 ports ?

----------------------------

Enfin, si vous voulez essayer un superordinateur pendant une heure, il suffit d'aller sur network.com... nous avons fait d'énormes progrès ces 6 derniers mois...

Share this post  del.icio.us | digg.com | slashdot.org | technorati.com | reddit | facebook | stumbleupon

No Comments

Post a Comment:
Comments are closed for this entry.