Quarta-feira Jul 04, 2007

Mudando de assunto

Até muito recentemente, a Sun não era muito popular no mundo da computação de alto desempenho (HPC - High Performance Computing). Em 2001, perdemos a receita do P em HPC - os clientes que buscavam desempenho não queriam mais pequenas quantidades de sistemas grandes (uma especialidade tradicional da Sun), eles queriam grandes quantidades, clusters, de sistemas pequenos. E, em 2001, esse não era o nosso foco.

Mas passamos os últimos cinco anos investindo para mudar isso. Nossas linhas de produto Galaxy e Niagara representam os produtos que mais rapidamente crescem na Sun. O OpenSolaris está começando a ganhar uma onda de adoção em sistemas pequenos, e estamos nos duplicando em otimização de compilação e inovação de linguagem. Tudo com um foco em extrema eficiência/desempenho. Se há um momento de reentrar no mercado, esse momento é agora.

Em vez de imitar a concorrência, começamos por examinar os problemas e desafios das maiores instalações de HPC que pudemos encontrar. O desempenho certamente era a maior prioridade. Mas havia outras - e não eram o que se esperaria se a sua idéia de cluster fosse três PCs em um armário.

Quando se trata de três ou quatro centenas de computadores, os desafios de construir um cluster mudam bastante. Dissipação de calor, fornecimento de energia suficiente, gerenciamento de versão de software ou falhas de hardware, para citar apenas alguns. Passando a três ou quatro mil nós, tudo, desde o peso (carga de piso) ao raio de curvatura do cabeamento óptico, aos enormes desafios de fornecimento de software, e até mesmo a velocidade com que os dados podem ser transportados em uma sala, se torna um fator crítico. E foi aí que decidimos concentrar nossos esforços, no extremo - supondo que um dia isso se tornaria a norma (como acontece com freqüência nesse setor).

Li vários comentários de especialistas e analistas nos últimos dias e gostaria de responder a um item - daqueles que acreditam que o mercado de supercomputadores sofisticados é pequeno, esotérico e com margens de lucro muito magras.

O mercado de supercomputadores sofisticados é pequeno, esotérico e com margens de lucro muito magras - eles estão totalmente certos.

E assim como no mundo do software gratuito (no qual ninguém ficará rico vendendo à comunidade de fonte aberta), ninguém criará uma empresa lucrativa vendendo para os professores e pesquisadores que dominam os extremos da HPC.

Não é esse o ponto.

A comunidade (aqui está aquela palavra de novo) acadêmica de supercomputadores dita o ritmo da computação empresarial no mundo – que adotou a HPC para enfrentar vários desafios do mundo real, desde vírus, doenças e descoberta de remédios, à análise de padrões de compra de clientes, transações dos mercados de capitais, descoberta de energia, gerenciamento de recurso dinâmico - o que você imaginar; é um dos segmentos de maior crescimento do mercado. Provando que o que começa no mundo acadêmico, acaba nas prateleiras das lojas. O setor observa o mundo acadêmico e os institutos de pesquisa para compreender as inovações que possibilitam escalabilidade e desempenho inovadores (pergunte ao Linus - que, por falar nisso, ainda não respondeu ao meu convite para jantar... Espero que não seja por causa dos meus dotes culinários.)

O que anunciamos

Em Dresden, Alemanha, no início da semana, nós anunciamos o Constellation System - um conjunto de blocos de construção de disponibilidade genérica que qualquer cliente, seja educacional ou comercial, pode usar para criar desde um sistema de alguns teraflops até um sistema de mais de 2 petaflops. Como parte deste amplo anúncio, revelamos alguns elementos integrantes - de forma especial...

Nosso compromisso com a ascensão do OpenSolaris na comunidade HPC – unindo-se ao Linux como plataforma resiliente para sistemas de escala em petaflops (aqueles capazes de executar mil trilhões de instruções por segundo). O que está levando à preferência pelo OpenSolaris? O fantástico suporte para configurações de memórias enormes, a virtualização integrada, o DTrace e o sistema de arquivos ZFS provavelmente são os maiores atrativos – mas o suporte para ROCKS, uma etiqueta de preço que diz GRATUITO/fonte aberta, e o fato de que pode ser executado em qualquer servidor também são uma grande ajuda. O sucesso em HPC é uma alta prioridade da equipe Solaris, e uma área de investimento para nós e nossos parceiros. (E não, isso não diminui nosso foco em Linux - se pudermos combinar as licenças, isso nos ajudará a ampliá-lo.)

Em segundo lugar, revelamos um rack de 48 blades que dá suporte a todos os microprocessadores de volume, AMD, Niagara e Intel – no mesmo rack, com entrada e saída padronizadas. Foto à esquerda. Também anunciamos uma nova blade, Pegasus, desenvolvida para grids HPC. Sem cinto de segurança, sem nenhuma redundância, apenas desempenho computacional.

Em terceiro lugar, e com maior importância, revelamos o Projeto Magnum (à direita), um switch Infiniband (IB) absolutamente gigantesco (3.456 portas - clique aqui para saber o que significa esse número) – desenvolvido para atenuar os pesadelos de uma tonelada (na verdade, três toneladas) de cabeamento, peso, gastos e latência que assombram a maioria das instalações de supercomputadores. Essa inovação, cortesia da extraordinária equipe de sistemas liderada pelo arquiteto-chefe Andy Bechtolsheim, permite que as pessoas com sérias necessidades computacionais se livrem de uma enorme complexidade e gastos. O maior switch IB da concorrência no mercado hoje tem 288 portas - portanto, são necessários vários dele (com um proliferação equivalente de nós de suporte, cabeamento e complexidade) para fazer páreo com o Magnum. Em um setor onde tamanho é documento, estamos orgulhosos. (Nossa expectativa é de que a economia por trás do Magnum comprove 420 nós – dessa forma, mesmo que você esteja criando um pequeno grid, o Magnum se paga.)

Nossa visão é de que podemos reduzir duas ou três vezes o custo e a complexidade de criar um supercomputador – em um ambiente acadêmico ou comercial. Trazendo os sistemas de propósito geral, e a economia de volume, de volta a um mercado que estava se tornando proprietário. O que o Constellation System possibilita é uma transição desse cenário inicial...

Para essa instalação HPC de escala em petaflops amplamente mais simples, mais leve e mais fácil de gerenciar/manter.

.

Três tolenadas mais leve, três vezes mais econômico ao ser criado, com uma fração de cabeamento e muito mais simples de gerenciar. E, com até dois petaflops, tenho certeza que damos uma surra no Bobby Fischer...

Para quem tem interesse nos detalhes por trás de nossa premiação no Texas Advanced Computing Center (TACC). Eis o que eles estão rodando:

TFLOPs: aproximadamente 500 TERAFLOPs
Magnums: 2 (cada um com >2000 portas IB 4x, expandível para 6.912 portas)
Thumpers: 72 (1.728 PB)
Armazenamento de metadados : STK6450 RAID (9.3 TB)
Armazenamento em fita : STK SL8500
Gerenciamento de dados/armazenamento: SAM/QFS
Racks: 82
NEMs IB: 328
Blades Pegasus: 3936
Tamanho de memória agregada: 123 TB
Número de núcleos: 62.976

Total de racks: 94
Base aproximada: 189 m2
Potência aproximada: 2,4 MWatts
Comprimento do cabo IB: ~14 Km

Para colocar em perspectiva, sua instalação computacional ocupará uma área aproximadamente igual à metade de uma quadra de basquete da NBA. Não é exatamente pequena - e, na verdade, provavelmente é a maior do planeta.

E para os curiosos em saber por que 3.456 portas...

____________________________

Mensagem encaminhada:
De: Andreas Bechtolsheim
Data: 28 de junho de 2007 06h58min59s PDT
Para: Jonathan Schwartz
Cc: John Fowler
Assunto: 3.456

Implementamos uma estrutura em 5 estágios com um elemento de switch de 24 portas,
o número máximo de portas é n*n/2*n/2, ou 24*12*12 =3456.

Os outros switches Infiniband do mercado hoje têm estrutura em 3 estágios
com n*n/2 ou 24*12 = 288 portas.

Agora você pode construir um switch em 5 estágios com 3456 portas com 12 switches de 288 portas
e 288 switches folha de 24 portas, mas você termina com 300 caixas ocupando
cerca de 456U de espaço de rack ou 12 racks e 6912 cabos.
Nós usamos um rack duplo com 1152 cabos, ocupando portanto 1/6 do espaço,
1/6 dos cabos e 1/6 do peso.

Em 28/06/2007, às 06:36, Jonathan Schwartz escreveu:

portanto - por que 3.456 portas?

----------------------------

e por último, mas não menos importante - se quiser experimentar um supercomputador por algumas horas, aponte seu browser para o network.com... fizemos uma tonelada de avanços nos últimos 6 meses...

Share this post  del.icio.us | digg.com | slashdot.org | technorati.com | reddit | facebook | stumbleupon

No Comments

Post a Comment:
Comments are closed for this entry.