Nvidia revela seu supercomputador Eos para processamento de IA com 4.608 GPUs H100

Por que isso importa: Construído para tarefas relacionadas à IA, o Eos possui algumas especificações dignas de nota. A Nvidia chama isso de fábrica de IA, uma descrição possivelmente precisa. Ele também mostra o que as tecnologias da Nvidia podem fazer quando trabalham em escala.

A Nvidia deu aos entusiastas a primeira visão do Eos, um supercomputador em escala de data center projetado para aplicações de IA. Ela apresentou o Eos pela primeira vez na Supercomputing Conference em novembro de 2023, mas não revelou suas especificações.

Eos ostenta 576 sistemas Nvidia DGX H100 – cada um equipado com oito GPUs H100 Tensor Core para um total de 4.608. Ele também possui rede e software Nvidia Quantum-2 InfiniBand. Esta combinação fornece um total de 18,4 exaflops de desempenho FP8 AI.

Com uma arquitetura de rede que suporta velocidades de transferência de dados de até 400 Gb/s, o Eos pode treinar grandes modelos de linguagem, sistemas de recomendação e simulações quânticas, entre outras tarefas de IA. A Nvidia diz que construiu o Eos com base no conhecimento adquirido de supercomputadores Nvidia DGX anteriores, como Saturn 5 e Selene. Seus desenvolvedores o estão usando em seu trabalho em IA.

Eos levantou sobrancelhas no ano passado quando ficou em 9º lugar na lista Top500 dos supercomputadores mais rápidos do mundo – uma conquista notável, aponta ServeTheHome, já que a Nvidia parou de se concentrar em ganhos de precisão dupla para desempenho de IA há algum tempo. O supercomputador mais rápido no ranking Top500 é o sistema Frontier, localizado no Laboratório Nacional de Oak Ridge, no Tennessee, com uma pontuação HPL de 1.194 PFlop/s contra 121,4 PFlop/s do Eos. As chances são boas de que essa pontuação melhore com o tempo.

Em novembro passado, a Eos concluiu um benchmark de treinamento MLPerf baseado no modelo GPT-3 com 175 bilhões de parâmetros treinados em um bilhão de tokens em apenas 3,9 minutos – um ganho de quase 3x em relação aos 10,9 minutos de seis meses atrás. A Nvidia afirma que, como o benchmark usa uma parte do conjunto completo de dados do GPT-3, por extrapolação, o Eos agora poderia treinar em apenas oito dias ou 73x mais rápido do que um sistema usando 512 GPUs A100, que era o desempenho máximo padrão quando o GPT-3 saiu em 2020.

O Eos também vem com uma pilha de software integrada para desenvolvimento e implantação de IA, que inclui orquestração e gerenciamento de cluster, armazenamento acelerado de computação e bibliotecas de rede, além de um sistema operacional otimizado para cargas de trabalho de IA.