Mergulhe nas arquiteturas de GPU @nvidia 🐰 Hopper vs ⚙️ Blackwell: saltos sucessivos em poder de computação e interconexões para suas cargas de trabalho de👇 IA
🐰 Hopper (H100 & H200) introduziu Tensor Cores de 4ª geração + um FP8 Transformer Engine, dando até 9× treinamento mais rápido e inferência 30× mais rápida em comparação com o A100. ⚙️ Blackwell (B200) - com lançamento no final de 2024 - emparelha duas matrizes em um NV-HBI de 10 TB/s, adiciona FP4 e usa NVLink-5 para inferência de cluster de até 30×.
🐰 @nvidia Especificações do funil Núcleos tensores: FP8 / FP16 / TF32 misto Memória: - H100 → 80 GB HBM3 @ 3,35 TB/s - H200 → 141 GB HBM3e @ 4,8 TB/s NVLink: até 900 GB/s por GPU
🐰 @nvidia Hopper em ação Os benchmarks mostram que o H200 alimenta a inferência Llama-2 70B 45–100% mais rápido em comparação com o H100. ⚠️ Ambos viram crises de oferta em 2023–25. 💻 Na nuvem da Hyperbolic: VMs H100 e clusters bare-metal com Ethernet + InfiniBand a partir de US$ 1,49/h. H200 & B200 via cotação instantânea.
⚙️ @nvidia Inovações Blackwell - Design de chiplet (TSMC 4NP, transistores 208 B, NV-HBI de 10 TB/s) - Motor Transformer de 2ª geração: FP4 + FP8 aprimorado - NVLink-5: 18 links @ 1,8 TB/s no total - Mecanismo de descompactação: CPU↔GPU de 800 GB/s - RAS completo e computação confidencial
📊 Comparando o desempenho H100 SXM: 80 GB @ 3,35 TB/s, 3,96 PFLOPS (FP8), 1,98 PFLOPS (FP16), 67 TFLOPS (FP32), NVLink 900 GB/s, 700 W H200 SXM: 141 GB @ 4,8 TB/s, PFLOPS/TFLOPS de mesma computação, NVLink 900 GB/s, 700 W HGX B200: 180 GB @ 7,7 TB/s, 9 PFLOPS (FP8), 4,5 PFLOPS (FP16), 75 TFLOPS (FP32), NVLink 1,8 TB/s, 1000 W
❓ @nvidia O que é um FLOP? 1 operação de ponto flutuante (add/mul) 1 TFLOP = 10¹² ops/s 1 PFLOP = 10¹⁵ ops/s = 1000× um TFLOP Essas métricas mostram a rapidez com que as GPUs processam a matemática massiva por trás do treinamento de IA e HPC.
🔚 @nvidia Resumindo: 🐰 A Hopper estabeleceu o padrão com pipelines de precisão mista e assíncronos FP8. ⚙️ Blackwell empurra a próxima geração com FP4, mais memória, NVLink-5. O H100 continua sendo o carro-chefe - aluguel por US $ 1,49 / hora. H200 & B200 disponíveis mediante solicitação via
@nvidia Leia o artigo completo em:
4,72K