A revolução do resfriamento líquido da Nvidia para servidores de IA
O consumo de energia dos chips de IA de última geração está aumentando constantemente, o que se tornou um catalisador para a próxima geração de servidores DGX AI mudar para refrigeração líquida. O TDP (potência de design térmico) atual da GPU H100 carro-chefe da Nvidia é de 700 W, que excedeu o limite do resfriamento a ar tradicional. Espera-se que a Nvidia lance a GPU B100 da arquitetura Blackwell com um TDP de aproximadamente 1000W ainda este ano, e o resfriamento líquido será definitivamente necessário nesse momento.

Para sistemas de computação de alto desempenho, o resfriamento líquido tem diversas vantagens importantes sobre o resfriamento a ar:
A excelente eficiência de transferência de calor permite que componentes com TDP mais alto sejam totalmente resfriados
Devido à menor demanda por ventiladores de alta velocidade, a operação é mais silenciosa
O design do sistema é mais denso e os dissipadores de calor e ventiladores volumosos ocupam menos espaço
Potencial para capturar e reutilizar calor residual em trocadores de calor líquido-líquido

Ao usar refrigeração líquida, a Nvidia pode continuar a exceder os limites de desempenho dos aceleradores de IA sem ser limitada pelo sistema de refrigeração. À medida que a complexidade da carga de treinamento de inteligência artificial continua a aumentar e o correspondente consumo de energia do hardware aumenta, isso é crucial. O servidor DGX AI da Nvidia empacota várias GPUs em um sistema otimizado para cargas de trabalho de IA, que foi rapidamente adotado por empresas de grande escala. Os principais provedores de serviços em nuvem, como Google Cloud, Meta e Microsoft, implantaram sistemas DGX em seus data centers. Nos últimos anos, à medida que mais e mais organizações procuram aproveitar o poder transformador da inteligência artificial, a adoção dos sistemas de inteligência artificial Nvidia DGX cresceu exponencialmente.

O sistema Nvidia DGX pode usar designs avançados de resfriamento por imersão que usam fluidos dielétricos. O resfriamento direto dos chips bombeia fluidos dielétricos diretamente nos chips GPU e outros componentes térmicos, sem a necessidade de placas frias, obtendo uma transferência de calor mais direta. Ele pode suportar níveis de TDP muito altos (500W+) em um único chip, alcançando sistemas mais densos.

À medida que a inteligência artificial continua a desenvolver-se a uma velocidade surpreendente, a infraestrutura de hardware suportada deve evoluir de forma síncrona. O resfriamento líquido é uma tecnologia chave que permitirá que os aceleradores alcancem níveis de desempenho sem precedentes. Esta transformação não é isenta de desafios. Como os data centers exigem a transformação da infraestrutura de refrigeração líquida e o desenvolvimento de novos programas de manutenção, os benefícios da eficiência energética, da densidade e do desempenho são significativos e não podem ser ignorados.






