Presentato da Solidigm
Il raffreddamento a liquido sta riscrivendo le regole dell’infrastruttura AI, ma la maggior parte delle implementazioni non ha completamente superato il limite. GPU e CPU sono passate al raffreddamento a liquido, mentre lo storage è dipeso dal flusso d’aria, creando un’architettura ibrida operativamente inefficiente.
Quella che sembra essere una strategia di transizione pragmatica è, in pratica, una responsabilità strutturale.
“Un approccio di raffreddamento ibrido è una situazione operativamente inefficiente”, spiega Hardeep Singh, responsabile del crew {hardware} termo-meccanico di Solidigm. “Stai pagando e mantenendo due infrastrutture di raffreddamento costose e completamente separate, e potresti essere esposto ai problemi peggiori di entrambi i mondi.”
Mentre il raffreddamento a liquido richiede pompe, collettori di fluidi e unità di distribuzione del refrigerante (CDU), i componenti raffreddati advert aria richiedono unità CRAC, corridoi freddi e torri di raffreddamento evaporative. Le organizzazioni che passano a una soluzione ibrida semplicemente aggiungendo un po’ di raffreddamento a liquido stanno assorbendo il sovrapprezzo senza ottenere l’intero vantaggio in termini di TCO.
La fisica termica peggiora le cose. Le ingombranti piastre fredde per il raffreddamento a liquido, i tubi spessi e i collettori ostruiscono fisicamente il flusso d’aria all’interno dello chassis del server GPU. Ciò concentra lo stress termico sui restanti componenti raffreddati advert aria, comprese unità di archiviazione, memoria e schede di rete, poiché le ventole del server non possono spingere un flusso d’aria adeguato attorno alle tubazioni liquide. I componenti che fanno più affidamento sulle ventole finiscono nel peggiore ambiente termico possibile.
Il consumo di acqua è un problema quasi ignorato, ma altrettanto serio. I componenti tradizionali raffreddati advert aria si affidano alle ventole dei server per spostare il calore nell’aria ambiente, che viene poi assorbita da un circuito d’acqua e pompata nelle torri di raffreddamento evaporative. Questi sistemi possono consumare milioni di litri d’acqua nel tempo. Poiché le densità di potenza dei rack continuano a crescere per supportare i moderni carichi di lavoro dell’intelligenza artificiale, la penalizzazione dell’acqua evaporata diventa, come cube Singh, “indifendibile dal punto di vista ambientale ed economico”.
Man mano che l’infrastruttura AI si evolve verso sistemi GPU raffreddati a liquido e senza ventole, i veri vincoli su scala si stanno spostando dalle prestazioni di elaborazione alla progettazione termica a livello di sistema. Le moderne piattaforme di intelligenza artificiale non sono più costruite server per server; sono progettati come sistemi a livello di rack e pod strettamente integrati in cui l’erogazione di energia, la distribuzione del raffreddamento e il posizionamento dei componenti sono inseparabili.
In questo ambiente, le architetture di storage progettate per knowledge heart dipendenti dal flusso d’aria stanno diventando un fattore limitante. Man mano che le piattaforme GPU si spostano completamente verso domini condivisi di raffreddamento a liquido, ancorati a CDU a livello di rack, ogni componente del sistema deve funzionare in modo nativo all’interno dello stesso progetto termico e meccanico. Lo storage non può più fare affidamento su percorsi di raffreddamento isolati o su ipotesi termiche personalizzate senza introdurre inefficienza, complessità o compromessi di densità a livello di sistema.
Perché lo storage non è più un sottosistema passivo
Per i chief delle infrastrutture, questo segna una transizione fondamentale. Lo storage non è più un sottosistema passivo collegato all’elaborazione, ma un partecipante attivo al raffreddamento, alla funzionalità e all’utilizzo della GPU a livello di sistema. La capacità di scalare l’intelligenza artificiale ora dipende dalla capacità dello storage di integrarsi in modo pulito nei sistemi GPU raffreddati a liquido, senza frammentare le architetture di raffreddamento o limitare la progettazione a livello di rack.
E la corsa per scalare l’intelligenza artificiale non riguarda più solo chi ha il maggior numero di GPU, ma piuttosto chi riesce a mantenerle fresche, afferma Scott Shadley, direttore della narrativa sulla management ed evangelista di Solidigm.
“Trovare un modo per consentire lo storage raffreddato a liquido pur rendendolo utilizzabile dall’utente è stata una delle sfide più grandi nella progettazione di soluzioni di sistemi fanless”, afferma Shadley. “Con l’evoluzione dei carichi di lavoro dell’intelligenza artificiale, la pressione sullo storage non farà altro che intensificarsi”.
Tecniche come l’offload della cache KV, che spostano i dati tra la memoria della GPU e lo storage advert alta velocità durante l’inferenza, rendono la latenza dello storage e le prestazioni termiche direttamente rilevanti per l’efficienza del servizio del modello. In queste architetture, un sottosistema di storage che rallenta a causa dello scarso flusso d’aria tradizionale sotto carico termico rallenta sia le letture che il modello stesso.
Passando al raffreddamento a liquido integrato
Il passaggio dai tradizionali server GPU raffreddati advert aria ai rack integrati raffreddati a liquido migliora l’efficienza di utilizzo dell’energia (PUE) e riduce i costi operativi per il knowledge heart. Sostituisce inoltre il rumoroso sistema di trattamento dell’aria della sala pc (CRAH) e introduce una CDU liquida moderna ed efficiente con la potenziale possibilità di eliminare i refrigeratori se i rack possono essere raffreddati a una temperatura del liquido di 45° Celsius.
Quando lo stoccaggio è raffreddato tramite liquido in assenza di ventilatori, deve anche garantire la funzionalità senza perdite di liquido. Crea inoltre un nuovo requisito con cui molti crew infrastrutturali stanno appena iniziando a confrontarsi: ogni componente del rack deve funzionare in modo nativo all’interno della stessa architettura di raffreddamento.
Storage come partecipante attivo nella progettazione del sistema
La progettazione dello storage non è più un problema tecnico isolato. È una variabile diretta nell’utilizzo della GPU, nell’affidabilità del sistema e nell’efficienza operativa. La soluzione è riprogettare lo storage da zero per ambienti senza ventole e raffreddati a liquido. Questo è più difficile di quanto sembri. Il design SSD tradizionale presuppone il flusso d’aria per la gestione termica e posiziona i componenti su entrambi i lati di un PCB isolato termicamente. Nessuna delle due ipotesi è valida in un’architettura ancorata alla CDU.
“Gli SSD devono essere progettati con una soluzione termica migliore della categoria per condurre in modo efficiente il calore dai componenti interni e trasferirlo al fluido”, afferma Singh. “Il progetto deve includere un percorso a bassa resistenza per il trasferimento del calore a una singola piastra fredda fissata su un lato.”
Allo stesso tempo, le unità devono garantire la funzionalità senza perdite di liquidi durante l’inserimento e la rimozione e senza deteriorare l’interfaccia termica tra l’unità e la piastra fredda.
Solidigm ha lavorato con NVIDIA per affrontare le sfide del raffreddamento a liquido degli SSD, come la capacità di sizzling swap e il raffreddamento su un solo lato, riducendo l’impronta termica dello storage all’interno del circuito a liquido condiviso e garantendo che le GPU ricevano la loro quota proporzionale di refrigerante.
“Se lo storage non è progettato in modo efficiente per un ambiente raffreddato a liquido, ridurrà le prestazioni o richiederà più quantity di liquido”, afferma. “Il che porta direttamente e indirettamente al sottoutilizzo delle capacità della GPU.”
Allineamento sugli commonplace e percorso verso l’interoperabilità
Solidigm non sta lavorando su questo in modo isolato. Il settore in generale si sta coalizzando attorno a normal per garantire che i sistemi di intelligenza artificiale raffreddati a liquido siano interoperabili piuttosto che un mosaico di soluzioni personalizzate. La SNIA e l’Open Compute Venture (OCP) sono gli enti principali che guidano questo lavoro.
Solidigm ha guidato lo commonplace di settore per il raffreddamento a liquido in SFF-TA-1006 per il fattore di forma E1.S e partecipa attivamente ai flussi di lavoro OCP che coprono la progettazione dei rack, la gestione termica e la sostenibilità. Le soluzioni di raffreddamento personalizzate e su misura per lo storage stanno lasciando il posto a progetti allineati agli commonplace e pronti per la produzione che si integrano perfettamente nelle piattaforme GPU raffreddate a liquido.
“Ci sono various organizzazioni coinvolte in questo lavoro”, afferma Shadley, che è anche membro del consiglio di amministrazione della SNIA. “Hanno iniziato con soluzioni a livello di componente, guidate fortemente da SNIA e SFF TA TWG. Il livello successivo è il lavoro a livello di soluzione, che attualmente è fortemente guidato da OCP.”
La tabella di marcia di Solidigm sta aprendo la strada
Le regole di progettazione per le architetture a livello di sistema sono cambiate a causa dell’avvento delle tecnologie di raffreddamento a liquido e advert immersione che consentono regole di progettazione più uniche e la rimozione di alcune barriere. La capacità dei sistemi di gestire piattaforme solo SSD NVMe consente anche di rimuovere il vincolo del field basato su piatto che esiste con le soluzioni HDD, afferma Shadley.
“I clienti di Solidigm hanno un ruolo attivo e guida nelle decisioni sulla roadmap per i nostri prodotti grazie al loro profondo allineamento tecnico con l’ecosistema”, afferma. “Non ci limitiamo a realizzare e vendere prodotti, ma integriamo, co-progettiamo, co-sviluppiamo e innoviamo con e insieme ai nostri associate, clienti e i loro clienti.”
Aggiunge Singh: “Il punto di forza di Solidigm è l’innovazione e l’ingegneria a livello di sistema ispirata al cliente. Ciò continuerà advert aprire la strada all’adozione del raffreddamento a liquido per lo storage.”
Gli articoli sponsorizzati sono contenuti prodotti da un’azienda che paga per il publish o ha un rapporto commerciale con VentureBeat e sono sempre chiaramente contrassegnati. Per ulteriori informazioni, contattare gross sales@venturebeat.com.












