Quando un agente AI perde il contesto nel bel mezzo di un’attività perché lo storage tradizionale non riesce a tenere il passo con l’inferenza, non si tratta di un problema di modello: è un problema di storage. Al GTC 2026, Nvidia ha annunciato BlueField-4 STX, un’architettura di riferimento modulare che inserisce uno strato di memoria di contesto dedicato tra le GPU e lo storage tradizionale, dichiarando 5 volte il throughput dei token, 4 volte l’efficienza energetica e 2 volte la velocità di acquisizione dei dati rispetto allo storage convenzionale basato su CPU.
Le destinazioni STX del collo di bottiglia sono i dati della cache dei valori-chiave. La cache KV è il document archiviato di ciò che un modello ha già elaborato: i calcoli intermedi che un LLM salva in modo da non dover ricalcolare l’attenzione nell’intero contesto in ogni fase di inferenza. È ciò che consente a un agente di mantenere una memoria di lavoro coerente tra sessioni, chiamate a strumenti e passaggi di ragionamento. Man mano che le finestre di contesto crescono e gli agenti eseguono più passaggi, la cache cresce con loro. Quando deve attraversare un percorso di storage tradizionale per tornare alla GPU, l’inferenza rallenta e l’utilizzo della GPU diminuisce.
STX non è un prodotto che Nvidia vende direttamente. Si tratta di un’architettura di riferimento che l’azienda sta distribuendo al suo ecosistema di accomplice di storage in modo che i fornitori possano costruire attorno advert essa un’infrastruttura nativa di intelligenza artificiale.
STX inserisce uno strato di memoria di contesto tra GPU e disco
L’architettura è costruita attorno a un nuovo processore BlueField-4 ottimizzato per lo storage che combina la CPU Vera di Nvidia con ConnectX-9 SuperNIC. Funziona su rete Ethernet Spectrum-X ed è programmabile tramite la piattaforma software program DOCA di Nvidia.
La prima implementazione su scala rack è la piattaforma di storage della memoria di contesto Nvidia CMX. CMX estende la memoria della GPU con un livello di contesto advert alte prestazioni progettato specificamente per l’archiviazione e il recupero dei dati della cache KV generati da modelli linguistici di grandi dimensioni durante l’inferenza. Mantenere la cache accessibile senza forzare un viaggio di andata e ritorno attraverso l’archiviazione generica è ciò per cui CMX è progettato.
“I information middle tradizionali forniscono storage advert alta capacità e per uso generale, ma generalmente non hanno la reattività richiesta per l’interazione con gli agenti di intelligenza artificiale che devono lavorare attraverso molti passaggi, strumenti e sessioni various”, ha affermato Ian Buck, vicepresidente dell’hyperscale e del calcolo advert alte prestazioni di Nvidia in un briefing con la stampa e gli analisti.
In risposta a una domanda di VentureBeat, Buck ha confermato che STX viene fornito anche con una piattaforma di riferimento software program insieme all’architettura {hardware}. Nvidia sta espandendo DOCA per includere un nuovo componente indicato nel briefing come DOCA Memo.
“I nostri fornitori di storage possono sfruttare la programmabilità del processore BlueField-4 per ottimizzare lo storage per la fabbrica di intelligenza artificiale degli agenti”, ha affermato Buck. “Oltre advert avere un’architettura rack di riferimento, forniamo loro anche una piattaforma software program di riferimento per fornire innovazioni e ottimizzazioni ai loro clienti.”
I accomplice di storage che si basano su STX ottengono sia un progetto di riferimento {hardware} che una piattaforma di riferimento software program: una base programmabile per lo storage ottimizzato per il contesto.
L’elenco dei accomplice di Nvidia comprende operatori storici dello storage e fornitori di cloud nativi IA
I fornitori di storage che co-progettano infrastrutture basate su STX includono Cloudian, DDN, Dell Applied sciences, Everpure, Hitachi Vantara, HPE, IBM, MinIO, NetApp, Nutanix, VAST Knowledge e WEKA. I accomplice di produzione che realizzano sistemi basati su STX includono AIC, Supermicro e Quanta Cloud Know-how.
Sul lato cloud e AI, CoreWeave, Crusoe, IREN, Lambda, Mistral AI, Nebius, Oracle Cloud Infrastructure e Vultr si sono tutti impegnati con STX per l’archiviazione della memoria di contesto.
Questa combinazione di operatori storici dello storage aziendale e fornitori di servizi cloud nativi per l’intelligenza artificiale è il segnale che vale la pena tenere d’occhio. Nvidia non sta posizionando STX come prodotto speciale per gli hyperscaler. Lo sta posizionando come normal di riferimento per chiunque crei infrastrutture di storage che debbano servire carichi di lavoro di intelligenza artificiale agenti, che, entro i prossimi due o tre anni, includeranno probabilmente la maggior parte delle implementazioni di intelligenza artificiale aziendale che eseguono inferenza multi-step su larga scala.
Le piattaforme basate su STX saranno disponibili presso i accomplice nella seconda metà del 2026.
IBM mostra come si presenta il problema del livello dati nella produzione
IBM siede su entrambi i lati dell’annuncio STX. È elencato come fornitore di storage che co-progetta infrastrutture basate su STX e Nvidia ha confermato separatamente di aver selezionato IBM Storage Scale System 6000 – certificato e convalidato sulle piattaforme Nvidia DGX – come base di storage advert alte prestazioni per la propria infrastruttura di analisi nativa GPU.
IBM ha inoltre annunciato una collaborazione più ampia con Nvidia al GTC, inclusa l’integrazione accelerata da GPU tra il motore SQL watsonx.information Presto di IBM e la libreria cuDF di Nvidia. Una prova di concetto di produzione con Nestlé ha fornito numeri su come si presenta questa accelerazione: un ciclo di aggiornamento dei dati nel information mart Order-to-Money dell’azienda, che copre 186 paesi e 44 tavoli, è sceso da 15 minuti a tre minuti. IBM ha registrato un risparmio sui costi dell’83% e un miglioramento del rapporto prezzo-prestazioni di 30 volte.
Il risultato di Nestlé è un carico di lavoro di analisi strutturato. Non dimostra direttamente le prestazioni dell’inferenza dell’agente. Ma rende concreto l’argomento condiviso da IBM e Nvidia: il livello dati è il luogo in cui le prestazioni dell’intelligenza artificiale aziendale sono attualmente limitate e l’accelerazione della GPU produce risultati materiali nella produzione.
Perché il livello di storage sta diventando una decisione infrastrutturale di prima classe
STX è un segnale che il livello di storage sta diventando una preoccupazione di prima classe nella pianificazione dell’infrastruttura AI aziendale, non un ripensamento per l’approvvigionamento di GPU. Il NAS per scopi generici e l’archiviazione di oggetti non sono stati progettati per servire i dati della cache KV con requisiti di latenza di inferenza. I sistemi basati su STX di accomplice tra cui Dell, HPE, NetApp e VAST Knowledge sono ciò che Nvidia propone come alternativa pratica, con la piattaforma software program DOCA che fornisce il livello di programmabilità per ottimizzare il comportamento dello storage per specifici carichi di lavoro agenti.
Le prestazioni dichiarate (velocità effettiva dei token 5x, efficienza energetica 4x, acquisizione dati 2x) sono misurate rispetto alle tradizionali architetture di storage basate su CPU. Nvidia non ha specificato l’esatta configurazione di base per questi confronti. Prima che questi numeri guidino le decisioni sulle infrastrutture, vale la pena definire la linea di base.
Si prevede che le piattaforme verranno fornite dai accomplice nella seconda metà del 2026. Dato che la maggior parte dei principali fornitori di storage sta già coprogettando su STX, le aziende che valutano aggiornamenti di storage per l’infrastruttura AI nei prossimi 12 mesi dovrebbero aspettarsi che le opzioni basate su STX siano disponibili dai loro rapporti con i fornitori esistenti.












