Home Tecnologia Token più economici, fatture più grandi: la nuova matematica dell’infrastruttura AI

Token più economici, fatture più grandi: la nuova matematica dell’infrastruttura AI

17
0

Presentato da Nutanix


Man mano che le aziende passano dalla sperimentazione dell’intelligenza artificiale all’implementazione della produzione, il principale fattore di costo si è spostato dalla formazione del modello di base all’infrastruttura necessaria per eseguire migliaia di carichi di lavoro di inferenza simultanei su larga scala, con l’intelligenza artificiale degli agenti come acceleratore.

Laddove i primi progetti di intelligenza artificiale aziendale prevedevano una manciata di grandi lavori di formazione programmati, gli ambienti di produzione richiedono supporto continuo per richieste imprevedibili e di breve durata che consumano GPU, risorse di rete e storage in modi che l’infrastruttura tradizionale non è mai stata progettata per gestire. Per i chief tecnologici aziendali, questo cambiamento sta trasformando l’efficienza dell’infrastruttura in un fattore determinante nell’economia dell’IA.

“Ogni dipendente con un assistente AI, ogni flusso di lavoro automatizzato, ogni pipeline di agenti ha bisogno di modelli per l’inferenza e genera molti token”, afferma Anindo Sengupta, VP of Merchandise di Nutanix. “Le richieste di inferenza arrivano a un’infrastruttura GPU, attraversano reti specializzate e estraggono dati da sistemi di storage appositamente realizzati per supportare questi carichi di lavoro di intelligenza artificiale.”

Perché il costo per token sta diventando un parametro fondamentale dell’infrastruttura

I costi di inferenza per token hanno diminuito di circa un ordine di grandezza negli ultimi due anni, spinto dai miglioramenti nell’efficienza dei modelli e dalla pressione competitiva tra i fornitori di servizi cloud. L’aspettativa è che l’intelligenza artificiale aziendale diventi più economica. Invece, i costi totali stanno aumentandocube Sengupta, riferendosi a quello che gli economisti chiamano il paradosso di Jevons: quando una risorsa diventa più economica da utilizzare, il consumo tende advert aumentare più velocemente di quanto scenda il prezzo.

Quindi, mentre il costo per token è diminuito di quasi un ordine di 10 negli ultimi due anni, il consumo è aumentato di oltre 100 volte. Il risultato è che il costo per token e l’utilizzo della GPU stanno diventando parametri operativi primari per l’IT aziendale, affiancandosi a misure tradizionali come uptime e throughput.

“Il costo per token riguarda in realtà il costo totale di proprietà per servire modelli di inferenza”, afferma Sengupta. “L’utilizzo consiste nell’assicurarsi che, una volta disposte le risorse GPU, si ottenga il massimo ritorno da esse. Questi parametri saranno fondamentali per i chief IT aziendali.”

Ciò che rende tutto questo difficile è il numero di variabili coinvolte. I costi dei token variano a seconda dei modelli eseguiti da un’organizzazione, di dove vengono eseguiti i carichi di lavoro e di come sono strutturate le richieste.

“Ci sono troppe variabili in termini di costi da gestire in modo intuitivo”, aggiunge Sengupta. “L’ottimizzazione è un problema di ingegneria e richiede una messa a punto continua.”

I carichi di lavoro agenti espongono i limiti dell’infrastruttura tradizionale

L’intelligenza artificiale dell’agente di produzione introduce un profilo di carico di lavoro che l’infrastruttura aziendale tradizionale non è stata progettata per gestire. Le distribuzioni classiche dei knowledge middle si basano su carichi prevedibili e cicli di pianificazione lunghi. Gli ambienti agenti producono raffiche imprevedibili e advert alta frequenza di brevi richieste di inferenza, pongono nuove esigenze in termini di rete e archiviazione e cambiano più velocemente di quanto consentito dalla maggior parte dei cicli di approvvigionamento.

Anche l’infrastruttura che supporta l’intelligenza artificiale è strutturalmente diversa dall’elaborazione basata sulla CPU. La topologia GPU, le interconnessioni advert alta velocità, i sistemi di storage parallelo per la memoria degli agenti e la cache KV e le architetture di rete in grado di gestire l’offload della DPU rappresentano tutte nuove funzionalità che richiedono nuove competenze operative.

Le infrastrutture isolate aggravano queste sfide. Quando le risorse GPU, la rete e l’accesso ai dati vengono gestiti in modo indipendente, le inefficienze di pianificazione si accumulano, l’utilizzo diminuisce e i costi aumentano. Le organizzazioni che utilizzano stack frammentati tendono a sottoutilizzare le costose risorse GPU e contemporaneamente a creare colli di bottiglia in termini di storage e throughput di rete.

Stack integrati e necessità di un’architettura full-stack

La risposta che emerge tra i fornitori di infrastrutture è uno spostamento verso piattaforme full-stack validate e strettamente combine, progettate specificamente per carichi di lavoro di intelligenza artificiale di produzione. La premessa è che l’ottimizzazione end-to-end tra i livelli di elaborazione, rete, storage e software program produce un migliore utilizzo e costi per token inferiori rispetto all’assemblaggio di componenti di prima qualità da fornitori separati.

La soluzione Agentic AI di Nutanixrappresenta un approccio a questo problema. Basata sull’hypervisor Nutanix AHV, Nutanix Enterprise AI e Nutanix Kubernetes Platform, la soluzione è progettata per gestire sia il livello di calcolo tradizionale in cui viene eseguita l’orchestrazione degli agenti, sia il livello di calcolo accelerato in cui viene eseguita l’inferenza. L’azienda ha introdotto miglioramenti in grado di riconoscere la topologia NVIDIA advert AHV che ottimizzano automaticamente il modo in cui GPU, CPU, memoria e DPU vengono allocate alle macchine virtuali e ha scaricato Nutanix Circulate Digital Networking sulle DPU BlueField, per liberare cicli GPU e sostenere il throughput senza compromettere la sicurezza.

La soluzione supporta l’implementazione istantanea di microservizi NVIDIA NIM e modelli open supply tra cui Nemotron e integra un gateway AI che regola l’accesso ai LLM cloud di frontiera di Anthropic, Google, OpenAI e altri. Il gateway implementa inoltre il protocollo MCP (Mannequin Contesto) per consentire agli agenti di connettersi ai dati aziendali con controlli di accesso granulari. La soluzione funziona sull’infrastruttura Cisco, consentendo alle organizzazioni di implementare l’infrastruttura che già utilizzano.

“Integrando tutto, dall’hypervisor AHV e Circulate Digital Networking fino alla piattaforma Kubernetes, si rimuovono i silos che rallentano i progetti IA”, spiega Sengupta.

I workforce della piattaforma e l’agilità degli sviluppatori non possono essere messi a confronto

Una tensione organizzativa che aumenta con l’adozione dell’intelligenza artificiale tramite agenti è la relazione tra i workforce della piattaforma che gestiscono l’infrastruttura condivisa e gli sviluppatori che creano ed eseguono applicazioni agente su di essa. Questi gruppi hanno storicamente operato con strumenti diversi, priorità various e orizzonti temporali diversi, ma Sengupta sostiene che la dinamica fondamentale non è cambiata nemmeno come è cambiata la tecnologia.

“I workforce della piattaforma continueranno a fornire un catalogo di funzionalità di intelligenza artificiale self-service che siano anche conformi alle esigenze aziendali, che possono servire agli sviluppatori di intelligenza artificiale agentici”, afferma Sengupta. “I workforce IA maturi faranno un ottimo lavoro non solo nell’utilizzo della GPU, ma anche nel creare un modello operativo che consenta una rapida distribuzione dell’infrastruttura AI per soddisfare il ritmo di innovazione desiderato dagli sviluppatori. Questo è ciò che è fondamentale per il successo.”

Le organizzazioni che gestiscono l’utilizzo della GPU in modo più efficace tendono advert essere più avanti nel loro percorso di adozione dell’intelligenza artificiale, con modelli operativi più consolidati e una più chiara responsabilità dei costi. Per le organizzazioni all’inizio di questo percorso, le decisioni sulla progettazione dell’infrastruttura e sul modello operativo prese ora determineranno se i progetti di intelligenza artificiale potranno passare dal progetto pilota alla produzione senza che costi o complessità diventino un fattore limitante.

Il modello operativo della fabbrica dell’intelligenza artificiale

Il framework emergente per l’infrastruttura AI aziendale è la fabbrica AI, un ambiente appositamente creato per produrre ed eseguire carichi di lavoro AI su larga scala. La sfida è che la maggior parte delle organizzazioni dovrà gestire contemporaneamente per anni sia il calcolo tradizionale che quello accelerato, richiedendo un modello operativo comune che abbracci entrambi i paradigmi tecnologici senza sacrificare l’agilità.

Con Nutanix, in esecuzione su Cisco come parte dei Cisco AI Pods, basati su Intel e ottimizzati per l’architettura di riferimento NVIDIA, le organizzazioni ottengono una base full-stack pronta per la produzione consentendo alle fabbriche di intelligenza artificiale di essere condivise in modo sicuro ed efficiente da migliaia di agenti, per ottenere i costi per token più bassi. La soluzione colma il divario tra i workforce di ingegneria dell’infrastruttura e della piattaforma che gestiscono l’{hardware} e i workforce di ingegneria dell’intelligenza artificiale e sviluppatori di intelligenza artificiale che creano ed eseguono applicazioni di intelligenza artificiale con agenti, rendendo davvero conveniente eseguire l’intelligenza artificiale su vasta scala.

“I parametri che determineranno se un’organizzazione può sostenere e scalare il proprio investimento nell’intelligenza artificiale – costo per token, utilizzo della GPU, efficienza di pianificazione – sono parametri dell’infrastruttura”, afferma Sengupta. “Gestirli bene è sempre più una precondizione per rendere l’intelligenza artificiale fattibile, non solo funzionale.”

Proteggi e amplia la tua fabbrica di intelligenza artificiale — esplora l’approccio full-stack qui.


Gli articoli sponsorizzati sono contenuti prodotti da un’azienda che paga per il publish o ha un rapporto commerciale con VentureBeat e sono sempre chiaramente contrassegnati. Per ulteriori informazioni, contattare gross sales@venturebeat.com.

fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here