Segui ZDNET: Aggiungici come fonte preferita su Google.
I principali punti salienti di ZDNET
- TurboQuant di Google può ridurre drasticamente l’utilizzo della memoria AI.
- TurboQuant è una risposta al costo vertiginoso dell’intelligenza artificiale.
- Un risultato positivo è rendere l’intelligenza artificiale più accessibile riducendo i costi di inferenza.
Con il costo dell’intelligenza artificiale alle stelle grazie all’aumento dei prezzi dei componenti dei laptop come la memoria, Google la scorsa settimana ha risposto con una proposta di innovazione tecnica chiamata TurboQuant.
TurboQuant, che Google i ricercatori hanno discusso in un post sul blogè un altro momento dell’IA di DeepSeek, un profondo tentativo di ridurre il costo dell’IA. Potrebbe avere un vantaggio duraturo riducendo l’utilizzo della memoria da parte dell’intelligenza artificiale, rendendo i modelli molto più efficienti.
Anche: Cos’è l’intelligenza artificiale di DeepSeek? È sicuro? Ecco tutto quello che devi sapere
Anche così, proprio come DeepSeek non ha fermato i massicci investimenti nei chip AI, gli osservatori affermano che TurboQuant porterà probabilmente a una crescita continua degli investimenti nell’IA. È il Il paradosso di Jevons: rendi qualcosa di più efficiente e finirai per aumentare l’utilizzo complessivo di quella risorsa.
Tuttavia, TurboQuant è un approccio che può aiutare a eseguire l’intelligenza artificiale localmente riducendo le richieste {hardware} di un modello linguistico di grandi dimensioni.
Più memoria, più soldi
Il grande fattore di costo per l’intelligenza artificiale al momento – e probabilmente per il prossimo futuro – è l’uso sempre maggiore delle tecnologie di memoria e archiviazione. L’intelligenza artificiale è affamata di dati, introducendo una dipendenza dalla memoria e dall’archiviazione senza precedenti nella storia dell’informatica.
TurboQuant, descritto per la prima volta dai ricercatori di Google in a carta un anno fautilizza la “quantizzazione” per ridurre il numero di bit e byte richiesti per rappresentare i dati.
Anche: Perché pagherai di più per l’intelligenza artificiale nel 2026 e 3 suggerimenti per risparmiare denaro da provare
La quantizzazione è una forma di compressione dei dati che utilizza meno bit per rappresentare lo stesso valore. Nel caso di TurboQuant, l’attenzione si concentra su quella che viene chiamata “cache chiave-valore” o, in breve, “cache KV”, uno dei più grandi divoratori di memoria dell’intelligenza artificiale.
Quando digiti in un chatbot come Gemini di Google, l’intelligenza artificiale deve confrontare ciò che hai digitato con un archivio di misure che funge da una sorta di database.
Ciò che digiti viene chiamato question e viene confrontato con i dati conservati in memoria, chiamati chiave, per trovare una corrispondenza numerica. Fondamentalmente, è un punteggio di somiglianza. La chiave viene quindi utilizzata per recuperare dalla memoria esattamente quali parole dovrebbero essere restituite come risposta dell’IA, nota come valore.
Normalmente, ogni volta che si digita, il modello AI deve calcolare una nuova chiave e un nuovo valore, il che può rallentare l’intera operazione. Per velocizzare le cose, la macchina conserva una cache di valori-chiave in memoria per archiviare chiavi e valori utilizzati di recente.
La cache diventa quindi un problema: più lavori con un modello, più memoria occupa la cache dei valori-chiave. “Questo ridimensionamento rappresenta un collo di bottiglia significativo in termini di utilizzo della memoria e velocità di calcolo, soprattutto per i modelli con contesto lungo”, secondo l’autore principale di Google Amir Zandieh e colleghi.
Anche: L’intelligenza artificiale non sta diventando più intelligente, sta diventando sempre più assetata di potere – e costosa
A peggiorare le cose, i modelli di intelligenza artificiale vengono sempre più costruiti con chiavi e valori più complessi, noti come finestra di contesto. Ciò offre al modello più opzioni di ricerca, migliorando potenzialmente la precisione. Gemini 3, la versione attuale, ha fatto un grande passo avanti nella finestra di contesto arrivando a un milione di token. I precedenti modelli all’avanguardia come GPT-4 di OpenAI avevano una finestra di contesto di soli 32.768 token. Una finestra di contesto più ampia aumenta anche la quantità di memoria utilizzata dalla cache dei valori-chiave.
Velocizzare la quantizzazione per il tempo reale
La soluzione a questa espansione della cache KV è quantizzare le chiavi e i valori in modo che il tutto occupi meno spazio. Zandieh e il group affermano nel loro publish sul weblog che la compressione dei dati è “massiccia” con TurboQuant. “Ridurre la dimensione della cache KV senza compromettere la precisione è essenziale”, scrivono.
La quantizzazione è stata utilizzata da Google e altri per anni per snellire le reti neurali. La novità di TurboQuant è che è pensato per quantizzare in tempo reale. I precedenti approcci di compressione riducevano le dimensioni di una rete neurale in fase di compilazione, prima che venisse eseguita in produzione.
Inoltre: Nvidia vuole possedere il tuo knowledge middle AI da un capo all’altro
Non è abbastanza, ha osservato Zandieh. La cache KV è un riassunto vivente di ciò che viene appreso al “momento dell’inferenza”, quando le persone digitano su un bot AI e le chiavi e i valori cambiano. Pertanto, la quantizzazione deve avvenire in modo sufficientemente rapido e accurato da mantenere la cache piccola pur rimanendo aggiornata. Il “turbo” in TurboQuant implica che questo è molto più veloce della tradizionale quantizzazione in fase di compilazione.
Approccio in due fasi
TurboQuant ha due fasi. Innanzitutto, le question e le chiavi vengono compresse. Questo può essere fatto geometricamente perché le question e le chiavi sono vettori di dati che possono essere rappresentati su un grafico XY come una linea, che può essere ruotata su quel grafico. Chiamano le rotazioni “PolarQuant”. Provando casualmente various rotazioni con PolarQuant e quindi recuperando la linea originale, trovano un numero inferiore di bit che preserva comunque la precisione.
Come dicono loro, “PolarQuant agisce come un ponte di compressione advert alta efficienza, convertendo gli enter cartesiani in una ‘abbreviazione’ polare compatta per l’archiviazione e l’elaborazione.”
I vettori compressi producono ancora errori quando viene eseguito il confronto tra la question e la chiave, nota come “prodotto interno” di due vettori. Per risolvere questo problema, usano un secondo metodo, QJL, introdotto da Zandieh nel 2024. Questo approccio mantiene uno dei due vettori nel suo stato originale, in modo che la moltiplicazione di un vettore compresso (quantizzato) con un vettore non compresso serva da check per migliorare l’accuratezza della moltiplicazione.
Hanno testato TurboQuant applicandolo al modello AI open supply Llama 3.1-8B di Meta Platforms e hanno scoperto che “TurboQuant raggiunge risultati downstream perfetti su tutti i benchmark riducendo al contempo la dimensione della memoria del valore chiave di un fattore di almeno 6 volte” – una riduzione di sei volte nella quantità di cache KV necessaria.
L’approccio differisce anche da altri metodi per comprimere la cache KV, come l’approccio adottato lo scorso anno da DeepSeek, che limitava le ricerche di chiavi e valori per accelerare l’inferenza.
Anche: DeepSeek afferma che il suo nuovo modello di intelligenza artificiale può ridurre il costo delle previsioni del 75%: ecco come
In un altro check, utilizzando il modello open supply Gemma di Google e i modelli della startup francese Mistral, “TurboQuant ha dimostrato di poter quantizzare la cache dei valori-chiave a soli 3 bit senza richiedere formazione o messa a punto e senza causare alcun compromesso nell’accuratezza del modello”, hanno scritto, “il tutto ottenendo un tempo di esecuzione più veloce rispetto agli LLM originali (Gemma e Mistral).”
“È eccezionalmente efficiente da implementare e comporta un sovraccarico di runtime trascurabile”, hanno osservato
L’intelligenza artificiale costerà meno?
Zandieh e il group si aspettano che TurboQuant abbia un impatto significativo sull’uso in produzione dell’inferenza dell’intelligenza artificiale. “Man mano che l’intelligenza artificiale diventa sempre più integrata in tutti i prodotti, dai LLM alla ricerca semantica, questo lavoro sulla quantizzazione vettoriale fondamentale sarà più critico che mai”, hanno scritto.
Inoltre: vuoi provare OpenClaw? NanoClaw è un agente AI più semplice e potenzialmente più sicuro
Ma ridurrà davvero il costo dell’intelligenza artificiale? Sì e no.
In un’period di intelligenza artificiale basata su agenti, programmi come il software program OpenClaw che funzionano in modo autonomo, ci sono molte parti dell’intelligenza artificiale oltre alla sola cache KV. Altri usi della memoria, come il recupero e l’archiviazione dei file del database, influiranno in definitiva sull’efficienza di un agente a lungo termine.
Coloro che seguono il mondo dei chip AI la scorsa settimana hanno sostenuto che, proprio come l’efficienza di DeepSeek AI non ha rallentato gli investimenti nell’IA lo scorso anno, nemmeno TurboQuant lo farà.
Vivek Arya, un banchiere di Merrill Lynch che segue i chip di intelligenza artificiale, ha scritto ai suoi clienti preoccupati per il produttore di DRAM Micron Expertise che TurboQuant farà semplicemente un uso più efficiente dell’intelligenza artificiale. Il “miglioramento 6x dell’efficienza della memoria [will] probabile [lead] advert un aumento di 6 volte della precisione (dimensione del modello) e/o della lunghezza del contesto (allocazione della cache KV), anziché una diminuzione di 6 volte della memoria,” ha scritto Arya.
Inoltre: agenti IA del caos? Una nuova ricerca mostra come i robotic che parlano con i robotic possano andare lateralmente velocemente
Ciò che TurboQuant può fare, tuttavia, è rendere alcune singole istanze di intelligenza artificiale più economiche, soprattutto per l’implementazione locale.
Advert esempio, una cache KV in espansione e finestre di contesto più lunghe potrebbero rivelarsi meno onerose quando si eseguono alcuni modelli di intelligenza artificiale con price range {hardware} limitati. Questo sarà un sollievo per gli utenti di OpenClaw che desiderano che il loro MacBook Neo o Mac mini funga da server AI locale economico.












