Home Tecnologia Ciò che pagherai per gli agenti AI sarà estremamente variabile e imprevedibile

Ciò che pagherai per gli agenti AI sarà estremamente variabile e imprevedibile

5
0

Hill Avenue Studios/Fuse/Getty Photos Plus

Segui ZDNET: Aggiungici come fonte preferita su Google.


I principali punti salienti di ZDNET

  • Il costo dell’IA in termini di token aumenta vertiginosamente quando si utilizzano gli agenti.
  • Gli agenti sono incoerenti e non possono prevedere l’utilizzo totale dei token.
  • Gli utenti devono esigere trasparenza dei prezzi e garanzie di prestazione.

Tra tutte le sfide legate all’implementazione dell’intelligenza artificiale advert agenti, la questione meno compresa è quella dei costi. I fornitori di intelligenza artificiale, come OpenAI, Google e Anthropic, hanno listini prezzi, ma nessuno di questi prezzi indicati cube agli utenti quale sarà il conto finale per risolvere effettivamente un problema.

Il risultato, secondo un nuovo studio sui costi condotto dall’Università del Michigan e da istituzioni collaboratrici, potrebbe essere uno shock adesivo: costi alle stelle e imprevedibili degli agenti.

Lo studio, condotto dall’autore principale Longju Bai del Michigan e da collaboratori della Stanford College, di All Palms AI, dell’unità DeepMind di Google, di Microsoft e del MIT, intitolato “How Do AI Brokers Spend Your Cash? Analyzing and Predicting Token Consumption in Agentic Coding Duties”, è, secondo gli autori, “il primo studio sistematico sul consumo di token degli agenti AI”.

Lo studio period pubblicato sul server di prestampa arXiv.

È degno di nota il fatto che come autore sia un eminente economista di Stanford che ha commentato ampiamente l’impatto dell’intelligenza artificiale sulla produttività, Erik Brynjolfsson.

La scoperta di primo livello è che gli agenti consumano ordini di grandezza in più di token rispetto alle chat turn-by-turn, semplici e basate su immediate: si pensi a 3.500 volte il numero di token per un agente rispetto a un ciclo di immediate con ChatGPT.

Anche: Gli agenti IA sono veloci, sciolti e fuori controllo, secondo uno studio del MIT

Un token è l’unità fondamentale di informazione elaborata da un modello di intelligenza artificiale. Potrebbe essere un pezzo di una parola, una parola intera o semplicemente un segno di punteggiatura, a seconda di come un modello suddivide i dati in pezzi.

Potresti aspettarti che gli agenti costino di più in token, ma lo studio rivela fatti più allarmanti. Due modelli diversi possono avere costi in gettoni molto diversi per la stessa attività. E lo stesso modello può avere costi diversi ogni volta che lavora sullo stesso problema, utilizzando fino al doppio del numero di token in un’occasione rispetto a un’altra.

La cosa peggiore è che nulla di tutto ciò può essere previsto. Gli agenti, hanno scoperto Bai e il group, non sono in grado di stimare in modo affidabile quanti token consumeranno alla nice per un determinato compito.

“Le attività degli agenti sono particolarmente costose”, hanno scritto, mentre più token non migliorano necessariamente i risultati. “Il semplice ridimensionamento dell’utilizzo dei token potrebbe non portare a prestazioni di esecuzione più elevate”, hanno scritto e, “[AI] i modelli sottostimano sistematicamente i token di cui hanno bisogno.

L’aumento dei costi e l’incertezza del successo non sono in alcun modo presi in considerazione negli odierni listini prezzi di OpenAI e altri. Il lavoro suggerisce che non esiste una soluzione semplice alla questione. La cosa migliore che gli utenti possono fare è impostare limiti rigidi sull’uso dei pc da parte degli agenti, causando eventualmente l’interruzione degli agenti prima di completare le attività.

(Divulgazione: Ziff Davis, la società madre di ZDNET, ha intentato una causa nell’aprile 2025 contro OpenAI, sostenendo di aver violato i diritti d’autore di Ziff Davis nella formazione e nel funzionamento dei suoi sistemi di intelligenza artificiale.)

Il quadro generale è che gli utenti collettivamente dovranno respingere OpenAI e gli altri fornitori e richiedere una qualche forma di stima affidabile dei costi e garanzie di esecuzione delle attività.

Abbiamo contattato OpenAI, Google e Anthropic per un commento.

Conteggio dei costi simbolici

Per studiare i costi, Bai e il group hanno utilizzato il framework AI agentico open supply ManiApertesviluppato da studiosi dell’Università Urbana-Champaign dell’Illinois e istituzioni collaboratrici. Hanno utilizzato OpenHands per creare agenti, che hanno poi testato nel take a look at di benchmark della codifica open supply Panchina SWE. Le attività di SWE-Bench sono tratte da problemi reali di GitHub.

Anche: Agenti IA del caos? Una nuova ricerca mostra come i robotic che parlano con i robotic possano andare lateralmente velocemente

Per prima cosa hanno trovato i punti di forza relativi dei modelli. ChatGPT 5 e 5.2 di OpenAI “raggiungono un’elevata precisione a basso costo”, sebbene non siano i più accurati. Claude Sonnet-4.5 di Anthropic ha ottenuto la massima precisione ma a costi simbolici più elevati. Il Gemini-3-Professional di Google period da qualche parte nel mezzo. E il modello Kimi-K2 del laboratorio cinese di intelligenza artificiale Moonshot potrebbe avere il peggior combine relativo: il maggior numero di token per ottenere la precisione più bassa.

u-michigan-2026-token-efficienza-e-accuratezza

Università del Michigan

Gli autori hanno suggerito che la differenza nei token si basa su proprietà uniche di come i modelli sono architettati: “Il divario non è causato dalla difficoltà del compito o dal fatto che alcuni modelli tentano problemi più difficili. Invece, lo stesso compito è semplicemente più costoso per alcuni modelli rispetto advert altri, riflettendo una tendenza comportamentale del modello piuttosto che una proprietà del problema. ”

Ma la questione non è quella dei modelli migliori o peggiori perché anche lo stesso modello può richiedere il doppio dei token per risolvere lo stesso problema da una “esecuzione” dell’attività a quella successiva.

“Le esecuzioni più costose raddoppiano il token e il costo monetario delle esecuzioni meno costose”, hanno osservato, “suggerendo che il consumo di token da parte dell’agente presenta ampie variazioni anche quando si lavora esattamente sullo stesso problema”.

u-michigan-2026-max-e-min-token-utilizzato-da-vari-modelli

Università del Michigan

La lezione è che più token non portano necessariamente a risultati migliori. “Il semplice ridimensionamento dell’utilizzo dei token potrebbe non portare a prestazioni di esecuzione più elevate”, hanno scritto.

In effetti, gli autori hanno scoperto che generalmente il lavoro può peggiorare quanto più tempo un agente dedica a un compito. “L’accuratezza spesso raggiunge il picco ai costi intermedi e si satura a costi più elevati”, hanno osservato. “Il comportamento degli agenti diventa sempre più instabile nei compiti più complessi.”

Molti modelli sembrano cercare e cercare di risolvere un problema anche quando è infruttuoso. “I modelli non dispongono di un meccanismo affidabile per riconoscere quando un compito è irrisolvibile e si interrompe presto”, hanno scritto Bai e il suo group. “Invece, continuano a esplorare, riprovare e rileggere il contesto, accumulando costi senza alcun progresso.”

Impossibile prevedere i costi

Questi fattori rendono “la previsione dell’utilizzo dei token e la determinazione dei prezzi degli agenti un compito fondamentalmente impegnativo”, hanno scritto Bai e il suo group. E, in effetti, il bot stesso non è in grado di prevedere quando gli viene chiesto di “introspettare”, hanno scoperto.

Bai e il group hanno chiesto a ciascun agente AI di prevedere i propri token utilizzando il immediate: “Ho caricato un repository di codice Python nel repository di esempio della listing. Sei un agente TOKEN ESTIMATION. Stima il costo del token per correggere la seguente descrizione del problema”, quindi la descrizione del problema, advert esempio la correzione di un bug per una funzione di confronto nel codice che non riesce.

Ciò che hanno scoperto è che gli agenti possono approssimare in piccola misura il numero di token che verranno utilizzati, ma le loro previsioni tendono advert essere troppo basse

“I modelli sottovalutano costantemente i token di cui hanno bisogno”, hanno scritto Bai e il suo group. “La distorsione è particolarmente pronunciata per i token di enter, le cui previsioni rimangono compresse anche se i valori reali crescono fino a raggiungere i milioni.”

Guarda quegli enter

Quest’ultimo punto, relativo ai token di enter, ha un rilievo speciale nel rapporto. Bai e il suo group hanno scoperto che i token di enter, come ciò che viene digitato dall’utente umano e ciò che viene recuperato tramite strumenti come le ricerche nei database, dominano il costo dei token. Gli altri due tipi di token, l’output generato e i token memorizzati nella cache conservati nelle fasi precedenti, sono molto meno impegnativi.

“Sorprendentemente, i token di enter, e non i token di output, dominano il costo complessivo della codifica advert agenti.”

Il motivo è che “i flussi di lavoro degli agenti accumulano informazioni da numerous fonti e lo stesso contesto viene inserito ripetutamente nei modelli”. Di conseguenza, esiste un “rapporto enter/output notevolmente più elevato” per l’intelligenza artificiale dell’agente rispetto alle sessioni di intelligenza artificiale a immediate singolo o multi-prompt con un bot.

E, andando ancora più a fondo, il fattore token di enter più costoso è quando l’agente recupera le informazioni precedenti dalla memoria. “Lo troviamo le letture della cache dominano sia il quantity dei token grezzi che il costo in dollari“, hanno scritto Bai e il group. “In ogni fase, i token di enter letti dalla cache rappresentano la categoria più grande con un ampio margine (Figura 8a), riflettendo il riutilizzo cumulativo del contesto precedente.”

Ci sarà la resa dei conti

Nel complesso, i risultati dello studio confermano la mia esperienza aneddotica con agenti di codifica come Replit e Lovable, dove il contatore period costantemente in funzione per utilizzare i modelli AI sottostanti e non avevo thought di quale sarebbe stato il costo totale.

Cosa si può fare? Gli autori non hanno molti suggerimenti. Una proposta è che, anche se gli agenti non possono prevedere il numero di token, possono fare alcune ipotesi advert alto livello, una stima “a grana grossa” del costo dei token. “Ciò suggerisce che la stima basata sugli agenti può potenzialmente fornire un supporto precoce avvisi di bilancio prima di lanciare tirature costose, migliorando la trasparenza dei costi senza promettere troppo la precisione a livello di token,” hanno scritto.

Mi vengono in mente alcune altre linee guida sensate.

Poiché i token di enter rappresentano l’elemento di costo maggiore, si dovrebbe riflettere attentamente su ciò che può essere controllato all’enter. La dimensione dei immediate è un fattore che aumenta i token di enter. La finestra di contesto utilizzata con un agente, più ampia o più stretta, influisce sul conteggio dei token in enter. E il numero di strumenti richiamati dall’agente, come i database, metterà in gioco molti più token di enter.

Anche: Un principiante può davvero programmare un’app? Ho provato Cursor e Replit per scoprirlo

Tuttavia, c’è solo un limite che puoi fare come utente. Qualcosa in più dovrà essere fatto a livello di settore. I problemi delineati sono chiaramente quelli di un settore giovane, in cui i fornitori dovranno essere spinti dagli utenti a cambiare le pratiche.

La mancanza di trasparenza su quanto potrebbe costare un agente per svolgere un compito è troppo vaga per le aziende che devono essere in grado di pianificare gli investimenti nel software program. L’onere viene trasferito all’utente per eseguire più e più volte attività agentiche a titolo sperimentale al nice di ottenere qualcosa di simile a un costo medio da utilizzare come stima a fini di pianificazione.

E la mancanza di garanzie di successo – anche dopo che l’agente ha consumato i token – è il problema più evidente. Ciò significa che le imprese potrebbero sprecare ingenti quantità di denaro semplicemente eseguendo token.

Gli utenti collettivamente dovranno respingere fornitori come OpenAI, Google e Anthropic e richiedere la trasparenza dei prezzi e una qualche forma di garanzia che un compito sarà completato, altrimenti l’intero esercizio dell’intelligenza artificiale degli agenti potrebbe essere dominato da superamenti dei costi e implementazioni fallite.

Probabilmente i primi utilizzatori stanno già riscontrando problemi così profondi. Potrebbero accontentarsi di pagare un costo così elevato per essere tra i primi a ottenere un vantaggio come agente. Non è una situazione, tuttavia, che può portare a un uso stabile e costante dell’intelligenza artificiale degli agenti.



fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here