Il test-time scaling (TTS) è emerso come un metodo collaudato per migliorare le prestazioni di modelli linguistici di grandi dimensioni nelle applicazioni del mondo reale fornendo loro cicli di calcolo aggiuntivi al momento dell’inferenza. Tuttavia, le strategie TTS sono state storicamente realizzate artigianalmente, facendo molto affidamento sull’intuizione umana per dettare le regole del ragionamento del modello.
Per affrontare questo collo di bottiglia, i ricercatori di Meta, Google e numerous università hanno introdotto TTS automaticoun framework che scopre automaticamente le strategie TTS ottimali. Questo approccio automatizzato consente alle organizzazioni aziendali di ottimizzare dinamicamente l’allocazione del calcolo senza ottimizzare manualmente l’euristica.
Implementando le strategie ottimali scoperte da AutoTTS, le organizzazioni possono ridurre direttamente l’utilizzo dei token e i costi operativi legati all’implementazione di modelli di ragionamento avanzati negli ambienti di produzione. Nelle show sperimentali, AutoTTS ha gestito i price range di inferenza in modo efficiente, riducendo con successo il consumo di token fino al 69,5% senza sacrificare la precisione.
Il collo di bottiglia manuale nel ridimensionamento del tempo di check
Il ridimensionamento del tempo di check migliora gli LLM garantendo loro un calcolo aggiuntivo durante la generazione di risposte. Questo calcolo aggiuntivo consente al modello di generare più percorsi di ragionamento o di valutare i passaggi intermedi prima di arrivare a una risposta finale.
La sfida principale per la progettazione di strategie TTS è determinare come allocare in modo ottimale questo calcolo aggiuntivo. Storicamente, i ricercatori hanno progettato queste strategie manualmente, basandosi su congetture per costruire rigide euristiche. Gli ingegneri devono ipotizzare le regole e le soglie entro le quali un modello dovrebbe ramificarsi in nuovi percorsi di ragionamento, sondare più a fondo un percorso esistente, sfoltire un ramo poco promettente o smettere del tutto di ragionare.
Poiché questo processo di ottimizzazione manuale è vincolato dall’intuizione umana, un gran numero di possibili approcci rimangono inesplorati. Ciò spesso si traduce in compromessi non ottimali tra accuratezza del modello e costi di calcolo.
Gli attuali algoritmi TTS possono essere mappati su uno spazio di controllo larghezza-profondità: “larghezza” è il numero di rami del ragionamento esplorati, “profondità” è quanto si sviluppa ciascuno. L’autocoerenza (SC) campiona un numero fisso di traiettorie e vota la risposta a maggioranza. La coerenza adattiva (ASC) consente di risparmiare calcolo arrestandosi anticipatamente una volta raggiunta una soglia di confidenza. La sonda parallela adotta un approccio più granulare, eliminando i rami poco promettenti e approfondendo il resto. Tutti e tre sono realizzati a mano e questo è il vincolo che AutoTTS è progettato per superare.
Sebbene alcuni metodi più avanzati utilizzino strutture più ricche come la ricerca degli alberi o i verificatori esterni, condividono tutti una caratteristica chiave: sono meticolosamente realizzati a mano. Questo approccio manuale limita l’ambito dell’individuazione della strategia, lasciando intatta un’enorme porzione del potenziale spazio di allocazione delle risorse.
Automatizzazione della scoperta della strategia con AutoTTS
AutoTTS riformula il modo in cui viene ottimizzato il ridimensionamento del tempo di check. Invece di trattare la progettazione della strategia come un compito umano, AutoTTS la affronta come un problema di ricerca algoritmica all’interno di un ambiente controllato.
Questo quadro ridefinisce i ruoli sia dell’ingegnere umano che del modello di intelligenza artificiale. Piuttosto che creare manualmente regole specifiche su quando un LLM dovrebbe ramificarsi, sfoltire o interrompere il ragionamento, il ruolo dell’ingegnere si sposta verso la costruzione dell’ambiente di scoperta. L’essere umano definisce i confini, compreso lo spazio di controllo degli stati e delle azioni, gli obiettivi di ottimizzazione che bilanciano accuratezza e costo e i meccanismi di suggestions specifici.
Un esploratore LLM, come Claude Code, progetta la strategia. Questo esploratore agisce come un agente autonomo che propone iterativamente i “controllori” TTS. Questi controllori sono politiche o algoritmi definiti dal codice che determinano il modo in cui un modello di intelligenza artificiale alloca il proprio price range computazionale durante l’inferenza. L’esploratore testa e perfeziona questi controller in base al suggestions finché non scopre una politica ottimale di allocazione delle risorse.
Per rendere questa ricerca automatizzata accessibile dal punto di vista computazionale, AutoTTS si basa su un “ambiente di riproduzione offline”. Se l’esploratore LLM dovesse invocare un modello di ragionamento di base per generare nuovi token ogni volta che testa una nuova strategia, i costi di calcolo sarebbero astronomici. Si basa invece su migliaia di traiettorie di ragionamento preraccolte dal LLM di base. Queste traiettorie includono “segnali sonda”, che sono risposte intermedie che aiutano il controllore a valutare i progressi attraverso diversi rami del ragionamento.
Durante il ciclo di rilevamento, l’agente Explorer propone un controller e lo valuta rispetto a questi dati offline. L’agente osserva le tracce di esecuzione del controller proposto che mostrano il calcolo allocato nel tempo. Analizzando queste tracce, l’agente può diagnosticare modalità di errore specifiche, advert esempio notare se un controller ha eliminato i rami in modo troppo aggressivo in uno state of affairs specifico. Ciò offre un vantaggio rispetto alla semplice visualizzazione del risultato finale. L’agente quindi riscrive iterativamente il proprio codice per migliorare il compromesso accuratezza-costo.
All’interno del controller progettato dall’intelligenza artificiale
Poiché l’agente esploratore non è vincolato dall’intuizione umana, può scoprire regole complesse e altamente coordinate che un ingegnere umano probabilmente non codificherebbe mai manualmente. Un controller ottimale scoperto da AutoTTS, denominato Confidence Momentum Controller, sfrutta diversi meccanismi non ovvi per gestire il calcolo:
-
Arresto basato sulla tendenza: Le strategie elaborate manualmente spesso impongono al modello di smettere di ragionare una volta raggiunta una certa soglia di confidenza istantanea. L’agente AutoTTS ha scoperto che la fiducia istantanea può essere fuorviante a causa di picchi temporanei. Invece, il controller traccia una media cellular esponenziale (EMA) di fiducia e si ferma solo se il livello di fiducia generale è elevato e il pattern non è in declino attivo.
-
Controllo accoppiato larghezza-profondità: Gli algoritmi progettati manualmente di solito trattano l ‘”ampliamento” di nuovi percorsi di ragionamento e l'”approfondimento” dei percorsi attuali come decisioni separate. AutoTTS ha scoperto un ciclo di suggestions chiuso in cui le due azioni sono collegate. Se la fiducia dei rami attuali si blocca o regredisce, il controller attiva automaticamente la generazione di nuovi rami.
-
Allocazione della profondità consapevole dell’allineamento: Invece di assegnare a tutti i rami del ragionamento attivo un uguale price range di calcolo, il controllore identifica dinamicamente quali rami concordano con la risposta principale corrente. Quindi assegna a quei rami “raffiche” di priorità di calcoli aggiuntivi. Ciò concentra il price range computazionale sul consenso emergente per verificare rapidamente se è corretto.
Risparmio sui costi e aumento della precisione nei benchmark reali
Per verificare se un’intelligenza artificiale potrebbe scoprire autonomamente una migliore strategia di ridimensionamento del tempo di check, i ricercatori hanno creato un rigoroso quadro di valutazione. Gli esperimenti principali sono stati condotti su modelli Qwen3 con parametri compresi tra 0,6B e 8B. I ricercatori hanno anche testato la capacità del sistema di generalizzare su una versione 8B distillata del modello DeepSeek-R1.
All’agente AI Explorer è stato inizialmente assegnato il compito di scoprire una strategia ottimale utilizzando il benchmark di ragionamento matematico AIME24. Questa strategia scoperta è stata poi testata su due benchmark matematici, AIME25 e HMMT25, nonché sul benchmark di ragionamento generale a livello di laurea GPQA-Diamond.
Il controller scoperto da AutoTTS è stato confrontato con quattro algoritmi di ridimensionamento del tempo di check progettati manualmente nel settore. Queste linee di base includevano l’autocoerenza con 64 percorsi di ragionamento parallelo (SC@64), la coerenza adattiva (ASC), la sonda parallela e l’autoconsistenza advert arresto anticipato (ESC). L’ESC è un approccio ibrido che genera traiettorie in parallelo e si ferma presto quando una risposta sembra stabile.
Se impostato su una modalità bilanciata e attenta ai costi, il controller scoperto da AutoTTS ha ridotto il consumo totale di token di circa il 69,5% rispetto a SC@64. Allo stesso tempo, il controller ha mantenuto la stessa precisione media sui quattro modelli Qwen. Quando il price range per l’inferenza è stato aumentato, AutoTTS ha spinto la precisione di picco oltre tutte le linee di base realizzate manualmente in cinque casi di check su otto.
Questa efficienza si è tradotta in altri compiti. Sul benchmark GPQA-Diamond, la variante bilanciata di AutoTTS ha ridotto il costo dei token di inferenza da 510.000 token a soli 151.000 token, migliorando leggermente la precisione complessiva. Sul modello DeepSeek, AutoTTS ha raggiunto la massima precisione complessiva sul benchmark HMMT25, riducendo la spesa in token quasi della metà.
Per i professionisti che creano applicazioni IA aziendali, questi esperimenti evidenziano due principali vantaggi operativi:
-
Aumento delle prestazioni di punta: AutoTTS non si limita a risparmiare denaro sul consumo di token. Aumenta attivamente le prestazioni massime ottenibili del modello base. Il controller progettato dall’intelligenza artificiale è straordinariamente efficace nel rilevare al volo rami di ragionamento rumorosi o improduttivi e reindirizzare continuamente il proprio price range di calcolo verso i rami che generano i segnali di ragionamento più utili.
-
Sviluppo personalizzato conveniente: Poiché il framework si basa su un ambiente di riproduzione offline, l’intero processo di rilevamento è costato solo $ 39,90 e ha richiesto 160 minuti. Per i group aziendali, ciò significa che strategie di ragionamento ottimizzate su misura per modelli proprietari e attività interne sono ora a portata di mano, senza un price range di ricerca dedicato.
Entrambi i Quadro AutoTTS e il Confidence Momentum Controller sono disponibili su GitHub; la CMC può essere utilizzata come sostituto immediato di altri controller TTS.













