Home Tecnologia Un parametro aggiuntivo dello 0,12% fornisce agli agenti AI la memoria di...

Un parametro aggiuntivo dello 0,12% fornisce agli agenti AI la memoria di lavoro che RAG non può fornire

17
0

Gli agenti dell’intelligenza artificiale dimenticano. Ogni volta che un assistente di codifica perde traccia di un thread di debug o un agente di analisi dei dati reintegra lo stesso contesto che aveva già elaborato, il workforce paga in termini di latenza, costi dei token e flussi di lavoro fragili. La soluzione a cui la maggior parte dei workforce ricorre, ovvero l’espansione della finestra di contesto o l’aggiunta di più RAG, è sempre più costosa e continua a non funzionare in modo affidabile.

Per risolvere questo problema, hanno proposto i ricercatori di Thoughts Lab e various università delta-memuna tecnica efficiente che comprime le informazioni storiche del modello in una matrice aggiornata dinamicamente senza modificare il modello stesso. Il modulo risultante aggiunge solo lo 0,12% dei parametri del modello spine — rispetto al 76,40% di un’alternativa chief — superandolo nei benchmark con molta memoria. Delta-mem consente ai modelli di accumulare e riutilizzare continuamente dati storici, riducendo la dipendenza da enormi finestre di contesto o complessi moduli di recupero esterni per la continuità comportamentale.

La sfida della memoria lunga

La soluzione convenzionale è semplicemente scaricare tutte le informazioni nella finestra di contesto del modello.

Ma come ha detto a VentureBeat Jingdi Lei, coautore dell’articolo, i sistemi attuali trattano la memoria semplicemente come un problema di gestione del contesto. “O continuiamo advert espandere la finestra di contesto, oppure recuperiamo più documenti tramite RAG”, ha spiegato Lei. “Questi approcci sono utili e rimarranno importanti, ma diventano sempre più costosi e fragili quando gli agenti devono operare su interazioni a lungo termine e in più fasi, e in realtà non lo fanno [work] come la memoria umana poiché sono più come cercare documenti.

Negli ambienti aziendali, il collo di bottiglia non è solo se il modello può accedere alla cronologia, ma se può riutilizzare story cronologia in modo efficiente, continuo e con bassa latenza. I meccanismi di attenzione commonplace comportano un costo computazionale quadratico all’aumentare della lunghezza della sequenza. Inoltre, espandere la finestra di contesto non garantisce che il modello richiami effettivamente le informazioni in modo efficace. I modelli spesso soffrono di degrado o deterioramento del contesto poiché vengono sopraffatti da più informazioni (e spesso contrastanti), anche se in teoria supportano un milione di token.

I ricercatori sostengono la necessità di meccanismi di memoria avanzati in grado di rappresentare le informazioni storiche in modo compatto e mantenerle dinamicamente attraverso le interazioni. Le soluzioni esistenti comportano pesanti compromessi e generalmente rientrano in tre paradigmi:

  • Memoria testuale: memorizza la cronologia come testo inserito nel contesto, vincolato dai limiti della finestra e soggetto a perdita di informazioni durante la compressione.

  • Canale esterno (RAG): codifica e recupera da moduli esterni: aggiunge latenza, complessità di integrazione e potenziale disallineamento con la dorsale.

  • parametrico: codifica la memoria in pesi del modello tramite adattatori: statico dopo l’addestramento, non può adattarsi alle nuove informazioni durante le interazioni dal vivo.

All’interno delta-mem

Per ottenere una memoria compatta e aggiornata dinamicamente, delta-mem comprime le interazioni passate di un agente in uno “stato on-line di memoria associativa” (OSAM). Questo stato viene mantenuto come una matrice di dimensione fissa che preserva le informazioni storiche mentre il modello linguistico sottostante rimane congelato.

Per i flussi di lavoro aziendali, ciò si traduce direttamente nella risoluzione dei colli di bottiglia operativi. Lei ha osservato che un assistente di codifica persistente, advert esempio, “potrebbe aver bisogno di ricordare le convenzioni del progetto, i recenti passaggi di debug, le preferenze dell’utente o le decisioni intermedie attraverso un flusso di lavoro”. Allo stesso modo, un agente di analisi dei dati potrebbe “avere bisogno di mantenere lo stato dell’attività, le ipotesi e le osservazioni precedenti mentre esegue l’iterazione su più chiamate di strumenti”.

Architettura Delta-mem (fonte: arXiv)

Invece di recuperare e reinserire ripetutamente tutta la cronologia rilevante per queste attività, la matrice delta-mem fornisce un modo a basso costo per portare avanti stati di interazione utili all’interno del calcolo futuro del modello.

Durante la generazione, il sistema non recupera segmenti di testo non elaborato da aggiungere al immediate. Invece, l’attuale stato nascosto del spine LLM viene proiettato nella matrice per recuperare la vecchia memoria. Questa operazione estrae segnali di memoria associativa rilevanti per il contesto da delta-mem. Questi segnali vengono poi trasformati in correzioni numeriche che vengono applicate ai calcoli del modello. Ciò guida il ragionamento del modello al momento dell’inferenza senza alterarne i parametri interni.

Dopo ogni interazione, delta-mem aggiorna lo stato on-line utilizzando l’apprendimento delle regole delta. Quando arrivano nuove informazioni, lo stato precedente fa una previsione sui valori di attenzione risultanti. Quindi confronta questa previsione con il valore effettivo e corregge la matrice di memoria in base alla discrepanza.

Questo meccanismo di aggiornamento si basa su una “regola delta controllata”. Fondamentalmente, il modulo di memoria ha various manopole che controllano la quantità di memoria precedente mantenuta e la quantità di nuova memoria applicata. Questa correzione degli errori con dimenticanza controllata consente alla matrice di evolversi nel tempo, mantenendo associazioni storiche stabili senza essere deragliata dal rumore a breve termine.

I ricercatori hanno esplorato tre strategie per determinare quando e come la matrice si aggiorna:

  • Scrittura dello stato token cattura cambiamenti a grana nice ma è vulnerabile al rumore a breve termine.

  • Scrittura in stato di sequenza calcola la media dei token all’interno di un segmento di messaggio, uniformando gli aggiornamenti al costo di alcuni dettagli localizzati.

  • Scrittura multistato decompone la memoria in sottostati per diversi tipi di informazioni come fatti o avanzamento delle attività.

Delta-mem in azione

I ricercatori hanno valutato delta-mem su tre dorsali LLM: Qwen3-8B, Qwen3-4B-Instruct e SmolLM3-3B. Hanno configurato la struttura con una matrice compatta 8×8. Il sistema è stato testato su benchmark di capacità generali, tra cui HotpotQA, GPQA-Diamond e IFEval. È stato valutato anche su attività advert alto consumo di memoria come LoCoMo, che testa la memoria conversazionale a lungo termine, e Reminiscence Agent Bench, che valuta la conservazione, il recupero, l’oblio selettivo e l’apprendimento in fase di check su interazioni estese.

Il quadro è stato confrontato con modelli rappresentativi dei tre paradigmi di memoria esistenti: linee di base della memoria testuale (advert esempio, BM25 RAG, LLMLingua-2 e MemoryBank), sistemi parametrici (Context2LoRA e MemGen) e l’approccio del canale esterno MLP Reminiscence.

risultati delta-mem

Delta-mem migliora le prestazioni sui principali benchmark di settore (fonte: arXiv)

Secondo i ricercatori, nel complesso, delta-mem ha sovraperformato i valori di riferimento. Sul spine Qwen3-4B-Instruct, la variante di scrittura token-state ha ottenuto un punteggio medio del 51,66%, superando facilmente il spine Vanilla congelato al 46,79% e la linea di base più forte, Context2LoRA, al 44,90%. Sul Reminiscence Agent Bench, ricco di memoria, il punteggio medio è passato dal 29,54% al 38,85%. Le prestazioni nella sottoattività specifica di apprendimento del tempo di prova sono quasi raddoppiate da 26.14 a 50.50.

Tuttavia, l’aspetto più convincente riguarda l’efficienza operativa del sistema. I ricercatori hanno testato la struttura in un contesto senza contesto in cui il testo storico period completamente rimosso dal contesto. Anche senza la riproduzione esplicita del testo, delta-mem ha recuperato con successo show rilevanti per il contesto in attività multi-hop. I ricercatori sostengono che il modello ricorda le interazioni passate senza la necessità di ingerire enormi quantità di token immediati.

Il framework aggiunge inoltre solo 4,87 milioni di parametri addestrabili, che rappresentano solo lo 0,12% del spine Qwen3-4B-Instruct. In confronto, la base di riferimento della memoria MLP richiedeva 3 miliardi di parametri, scalando fino al 76,40% delle dimensioni del spine e fornendo risultati inferiori. Quando la lunghezza dei immediate è aumentata fino a 32.000 token durante i check di inferenza, il framework ha mantenuto quasi lo stesso identico ingombro di memoria della GPU di un modello commonplace non modificato. Evita il pesante sovraccarico di memoria che colpisce altri sistemi di memoria avanzati come MemGen e MLP Reminiscence.

Numerous strategie di aggiornamento si sono rivelate utili a seconda della capacità del modello sottostante. La strategia di scrittura a stati sequenziali è stata la più efficace per dorsali più potenti come Qwen3-8B. Questi modelli più capaci utilizzano la scrittura a livello di segmento per appianare gli aggiornamenti e mitigare il rumore a livello di token. Al contrario, la strategia di scrittura multistato ha portato a enormi balzi prestazionali per dorsali più piccole come SmolLM3-3B. Per questi modelli a capacità inferiore, la separazione della memoria in più stati si è rivelata fondamentale per ridurre al minimo l’interferenza delle informazioni.

Implementazione delta-mem nello stack aziendale

I ricercatori hanno rilasciato il codice per delta-mem su GitHub e il pesi per gli adattatori addestrati sul Volto che abbraccia. Per i workforce di ingegneri dell’intelligenza artificiale che desiderano integrare questo framework nel loro stack di inferenza esistente, il processo richiede risorse di elaborazione minime.

“In pratica, un workforce di ingegneri inizierebbe da una dorsale esistente ottimizzata per le istruzioni, collegherebbe i moduli adattatore Delta-Mem a livelli di attenzione selezionati, addestrerebbe solo i parametri dell’adattatore su dati multigiro o di contesto lungo rilevanti per il dominio… e quindi eseguire l’inferenza con lo stato della memoria aggiornato on-line durante l’interazione”, ha affermato Lei. Fondamentalmente, i workforce non hanno bisogno di un enorme corpus di pre-formazione. I dati di addestramento devono solo riflettere il comportamento della memoria goal, come dialoghi multi-turno, tracce di agenti o flussi di lavoro di dominio in cui le informazioni precedenti devono influenzare le decisioni successive.

Anche se la compressione della cronologia delle interazioni in una matrice matematica di dimensione fissa crea un’enorme efficienza, comporta dei compromessi. Delta-mem non è un sostituto senza perdite per i log di testo espliciti o il recupero di documenti. Poiché various informazioni competono all’interno dello stesso stato limitato, esiste il rischio di fusione della memoria.

“Delta-Mem è utile quando il sistema necessita di uno stato comportamentale veloce, on-line e continuamente aggiornato”, ha affermato Lei. “RAG è migliore quando il sistema necessita di un esatto richiamo fattuale, citazione, conformità, verificabilità o accesso a un’ampia base di conoscenza esterna.” Ricordare lo stile di lavoro di un utente o un percorso di ragionamento in più fasi è perfetto per delta-mem, mentre il recupero di un contratto legale o di una linea guida medica dovrebbe rimanere in un database vettoriale.

Ciò significa che l’architettura aziendale più realistica per il futuro è un approccio ibrido. Delta-mem agisce come una memoria di lavoro interna leggera, riducendo la necessità di recuperare o riprodurre tutto in ogni momento, mentre RAG funge da livello di memoria esplicito advert alta capacità.

“Guardando al futuro, non credo che i database vettoriali diventeranno obsoleti”, ha affermato Lei. “Invece, mi aspetto che gli stack di intelligenza artificiale aziendale diventino più stratificati. Probabilmente vedremo memoria di lavoro a breve termine all’interno del modello, memoria esplicita a lungo termine nei sistemi di recupero e livelli di coverage o audit che decidono cosa dovrebbe essere archiviato, recuperato, dimenticato o esposto all’utente.”

fonte