Home Tecnologia In che modo xMemory riduce i costi dei token e l’ingrossamento del...

In che modo xMemory riduce i costi dei token e l’ingrossamento del contesto negli agenti AI

7
0

Le pipeline RAG customary si interrompono quando le aziende tentano di utilizzarle per distribuzioni di agenti LLM multisessione a lungo termine. Questa è una limitazione fondamentale poiché la domanda di assistenti IA persistenti cresce.

xMemoriauna nuova tecnica sviluppata dai ricercatori del King’s School di Londra e dell’Alan Turing Institute, risolve questo problema organizzando le conversazioni in una gerarchia ricercabile di temi semantici.

Gli esperimenti dimostrano che xMemory migliora la qualità delle risposte e il ragionamento a lungo raggio tra vari LLM riducendo al contempo i costi di inferenza. Secondo i ricercatori, l’utilizzo dei token diminuisce da oltre 9.000 a circa 4.700 token per question rispetto ai sistemi esistenti su alcune attività.

Per le applicazioni aziendali del mondo reale come gli assistenti IA personalizzati e gli strumenti di supporto decisionale multisessione, ciò significa che le organizzazioni possono implementare agenti più affidabili e consapevoli del contesto in grado di mantenere una memoria coerente a lungo termine senza aumentare le spese di calcolo.

RAG non è stato creato per questo

In molte applicazioni LLM aziendali, un’aspettativa fondamentale è che questi sistemi mantengano la coerenza e la personalizzazione durante interazioni lunghe e multisessione. Per supportare questo ragionamento a lungo termine, un approccio comune consiste nell’utilizzare il RAG customary: archiviare dialoghi ed eventi passati, recuperare un numero fisso di corrispondenze principali in base all’incorporamento della somiglianza e concatenarli in una finestra di contesto per generare risposte.

Tuttavia, il RAG tradizionale è progettato per database di grandi dimensioni in cui i documenti recuperati sono molto diversi. La sfida principale è filtrare informazioni del tutto irrilevanti. La memoria di un agente AI, al contrario, è un flusso limitato e continuo di conversazioni, il che significa che i blocchi di dati archiviati sono altamente correlati e spesso contengono quasi duplicati.

Per capire perché il semplice aumento della finestra di contesto non funziona, considera il modo in cui RAG customary gestisce un concetto come gli agrumi.

Immagina che un utente abbia avuto molte conversazioni dicendo cose come “Adoro le arance”, “Mi piacciono i mandarini” e, separatamente, altre conversazioni su ciò che conta come agrume. Il RAG tradizionale può trattarli tutti come semanticamente vicini e continuare a recuperare frammenti simili “simili advert agrumi”.

“Se il recupero collassa su qualunque cluster sia più denso nello spazio di incorporamento, l’agente potrebbe ottenere molti passaggi molto simili sulle preferenze, pur perdendo i fatti di categoria necessari per rispondere alla domanda effettiva”, ha detto a VentureBeat Lin Gui, coautore dell’articolo.

Una soluzione comune per i workforce di ingegneri consiste nell’applicare la potatura o la compressione post-recupero per filtrare il rumore. Questi metodi presuppongono che i passaggi recuperati siano molto diversi e che i modelli di rumore irrilevanti possano essere nettamente separati dai fatti utili.

Questo approccio non è all’altezza della memoria dell’agente conversazionale perché il dialogo umano è “temporalmente intrappolato”, scrivono i ricercatori. La memoria conversazionale si basa fortemente su co-riferimenti, ellissi e strette dipendenze temporali. A causa di questa interconnessione, gli strumenti di potatura tradizionali spesso cancellano accidentalmente parti importanti di una conversazione, lasciando l’intelligenza artificiale senza il contesto vitale necessario per ragionare in modo accurato.

RAG ingenuo vs memoria strutturata (fonte: arXiv)

Perché la soluzione a cui la maggior parte dei workforce ricorre peggiora le cose

Per superare queste limitazioni, i ricercatori propongono un cambiamento nel modo in cui viene costruita e ricercata la memoria degli agenti, che descrivono come “disaccoppiamento dall’aggregazione”.

Invece di confrontare direttamente le question degli utenti con i registri di chat grezzi e sovrapposti, il sistema organizza la conversazione in una struttura gerarchica. Innanzitutto disaccoppia il flusso della conversazione in componenti semantici distinti e autonomi. Questi fatti individuali vengono poi aggregati in una gerarchia strutturale di temi di livello superiore.

Quando l’intelligenza artificiale ha bisogno di richiamare informazioni, effettua una ricerca dall’alto verso il basso attraverso la gerarchia, passando dai temi alla semantica e infine agli snippet grezzi. Questo approccio evita la ridondanza. Se due frammenti di dialogo hanno incorporamenti simili, è improbabile che il sistema li recuperi insieme se sono stati assegnati a componenti semantici diversi.

Affinché questa architettura abbia successo, deve bilanciare due proprietà strutturali vitali. Le componenti semantiche devono essere sufficientemente differenziate per evitare che l’IA recuperi dati ridondanti. Allo stesso tempo, le aggregazioni di livello superiore devono rimanere semanticamente fedeli al contesto originale per garantire che il modello possa fornire risposte correct.

Una gerarchia a quattro livelli che riduce la finestra di contesto

I ricercatori hanno sviluppato xMemory, un framework che combina la gestione strutturata della memoria con una strategia di ricerca adattiva dall’alto verso il basso.

xMemory organizza continuamente il flusso grezzo di conversazione in una gerarchia strutturata a quattro livelli. Alla base ci sono i messaggi grezzi, che vengono prima riassunti in blocchi contigui chiamati “episodi”. Da questi episodi, il sistema distilla fatti riutilizzabili come semantica che districano la conoscenza fondamentale a lungo termine dai registri di chat ripetitivi. Infine, la semantica correlata è raggruppata in temi di alto livello per renderli facilmente ricercabili.

xmemory

Architettura xMemory (fonte: arXiv)

xMemory utilizza una speciale funzione obiettivo per ottimizzare costantemente il modo in cui raggruppa questi elementi. Ciò impedisce alle categorie di diventare troppo gonfie, rallentando la ricerca, o troppo frammentate, indebolendo la capacità del modello di aggregare show e rispondere alle domande.

Quando riceve un immediate, xMemory esegue un recupero dall’alto verso il basso attraverso questa gerarchia. Si inizia a livello tematico e semantico, selezionando un insieme diversificato e compatto di fatti rilevanti. Ciò è fondamentale per le applicazioni del mondo reale in cui le question degli utenti spesso richiedono la raccolta di descrizioni su più argomenti o il concatenamento di fatti collegati tra loro per un ragionamento complesso e multi-hop.

Una volta ottenuto questo scheletro di fatti di alto livello, il sistema controlla la ridondanza attraverso ciò che i ricercatori chiamano “Uncertainty Gating”. Esegue il drill-down per ottenere show più exact e grezze a livello di episodio o messaggio solo se quel dettaglio specifico riduce in modo misurabile l’incertezza del modello.

“La somiglianza semantica è un segnale di generazione di candidati; l’incertezza è un segnale di decisione”, ha detto Gui. “La somiglianza ti cube cosa c’è nelle vicinanze. L’incertezza ti cube cosa vale effettivamente la pena pagare con il funds tempestivo. ” Smette di espandersi quando rileva che aggiungere ulteriori dettagli non aiuta più a rispondere alla domanda.

Quali sono le various?

Esistente sistemi di memoria degli agenti generalmente rientrano in due categorie strutturali: design piatti e design strutturati. Entrambi soffrono di limitazioni fondamentali.

Approcci piatti come MemGPT registrare dialoghi grezzi o tracce minimamente elaborate. Ciò cattura la conversazione ma accumula un’enorme ridondanza e aumenta i costi di recupero man mano che la cronologia si allunga.

Sistemi strutturati come A-MEM e MemoryOS cercano di risolvere questo problema organizzando i ricordi in gerarchie o grafici. Tuttavia, si affidano ancora al testo grezzo o minimamente elaborato come unità di recupero primaria, spesso inserendo contesti estesi e voluminosi. Questi sistemi dipendono fortemente anche dai document di memoria generati da LLM che presentano rigidi vincoli di schema. Se l’IA devia leggermente nella sua formattazione, può causare guasti alla memoria.

xMemory affronta queste limitazioni attraverso il suo schema ottimizzato di costruzione della memoria, il recupero gerarchico e la ristrutturazione dinamica della sua memoria man mano che cresce.

Quando utilizzare xMemory

Per gli architetti aziendali, sapere quando adottare questa architettura rispetto allo customary RAG è fondamentale. Secondo Gui, “xMemory è particolarmente avvincente laddove il sistema deve rimanere coerente per settimane o mesi di interazione”.

Gli agenti dell’assistenza clienti, advert esempio, traggono grandi vantaggi da questo approccio perché devono ricordare le preferenze stabili dell’utente, gli incidenti passati e il contesto specifico dell’account senza richiamare ripetutamente ticket di supporto quasi duplicati. Il teaching personalizzato è un altro caso d’uso ideale, poiché richiede all’intelligenza artificiale di separare i tratti duraturi dell’utente dai dettagli episodici e quotidiani.

Al contrario, se un’azienda sta costruendo un’intelligenza artificiale per chattare con un repository di file, come manuali di coverage o documentazione tecnica, “uno stack RAG più semplice è ancora la scelta ingegneristica migliore”, ha affermato Gui. In questi scenari statici e incentrati sui documenti, il corpus è abbastanza diversificato da consentire il recupero customary del vicino più vicino che funziona perfettamente senza il sovraccarico operativo della memoria gerarchica.

Ne vale la pena

xMemory elimina il collo di bottiglia della latenza associato alla generazione della risposta finale di LLM. Nei sistemi RAG customary, LLM è costretto a leggere ed elaborare una finestra di contesto gonfia e piena di dialoghi ridondanti. Poiché il recupero preciso e top-down di xMemory crea una finestra di contesto molto più piccola e altamente mirata, il lettore LLM impiega molto meno tempo di elaborazione per analizzare il immediate e generare l’output finale.

Nei loro esperimenti su attività a lungo contesto, sia i modelli aperti che quelli chiusi dotati di xMemory hanno sovraperformato le altre linee di base, utilizzando un numero considerevolmente inferiore di token e aumentando la precisione dell’attività.

xPrestazioni della memoria

xMemory aumenta le prestazioni su various attività riducendo i costi dei token (fonte: arXiv)

Tuttavia, questo recupero efficiente comporta un costo iniziale. Per un’implementazione aziendale, il problema con xMemory è che scambia un’enorme tassa di lettura con una tassa di scrittura anticipata. Sebbene in definitiva renda la risposta alle domande degli utenti più rapida ed economica, il mantenimento della sua sofisticata architettura richiede una sostanziale elaborazione in background.

A differenza delle pipeline RAG customary, che scaricano a buon mercato incorporamenti di testo non elaborato in un database, xMemory deve eseguire più chiamate LLM ausiliarie per rilevare i confini della conversazione, riassumere episodi, estrarre fatti semantici a lungo termine e sintetizzare temi generali.

Inoltre, il processo di ristrutturazione di xMemory aggiunge ulteriori requisiti computazionali poiché l’intelligenza artificiale deve curare, collegare e aggiornare il proprio sistema di archiviazione interno. Per gestire questa complessità operativa in produzione, i workforce possono eseguire questa pesante ristrutturazione in modo asincrono o in micro-batch anziché bloccare in modo sincrono la question dell’utente.

Per gli sviluppatori desiderosi di prototipare, il codice xMemory è pubblico disponibile su GitHub sotto una licenza MIT, rendendolo utilizzabile per usi commerciali. Se stai cercando di implementare questo in strumenti di orchestrazione esistenti come LangChain, Gui consiglia di concentrarsi prima sull’innovazione di base: “La cosa più importante da costruire per prima non è un immediate di recupero più elaborato. È il livello di decomposizione della memoria. Se ottieni solo una cosa giusta per prima, rendila la logica di indicizzazione e scomposizione. “

Il recupero non è l’ultimo collo di bottiglia

Sebbene xMemory offra una potente soluzione alle attuali limitazioni delle finestre di contesto, apre la strada alla prossima generazione di sfide nei flussi di lavoro degli agenti. Poiché gli agenti IA collaborano su orizzonti più lunghi, trovare semplicemente le informazioni giuste non sarà sufficiente.

“Il recupero è un collo di bottiglia, ma una volta che il recupero migliora, questi sistemi si imbattono rapidamente nella gestione del ciclo di vita e nella governance della memoria come colli di bottiglia successivi”, ha affermato Gui. Esplorare il modo in cui i dati dovrebbero decadere, gestire la privateness degli utenti e mantenere la memoria condivisa tra più agenti è esattamente “dove mi aspetto che avvenga gran parte della prossima ondata di lavoro”, ha affermato.

fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here