Consentire agli LLM di acquisire nuove conoscenze dopo la formazione rimane un grosso ostacolo per l’intelligenza artificiale aziendale: le soluzioni attuali sono troppo costose, troppo lente o vincolate dai limiti della finestra di contesto.
MeMoun framework di ricercatori di più università, codifica la nuova conoscenza in un modello di memoria più piccolo dedicato che opera separatamente dal LLM principale.
L’architettura modulare funziona sia con modelli open supply che closed supply ed evita la complessità delle pipeline RAG e della riqualificazione completa del modello.
Gli esperimenti dimostrano che MeMo gestisce question complesse in modo affidabile anche quando le pipeline di recupero sono rumorose. Evita il catastrofico oblio associato alla messa a punto diretta e fornisce un percorso economicamente vantaggioso per aggiornamenti continui delle conoscenze.
La sfida dell’aggiornamento della memoria LLM
I modelli linguistici di grandi dimensioni vengono congelati dopo l’addestramento e la loro conoscenza interna rimane statica finché non vengono sottoposti a successivi aggiornamenti computazionalmente massicci.
Attualmente, gli sviluppatori si affidano a tre approcci principali per integrare la conoscenza esterna in un LLM, ciascuno con distinti inconvenienti:
Metodi non parametricicome la generazione aumentata di recupero (RAG) e apprendimento in contestorecupera i documenti rilevanti da un database esterno e inseriscili direttamente nel immediate del modello. Sebbene popolari, questi metodi sono limitati dalle dimensioni della finestra di contesto.
Come ha detto a VentureBeat Armando Photo voltaic-Lezama, coautore dell’articolo, “I database vettoriali hanno un compito fondamentalmente difficile: codificare l’intera semantica di un pezzo di testo in un singolo vettore, e quindi abbinare quel vettore a una question, anche quando la rilevanza del pezzo… può essere evidente solo nel contesto di altri pezzi.”
I ricercatori notano che la somiglianza semantica degli incorporamenti spesso non corrisponde a ciò che effettivamente richiede la question di un utente. L’elaborazione di migliaia di token recuperati crea inoltre un notevole sovraccarico computazionale e una latenza di inferenza. Il problema più grave è che i sistemi RAG sono altamente sensibili al rumore. Passaggi irrilevanti o scarsamente recuperati spesso degradano la risposta finale del modello.
Metodi parametricicome la preformazione continua o la messa a punto supervisionata, tentano di internalizzare nuove conoscenze direttamente nei pesi del LLM. L’aggiornamento di LLM moderni e di grandi dimensioni è proibitivamente costoso e in genere impossibile per i modelli proprietari e closed supply nascosti dietro le API. Anche la messa a punto è incline a causare dimenticanza catastrofica. Forzare il modello advert adattarsi ai nuovi dati aziendali spesso ne erode le capacità di ragionamento e le barriere di sicurezza precedentemente acquisite.
Metodi di memoria latentecome la compressione del contesto, offrono una by way of di mezzo. Comprimono la conoscenza in “delicate token” compatti o rappresentazioni che vengono aggiunte al contesto del modello durante l’inferenza. Il difetto fatale qui è “l’accoppiamento delle rappresentazioni”. La memoria compressa è strettamente legata al modello architetturale che l’ha prodotta; non è possibile trasferire una memoria latente addestrata su un modello open supply a uno closed supply.
Come funziona MeMo
Il framework MeMo (Reminiscence as a Mannequin) introduce un’architettura modulare caratterizzata da due componenti separati. Il modello MEMORY è un piccolo modello linguistico addestrato specificamente per codificare nuova conoscenza nei suoi parametri. Il modello EXECUTIVE è un LLM congelato e standardizzato che funziona come motore di ragionamento. Quando un utente pone una domanda, il modello EXECUTIVE tratta il modello MEMORY come un oracolo esterno, emettendo sottoquery mirate per raccogliere fatti e sintetizzarli in una risposta finale.
Il principio progettuale fondamentale che guida MeMo è il concetto di “riflessioni”. Le riflessioni sono coppie mirate di domanda-risposta (QA) progettate per catturare ogni possibile angolo di un corpus di conoscenze. Invece di forzare l’intelligenza artificiale a elaborare un corpus di documenti massiccio e non strutturato durante l’addestramento, MeMo utilizza un modello GENERATORE per distillare il testo grezzo in migliaia di coppie QA mirate. Il modello MEMORY viene quindi messo a punto su questo set di dati per rispondere alle domande utilizzando solo la sua conoscenza parametrica senza la necessità di leggere il contesto recuperato.
Al momento dell’inferenza, l’interazione tra i due modelli segue un protocollo strutturato in tre fasi:
1. Il modello EXECUTIVE decompone la question complessa di un utente in una serie di sotto-domande atomiche. Il modello MEMORY risponde a ciascuno in modo indipendente per stabilire i fatti di base.
2. Utilizzando questi indizi iniziali, il modello EXECUTIVE invia question di follow-up per restringere il campo delle entità candidate finché non converge con sicurezza su un obiettivo specifico.
3. Infine, il modello EXECUTIVE interroga il modello MEMORY per supportare i fatti su quell’entità goal e sintetizza i frammenti recuperati in una risposta coerente.
Questa architettura unisce i punti di forza dei tre paradigmi di memoria AI esistenti aggirandone le insidie. Sfrutta modelli di frontiera standardizzati mantenendo l’archiviazione della memoria separata dal ragionamento, garantendo la compatibilità sia con i modelli API aperti che chiusi. Interiorizza la conoscenza direttamente nei parametri, ma isola gli aggiornamenti in un modello MEMORY più piccolo e dedicato per proteggere il motore di ragionamento. Infine, crea un artefatto di memoria interrogabile che non è legato a nessun modello specifico e può essere utilizzato con various famiglie LLM.
Gestire aggiornamenti continui delle conoscenze
La gestione della memoria di un’intelligenza artificiale richiede aggiornamenti continui man mano che le politiche aziendali cambiano e vengono pubblicati nuovi report. Normalmente, l’aggiornamento dei parametri di un modello richiede la riqualificazione da zero sia sui dati vecchi che su quelli nuovi combinati. Man mano che la base di conoscenza cresce, questo costo cumulativo di riqualificazione diventa ingestibile.
Per gestire in modo efficiente gli aggiornamenti continui, MeMo si affida a una tecnica chiamata “unione di modelli”. Invece di una massiccia fase di riqualificazione congiunta, MeMo addestra un nuovo modello MEMORIA indipendente esclusivamente sui documenti appena aggiunti. Il sistema deriva un “vettore di attività” che rappresenta le modifiche dei parametri apprese dai nuovi dati. Questi aggiornamenti vengono quindi uniti matematicamente nei pesi del modello MEMORY originale.
Questo approccio riduce le ore di elaborazione necessarie per mantenere aggiornato il sistema evitando le interferenze che causano catastrofiche dimenticanze.
Questa efficienza comporta un compromesso: l’unione dei modelli comporta un calo di precisione compreso tra l’11% e il 19% rispetto a una riqualificazione completa, a seconda del modello di ragionamento utilizzato.
MeMo in azione
Per misurare l’efficacia nel mondo reale, il crew di ricerca ha valutato MeMo rispetto a diversi parametri di riferimento del settore che richiedono ragionamenti complessi e multi-hop su più documenti.
I ricercatori hanno utilizzato Qwen2.5-32B-Instruct come modello GENERATOR per distillare il testo grezzo in riflessioni. Per il modello MEMORY primario, hanno utilizzato Qwen2.5-14B-Instruct. Hanno inoltre convalidato l’approccio su modelli di parametri 1-2B più piccoli su various architetture, inclusa Gemma3-1B.
Per il modello di ragionamento EXECUTIVE, hanno testato sia il Qwen2.5-32B a peso aperto che il Gemini 3 Flash proprietario di Google.
Hanno confrontato MeMo con un limite superiore di “recupero perfetto” (dove i documenti esatti e corretti vengono forniti manualmente) e diversi sistemi di recupero avanzati, tra cui la tradizionale ricerca BM25, il recupero di vettori densi e il RAG all’avanguardia basato su grafici (HippoRAG2). Hanno anche testato “Cartucce”, un metodo recente che carica un file cache KV addestrata sul modello durante l’inferenza.
MeMo ha dominato nel ragionamento su documenti lunghi. Secondo i ricercatori, sul benchmark NarrativeQA, MeMo ha raggiunto una precisione del 53,58% abbinato a Gemini 3 Flash. HippoRAG2 ha raggiunto il limite massimo al 23,21%.
I sistemi aziendali hanno spesso bisogno di sintetizzare risposte complesse, come attraversare quadri normativi sovrapposti scritti in modo indipendente da diversi organismi o consolidare informazioni attraverso un’enorme base di codice e documentazione esterna. I sistemi RAG tradizionali vacillano qui perché raggiungono i limiti della finestra di contesto e non riescono a connettere concetti che si estendono su centinaia di pagine. MeMo ha successo perché tali connessioni vengono mappate e interiorizzate all’interno del modello MEMORY durante l’addestramento. È “come avere il proprio Malcolm Gladwell in grado di collegare la storia dei Beatles con la storia di Invoice Gates per discutere sulla natura della competenza”, ha detto Photo voltaic-Lezama.
Gli esperimenti hanno rivelato un altro grande vantaggio: l’aggiornamento del motore di ragionamento non richiede alcuna riqualificazione. Il semplice passaggio del modello EXECUTIVE dal Qwen open supply al Gemini 3 Flash proprietario ha aumentato le prestazioni di MeMo del 26,73% su NarrativeQA e dell’11,90% sul benchmark MuSiQue. Per i professionisti, ciò significa che è possibile addestrare un modello MEMORY in modo sicuro sui propri dati privati e collegarlo immediatamente alle più recenti API commerciali, aggiornando continuamente l’intelligenza del sistema senza incorrere in nuovi costi di formazione.
Il crew di ricerca ha descritto l’integrazione come se non richiedesse alcuna configurazione aggiuntiva: “L’LLM di base (o Govt) che i crew stanno già utilizzando in RAG può essere configurato per interrogare direttamente il modello di memoria. Queste question vengono eseguite in linguaggio naturale, in modo simile all’invio di una richiesta di messaggio a un’API, senza alcuna configurazione aggiuntiva richiesta.”
MeMo gestisce eccezionalmente bene anche i dati rumorosi. Quando i ricercatori hanno deliberatamente inondato il set di dati con documenti irrilevanti (fino al doppio della quantità di informazioni utili), le prestazioni di HippoRAG2 sono diminuite dell’11,55%. La efficiency di MeMo è rimasta relativamente stabile, perdendo meno del 2%. Le basi di conoscenza aziendali sono in genere disordinate, piene di documenti duplicati e coverage out of date. I sistemi RAG normal lottano con questo rumore, inserendo paragrafi errati nel immediate e causando allucinazioni. Poiché il modello EXECUTIVE di MeMo interagisce con un oracolo sintetizzato anziché con blocchi di documenti grezzi, rimane estremamente robusto contro i dati aziendali disorganizzati.
Limitazioni e compromessi
Per i crew di ingegneri che desiderano implementare MeMo, ci sono various limitazioni chiave da considerare.
A differenza dei tradizionali sistemi RAG che indicizzano rapidamente i documenti grezzi in un database vettoriale, MeMo richiede un costo di formazione anticipato per ogni nuovo corpus. La pipeline di generazione dei dati utilizzata per sintetizzare le riflessioni di coaching è computazionalmente costosa. Advert esempio, il crew ha notato che “la generazione del set di dati QA di riflessione completo ha richiesto circa 240 ore di GPU su NVIDIA H200”, mentre l’addestramento di un modello MEMORY con parametri da 14B “ha richiesto circa 180 ore di GPU H200”. Come ha affermato Photo voltaic-Lezama, “La riduzione dei costi di formazione è uno dei problemi più significativi della ricerca aperta per rendere questa tecnica un cavallo di battaglia”.
Poiché il modello MEMORIA è una rete neurale di dimensione fissa, la sua capacità di interiorizzare la conoscenza è limitata dalla sua capacità rappresentativa. Sebbene i ricercatori non abbiano raggiunto un limite rigido durante il loro benchmarking, ipotizzano che “corpora sufficientemente grandi o densi di informazioni supereranno ciò che un modello MEMORY a dimensione fissa può comprimere e rappresentare correttamente”.
Infine, poiché MeMo sintetizza le risposte dalla memoria parametrica anziché recuperare frammenti di testo esatti, oscura la provenienza delle informazioni. Ciò rende difficile attribuire affermazioni specifiche ai documenti originali, il che pone un problema critico di conformità per le applicazioni aziendali che richiedono audit path rigorosi.
Decidere tra MeMo e RAG tradizionale si riduce a un’euristica di “ricerca vs. sintesi”, insieme alla volatilità dei dati. I ricercatori avvertono che “il RAG tradizionale sarebbe preferito quando le risposte risiedono in un singolo documento o quando c’è una fonte ben definita… MeMo sarebbe preferito quando l’attività passa dalla ricerca alla sintesi di una risposta da informazioni sparse su più blocchi”. Se il tuo corpus di conoscenze cambia rapidamente (advert esempio, feed giornalieri) e hai bisogno di citazioni esatte delle fonti, RAG rimane l’opzione migliore a causa del costo di formazione iniziale di MeMo. Se il tuo corpus è costituito da conoscenze di dominio generalizzate che si evolvono lentamente rispetto al suo quantity, MeMo offre un ragionamento di gran lunga superiore. I crew possono anche adottare un’architettura di routing ibrida in produzione: inviare question di “ricerca” a un database vettoriale normal e question di “sintesi” al modello MEMORY.
“Guardando più lontano, mi aspetterei che i modelli di memoria diventino una componente architetturale normal insieme al recupero”, ha detto a VentureBeat Daniela Rus, coautrice dell’articolo e direttrice del MIT Laptop Science and Synthetic Intelligence Lab (CSAIL), “nello stesso modo in cui il caching e l’indicizzazione sono componenti normal di qualsiasi sistema di dati serio oggi.”











