Home Tecnologia Mamba 3 open supply arriva a superare l’architettura Transformer con una modellazione...

Mamba 3 open supply arriva a superare l’architettura Transformer con una modellazione del linguaggio migliorata di quasi il 4% e una latenza ridotta

5
0

Per la maggior parte delle persone, l’period dell’intelligenza artificiale generativa è iniziata con il lancio del ChatGPT di OpenAI alla fine del 2022ma la tecnologia di base – l’architettura di rete neurale “Transformer” che consente ai modelli di intelligenza artificiale di valutare l’importanza delle various parole in una frase (o dei pixel in un’immagine) in modo diverso e di addestrarsi sulle informazioni in parallelo – risale al fondamentale documento di Google del 2017 “L’attenzione è tutto ciò di cui hai bisogno.”

Tuttavia, sebbene i Transformers offrano una qualità di modello senza precedenti e abbiano sostenuto la maggior parte dei principali modelli di intelligenza artificiale generativa utilizzati oggi, sono golosi dal punto di vista computazionale. Sono gravati dal calcolo quadratico e dalle richieste di memoria lineare che rendono l’inferenza su larga scala un’impresa costosa, spesso proibitiva. Da qui il desiderio di alcuni ricercatori di migliorarli sviluppando una nuova architettura, Mamba, nel 2023, che è stata inclusa nei modelli ibridi Mamba-Transformer come Nemotron 3 Tremendous di Nvidia.

Ora, gli stessi ricercatori dietro l’architettura originale del Mamba, inclusi i chief Albert Gu della Carnegie Mellon e Tri Dao di Princeton, hanno ha rilasciato l’ultima versione della loro nuova architettura, Mamba-3come modello linguistico con una licenza open supply Apache 2.0 permissiva, rendendolo immediatamente disponibile agli sviluppatori, comprese le aziende per scopi commerciali. Ha anche un documento tecnico stato pubblicato su arXiv.org.

Questo modello segnala un cambiamento di paradigma dall’efficienza della formazione a una progettazione “inferenza-prima”. Come ha notato Gu nell’annuncio ufficiale, mentre Mamba-2 si concentrava sull’eliminazione dei colli di bottiglia del pre-training, Mamba-3 mira a risolvere il problema della “GPU fredda”: la realtà che durante la decodifica, l'{hardware} moderno spesso rimane inattivo, in attesa del movimento della memoria piuttosto che dell’esecuzione di calcoli.

Perplessità (no, non dell’azienda) e sulla ritrovata efficienza di Mamba 3

Mamba, incluso Mamba 3, è un tipo di State House Mannequin (SSM).

Si tratta effettivamente di una “macchina riassuntiva” advert alta velocità per l’intelligenza artificiale. Mentre molti modelli popolari (come quelli dietro ChatGPT) devono riesaminare ogni singola parola che hanno già visto per capire cosa verrà dopo – cosa che diventa più lenta e più costosa quanto più a lungo dura la conversazione – un SSM mantiene uno stato interno compatto e in continua evoluzione. Questo stato è essenzialmente una “istantanea mentale” digitale dell’intera storia dei dati.

Man mano che arrivano nuove informazioni, il modello aggiorna semplicemente questa istantanea invece di rileggere tutto dall’inizio. Ciò consente all’intelligenza artificiale di elaborare enormi quantità di informazioni, come intere biblioteche di libri o lunghi filamenti di DNA, con una velocità incredibile e requisiti di memoria molto inferiori.

Per apprezzare il salto rappresentato da Mamba-3, bisogna prima comprendere la perplessità, la metrica principale utilizzata nella ricerca per misurare la qualità del modello.

Nel contesto della modellazione del linguaggio, la perplessità è una misura di quanto un modello sia “sorpreso” dai nuovi dati.

Pensa a un modello come a un giocatore d’azzardo professionista. Se un modello ha un’elevata perplessità, non è sicuro su dove piazzare le sue scommesse; vede molte possibili parole successive come ugualmente probabili.

Un punteggio di perplessità più basso indica che il modello è più “certo”: ha una migliore comprensione dei modelli sottostanti del linguaggio umano. Per i costruttori di intelligenza artificiale, la perplessità funge da proxy advert alta fedeltà per l’intelligenza.

La svolta riportata nella ricerca Mamba-3 è che raggiunge perplessità paragonabili al suo predecessore, Mamba-2, utilizzando solo la metà delle dimensioni dello stato. Ciò significa che un modello può essere altrettanto intelligente e allo stesso tempo due volte più efficiente da gestire.

Una nuova filosofia

Diagramma dell’architettura di Mamba 3. Credito: Tri Dao

La filosofia che guida Mamba-3 rappresenta un cambiamento fondamentale nel modo in cui concepiamo l'”intelligenza” dell’intelligenza artificiale rispetto alla velocità dell'{hardware} su cui gira. Mentre la generazione precedente, Mamba-2, è stata progettata per essere addestrata a velocità da report, Mamba-3 è un’architettura “inference-first” – inferenza che si riferisce al modo in cui i modelli di intelligenza artificiale vengono serviti agli utenti finali, attraverso siti Net come ChatGPT o Google Gemini o tramite interfacce di programmazione delle applicazioni (API).

L’obiettivo principale di Mamba 3 è massimizzare ogni secondo in cui il chip del laptop (GPU) è attivo, assicurando che il modello pensi il più intensamente possibile senza far aspettare l’utente per una risposta.

Nel mondo dei modelli linguistici, ogni punto di precisione è conquistato a fatica. Su una scala di 1,5 miliardi di parametri, la variante “MIMO” più avanzata di Mamba-3 ha raggiunto una precisione media del 57,6% rispetto ai benchmark, rappresentando un salto di 2,2 punti percentuali rispetto allo commonplace del settore Transformer.

Grafico di riferimento della precisione di Mamba 3

Tabella comparativa dei benchmark di Mamba 3. Crediti: Aakash Lahoti, Kevin Y. Li, Berlin Chen, Caitlin Wang, Aviv Bick, J. Zico Kolter, Tri Dao, Albert Gu

Sebbene un salto di due punti possa sembrare modesto, in realtà rappresenta un aumento relativo di quasi il 4% nella capacità di modellazione del linguaggio rispetto alla base di Transformer. Ancora più impressionante, come accennato in precedenza, Mamba-3 può eguagliare la qualità predittiva del suo predecessore utilizzando solo la metà della “dimensione dello stato” interno, fornendo effettivamente lo stesso livello di intelligenza con un ritardo di memoria significativamente inferiore.

Per anni, different efficienti ai Transformer hanno sofferto di un “hole logico”: spesso fallivano in semplici compiti di ragionamento, come tenere traccia di schemi o risolvere calcoli aritmetici di base, perché la loro matematica interna period troppo rigida. Mamba-3 risolve questo problema introducendo stati con valori complessi.

Questo aggiornamento matematico agisce come una bussola interna, consentendo al modello di rappresentare la logica “rotazionale”. Utilizzando questo approccio “rotativo”, Mamba-3 può risolvere quasi perfettamente enigmi logici e compiti di monitoraggio dello stato che i suoi predecessori potevano solo immaginare, portando finalmente la potenza di ragionamento dei modelli lineari alla pari con i sistemi più avanzati.

L’ultimo pezzo del puzzle è il modo in cui Mamba-3 interagisce con l'{hardware} fisico. La maggior parte dei modelli di intelligenza artificiale oggi sono “legati alla memoria”, il che significa che il chip del laptop trascorre la maggior parte del tempo inattivo, in attesa che i dati si spostino dalla memoria al processore.

Mamba-3 introduce una formulazione Multi-Enter, Multi-Output (MIMO) che cambia radicalmente questa dinamica. Eseguendo fino a quattro volte più operazioni matematiche in parallelo durante ogni fase, Mamba-3 utilizza quella potenza precedentemente “inattiva”. Ciò consente al modello di “pensare” molto di più per ogni parola che genera senza aumentare il tempo effettivo che un utente trascorre in attesa di una risposta. Maggiori informazioni su questi di seguito.

Tre nuovi salti tecnologici

Il fascino dei modelli lineari è sempre stato rappresentato dai loro costanti requisiti di memoria e dal ridimensionamento del calcolo lineare.

Tuttavia, come sottolineano gli autori di Mamba 3, “non c’è pranzo free of charge”. Fissando la dimensione dello stato per garantire l’efficienza, questi modelli sono costretti a comprimere tutto il contesto storico in un’unica rappresentazione, l’esatto opposto della cache KV in continua crescita di un Transformer. Mamba-3 tira tre leve specifiche per far sì che quello stato fisso faccia più lavoro.

1. Discretizzazione esponenziale-trapezoidale

I modelli dello spazio degli stati sono fondamentalmente sistemi a tempo continuo che devono essere “discretizzati” per gestire le sequenze discrete di dati digitali.

Le iterazioni precedenti si basavano sulla discretizzazione “esponenziale-Eulero”, un’euristica che forniva solo un’approssimazione del primo ordine del sistema.

Mamba-3 introduce a regola trapezoidale generalizzatafornendo un’approssimazione accurata del secondo ordine. Questo non è solo un perfezionamento matematico; induce una “convoluzione implicita” all’interno della ricorrenza centrale.

Combinando questo con termini espliciti di bias B e C, i ricercatori sono stati in grado di rimuovere la breve convoluzione causale che è stata per anni un punto fermo delle architetture ricorrenti.

2. Gli MVU di valore complesso e il “trucco RoPE”

Una delle critiche più persistenti ai modelli lineari è stata la loro incapacità di risolvere semplici compiti di tracciamento dello stato, come determinare la parità di una sequenza di bit.

Questo fallimento deriva dalla limitazione della matrice di transizione ai numeri reali, che impedisce al modello di rappresentare le dinamiche “rotazionali”. Mamba-3 supera questo problema considerando l’SSM sottostante come a valori complessi.

Usando quello che il workforce chiama “Trucco RoPE,” dimostrano che un aggiornamento dello stato con valori complessi è matematicamente equivalente a un incorporamento rotativo dipendente dai dati (RoPE) applicato alle proiezioni di enter e output.

Ciò consente a Mamba-3 di risolvere compiti di ragionamento sintetico impossibili per Mamba-2.

3. MIMO: aumento dell’intensità aritmetica

Il salto più significativo nell’efficienza dell’inferenza deriva dalla transizione da Single-Enter, Single-Output (SISO) a Multi-ingresso, multi-uscita (MIMO) SSM.

In un SSM commonplace, l’aggiornamento dello stato è un’operazione del prodotto esterno fortemente legata alla memoria. Passando a un aggiornamento dello stato basato sulla moltiplicazione di matrici, Mamba-3 aumenta l'”intensità aritmetica” del modello, ovvero il rapporto tra FLOP e traffico di memoria.

Ciò consente al modello di eseguire più calcoli durante la fase di decodifica legata alla memoria. Essenzialmente, Mamba-3 utilizza i core di calcolo “inattivi” della GPU per aumentare la potenza del modello gratuitamente, mantenendo la stessa velocità di decodifica dei suoi predecessori più semplici.

Cosa significa Mamba 3 per le aziende e gli sviluppatori di intelligenza artificiale

Per le aziende, Mamba-3 rappresenta un cambiamento strategico nel costo totale di proprietà (TCO) per le implementazioni di intelligenza artificiale.

  • Costo vs. prestazioni: In base alle prestazioni dei parametri abbinati, Mamba-3 (MIMO) corrisponde alla complessità di Mamba-2 utilizzando metà della dimensione dello stato. Per l’implementazione aziendale, ciò raddoppia effettivamente il throughput di inferenza per lo stesso ingombro {hardware}.

  • Flussi di lavoro agenti: Man mano che le organizzazioni si spostano verso flussi di lavoro paralleli e basati su agenti (come la codifica automatizzata o gli agenti del servizio clienti in tempo reale), la richiesta di generazione a bassa latenza aumenta in modo esponenziale. Mamba-3 è progettato specificamente per evitare che l'{hardware} della GPU rimanga “freddo” durante queste attività.

  • Il vantaggio ibrido: I ricercatori prevedono che il futuro dell’intelligenza artificiale aziendale sia tutto qui modelli ibridi. Interlacciando Mamba-3 con l’auto-attenzione, le organizzazioni possono combinare l’efficiente “memoria” degli SSM con la precisa memorizzazione del “database” dei Transformers.

Disponibilità, licenza e utilizzo

Mamba-3 non è semplicemente un documento di ricerca teorica; si tratta di una versione open supply completamente realizzata, disponibile per l’uso immediato con il codice modello pubblicato su Github.

Il progetto è rilasciato sotto la licenza Apache-2.0. Si tratta di una licenza permissiva e favorevole alle imprese che consente l’utilizzo gratuito, la modifica e la distribuzione commerciale senza richiedere la divulgazione del codice sorgente proprietario.

Questa versione è utile per gli sviluppatori che creano applicazioni a lungo contesto, agenti di ragionamento in tempo reale o coloro che cercano di ridurre i costi della GPU in ambienti di produzione advert alto quantity.

Alla guida della rivoluzione dei modelli spaziali statali (SSM).

Il comunicato è stato accolto con entusiasmo sui social media, in particolare per quanto riguarda la natura “guidata dagli studenti” del progetto. Gu, la cui biografia su X/Twitter lo descrive come “alla guida della rivoluzione SSM”, ha dato pieno merito ai chief degli studenti, incluso Aakash Lahoti E Kevin Y.Li

Discussione di .Gu ha evidenziato la soddisfazione del team per il design:

“Siamo abbastanza soddisfatti del design del modello finale! I tre cambiamenti metodologici principali sono ispirati da (imo) alcuni metodi e matematica eleganti.”

Mentre i flussi di lavoro degli agenti spingono la domanda di inferenza “alle stelle”, l’arrivo di Mamba-3 suggerisce che il futuro dell’intelligenza artificiale potrebbe non riguardare solo l’avere il modello più grande, ma quello più efficiente.

Mamba-3 ha riallineato con successo l’SSM con le realtà dell'{hardware} moderno, dimostrando che anche nell’period del Transformer, i principi della teoria del controllo classica hanno ancora un ruolo vitale da svolgere.

fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here