Home Tecnologia Nemotron-Cascade 2 di Nvidia vince medaglie d’oro in matematica e codifica con...

Nemotron-Cascade 2 di Nvidia vince medaglie d’oro in matematica e codifica con parametri attivi 3B e la sua ricetta post-allenamento è ora open supply

11
0

L’ipotesi prevalente nello sviluppo dell’IA è stata semplice: modelli più grandi addestrati su più dati producono risultati migliori. L’ultima versione di Nvidia sfida direttamente story ipotesi dimensionale e la ricetta di formazione alla base potrebbe essere più importante per i workforce di intelligenza artificiale aziendale rispetto al modello stesso. La pipeline post-addestramento Cascade RL del modello a peso aperto, dettagliato nella relazione tecnica di Nvidiaoffre un modello riproducibile per i workforce aziendali che creano sistemi di ragionamento specifici per dominio senza formazione da zero.

Nemotron-Cascade 2 è un modello di miscela di esperti (MoE) 30B a peso aperto che attiva solo parametri 3B al momento dell’inferenza. Nonostante le sue dimensioni compatte, ha ottenuto prestazioni da medaglia d’oro in tre delle competizioni più impegnative al mondo: le Olimpiadi internazionali della matematica (IMO) del 2025, le Olimpiadi internazionali dell’informatica (IOI) e le finali mondiali dell’ICPC. È il secondo modello aperto a raggiungere questo livello, dopo DeepSeek-V3.2-Speciale, un modello con 20 volte più parametri.

Perché il post-formazione sta diventando il vero vantaggio competitivo

Pre-addestrare da zero un modello linguistico di grandi dimensioni è enormemente costoso: nell’ordine di decine o forse centinaia di milioni di dollari per i modelli di frontiera. Nemotron-Cascade 2 parte dallo stesso modello base dell’attuale Nemotron-3-Nano di Nvidia, ma supera quel modello su quasi tutti i benchmark e in molti casi supera il Nemotron-3-Tremendous di Nvidia, un modello con quattro volte i parametri attivi, secondo il rapporto tecnico di Nvidia. La differenza sta tutta nella ricetta post-allenamento.

Questa è l’intuizione strategica per i workforce aziendali: non è necessariamente necessario un modello base più grande o più costoso. Potresti aver bisogno di una pipeline di formazione migliore oltre a quella che già possiedi. Cascade RL e MOPD rappresentano un approccio specifico e riproducibile a questo problema.

Cascade RL spiegato: addestramento sequenziale del dominio che evita l’oblio catastrofico

L’apprendimento per rinforzo (RL) è diventato la tecnica dominante per insegnare a ragionare agli LLM. La sfida è che l’addestramento di un modello su più domini contemporaneamente (matematica, codice, seguire istruzioni, attività di agente) spesso causa interferenze. Migliorare le prestazioni in un dominio le peggiora in un altro. Questo è il problema dell’oblio catastrofico, una sfida da tempo documentata nell’apprendimento automatico multitasking.

Cascata RL risolve questo problema addestrando le fasi RL in sequenza, un dominio alla volta, anziché mescolare tutto insieme. Nemotron-Cascade 2 segue un ordine specifico: prima RL che segue le istruzioni, poi RL multi-dominio (che copre domande STEM, chiamata di strumenti e output strutturato), quindi distillazione su coverage, quindi RLHF per l’allineamento delle preferenze umane, quindi RL a contesto lungo, quindi RL di codice e infine RL di ingegneria del software program.

Tre proprietà rendono pratico questo approccio, secondo il rapporto tecnico di Nvidia. Innanzitutto, le fasi RL specifiche del dominio si rivelano resistenti all’oblio catastrofico: l’addestramento sul codice raramente degrada le prestazioni matematiche e in alcuni casi le migliora effettivamente. In secondo luogo, poiché ogni fase si allena su un singolo dominio, gli iperparametri e il curriculum formativo possono essere adattati alle caratteristiche specifiche di quel dominio, consentendo un migliore apprendimento complessivo. In terzo luogo, poiché le risposte all’interno di un singolo dominio tendono advert essere simili in termini di durata e costi di verifica, l’utilizzo del calcolo è sostanzialmente più efficiente rispetto alla formazione in domini misti.

L’ordine in sé non è fisso; dipende dal comportamento del modello. Il workforce di Nemotron-Cascade 2 ha scoperto che l’RL che segue le istruzioni dovrebbe venire prima (perché può entrare in conflitto con l’allineamento delle preferenze umane, che può essere recuperato in seguito), mentre l’RL del codice e l’RL dell’ingegneria del software program funzionano meglio come fasi finali, secondo il rapporto.

Per i workforce aziendali, l’implicazione è semplice: se stai applicando RL per migliorare un modello su più funzionalità, formarli in sequenza con un ordine accurato può darti risultati migliori rispetto a provare advert addestrare tutto in una volta.

MOPD: riutilizzare i propri checkpoint formativi come insegnanti

Anche con un attento ordinamento sequenziale, una certa deriva delle prestazioni è inevitabile poiché il modello attraversa molte fasi RL. La soluzione di Nvidia è Distillazione su coverage multidominio (MOPD) — una tecnica inserita parzialmente nella pipeline Cascade RL per riequilibrare le capacità.

L’approccio funziona come segue: man mano che il modello passa attraverso numerous fasi RL, alcuni checkpoint intermedi costituiranno la versione con le migliori prestazioni per domini specifici. Il checkpoint matematico potrebbe essere più forte dopo SFT; il checkpoint che segue le istruzioni potrebbe essere più forte dopo IF-RL. MOPD seleziona il miglior punto di controllo intermedio per ciascun dominio e lo utilizza come “insegnante” per distillare la conoscenza nel modello studentesco.

Fondamentalmente, questi insegnanti non sono modelli esterni. Provengono dallo stesso ciclo di formazione e condividono lo stesso tokenizzatore e la stessa architettura. Ciò elimina i problemi di disadattamento della distribuzione che sorgono quando si distilla da una famiglia di modelli completamente diversa.

Secondo il rapporto tecnico di Nvidia, MOPD funziona a livello di token piuttosto che a livello di sequenza, il che lo rende sostanzialmente più efficiente in termini di campionamento rispetto a RL con ricompense basate sui risultati (GRPO ecc.). Il workforce di Nvidia riferisce che nel benchmark matematico AIME 2025, MOPD ha recuperato prestazioni a livello di insegnante entro 30 passaggi di ottimizzazione, mentre il GRPO normal (Group Relative Coverage Optimization) ha richiesto più passaggi per ottenere un punteggio inferiore. Sul benchmark ArenaHard per l’allineamento delle preferenze umane, il MOPD ha raggiunto 85,5 su suggerimenti difficili in 52 passaggi contro 80,7 di RLHF in 160 passaggi.

Il quadro di riferimento: dominante nel ragionamento, onesto sui compromessi

I risultati sui benchmark advert alta intensità di ragionamento sono sorprendenti. SU LiveCodeBench v6un benchmark di codifica con problemi derivanti da piattaforme di programmazione concorrenti, Nemotron-Cascade 2 ottiene un punteggio di 87,2, superando Qwen3.5-35B-A3B (74,6), Qwen3.5-397B-A17B (83,6) e persino Kimi-K2.5-1T (85,0). SU HMMT febbraio 2025un rigoroso punto di riferimento per le competizioni di matematica, ottiene un punteggio di 94,6, testa a testa con modelli molte volte più grandi. SU ArenaHard v2 per la qualità dell’allineamento raggiunge 83,5, ben davanti ai concorrenti della sua categoria. Con il ragionamento integrato nello strumento abilitato, le prestazioni di AIME 2025 salgono a 98,6. Tutti i punteggi dei benchmark sono auto-riportati da Nvidia e non sono stati verificati in modo indipendente.

La relazione tecnica è schietta anche riguardo ai punti deboli. Il modello ha prestazioni inferiori a Qwen3.5-35B-A3B su benchmark advert alta intensità di conoscenza come MMLU-Professional (79,8 contro 85,3) e GPQA-Diamond (76,1 contro 84,2), nonché su diversi benchmark di agenti come BFCL v4 e τ²-Bench. Gli autori sottolineano esplicitamente che nel lavoro futuro saranno necessari una pre-formazione più intensiva in termini di conoscenza e un RL agente.

Questa onestà è importante per i praticanti. Il modello è ottimizzato per il ragionamento approfondito e il rispetto delle istruzioni, non per il recupero di conoscenze generali o complesse interazioni con agenti multi-turno. I workforce dovrebbero valutare in base al loro caso d’uso specifico, non dare per scontato una superiorità generale.

Cosa possono trarre i workforce di intelligenza artificiale aziendale da questa ricetta

Diversi modelli di progettazione di questo lavoro sono direttamente applicabili agli sforzi post-formazione aziendali. L’ordinamento sequenziale dei domini in Cascade RL significa che i workforce possono aggiungere nuove funzionalità senza ricostruire l’intera pipeline, una proprietà fondamentale per le organizzazioni che hanno bisogno di iterare rapidamente. L’approccio del MOPD di utilizzare punti di controllo intermedi come insegnanti specifici del dominio elimina la necessità di costosi modelli di insegnanti esterni; i workforce possono distillare dalle proprie istantanee con le migliori prestazioni.

Anche l’impostazione della formazione è degna di nota: Cascade RL utilizza GRPO con una rigorosa formazione basata sulle politiche e nessuna penalità KL tramite il software program open supply di Nvidia Archivio Nemo-RL. Per il codice RL, la pipeline ha utilizzato solo 3.500 problemi difficili e filtrati.

Il quadro più ampio: la densità di intelligenza come principio di progettazione

Nemotron-Cascade 2 fa parte di una tendenza più ampia verso la “densità di intelligenza”, ovvero l’estrazione della massima capacità per parametro attivo. I modelli MoE di DeepSeek, le varianti A3B di Qwen e ora la serie Cascade di Nvidia puntano tutti verso un futuro in cui i modelli di ragionamento più capaci non sono necessariamente i più grandi.

Per l’implementazione aziendale, questo è estremamente importante. Un modello con parametri attivi 3B può essere servito a una frazione del costo e della latenza di un modello denso 70B. I risultati di Nvidia suggeriscono che tecniche post-formazione come Cascade RL e MOPD possono colmare il divario prestazionale nei domini goal, offrendo alle organizzazioni un percorso per implementare forti capacità di ragionamento senza costi infrastrutturali a livello di frontiera.

La questione aperta è fino a che punto questo approccio possa essere generalizzato. Cascade RL funziona bene per i domini con premi verificabili: la matematica ha risposte corrette, il codice ha casi di check, seguire le istruzioni ha controlli basati su regole. Estenderlo a compiti aziendali più aperti, dove la verifica è ambigua, rimane una sfida di ricerca attiva. Per i workforce che creano sistemi che necessitano di un ragionamento approfondito su problemi strutturati (modellazione finanziaria, calcolo scientifico, ingegneria del software program, analisi di conformità), il rapporto tecnico di Nvidia offre una delle metodologie post-formazione più dettagliate pubblicate fino advert oggi.

fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here