Le aziende che si destreggiano tra modelli separati per ragionamento, attività multimodali e codifica advert agenti potrebbero essere in grado di semplificare il proprio stack: il nuovo Small 4 di Mistral riunisce tutti e tre in un unico modello open supply, con livelli di ragionamento regolabili sotto il cofano.
Small 4 entra in un campo affollato di piccoli modelli, tra cui Qwen e Claude Haiku, che competono sui costi di inferenza e sulle prestazioni di riferimento. La proposta di Mistral: output più brevi che si traducono in una latenza inferiore e token più economici.
Mistral Small 4 aggiorna Mistral Small 3.2, uscito a giugno 2025, ed è disponibile con licenza Apache 2.0. “Con Small 4, gli utenti non hanno più bisogno di scegliere tra un modello di istruzione veloce, un potente motore di ragionamento o un assistente multimodale: un modello ora offre tutti e tre, con uno sforzo di ragionamento configurabile e l’efficienza migliore della categoria”, ha affermato Mistral in un post sul blog.
La società ha affermato che, nonostante le sue dimensioni ridotte (Mistral Small 4 ha 119 miliardi di parametri totali con solo 6 miliardi di parametri attivi per token), il modello combina le capacità di tutti i modelli Mistral. Ha le capacità di ragionamento di Magistral, la comprensione multimodale di Pixtral e le prestazioni di codifica advert agenti di Devstral. Ha anche una finestra di contesto da 256K che, secondo l’azienda, funziona bene per conversazioni e analisi di lunga durata.
Rob Could, co-fondatore e CEO del piccolo mercato di modelli linguistici Neurometric, ha dichiarato a VentureBeat che Mistral Small 4 si distingue per la sua flessibilità architetturale. Tuttavia, si aggiunge a un numero crescente di modelli più piccoli che, secondo lui, rischiano di aggiungere ulteriore frammentazione al mercato.
“Dal punto di vista tecnico, sì, può essere competitivo rispetto advert altri modelli”, ha affermato Could. “Il problema più grande è che deve superare la confusione del mercato. Mistral deve prima conquistare la condivisione della mente per avere la possibilità di far parte di quel set di take a look at. Solo allora potranno mostrare le capacità tecniche del modello.”
Ragionamento a richiesta
I modelli piccoli offrono ancora buone opzioni per i costruttori di imprese che desiderano avere la stessa esperienza LLM a un costo inferiore.
Il modello è costruito su un’architettura mista di esperti, proprio come gli altri modelli Mistral. È dotato di 128 esperti con quattro attivi per ciascun token, che secondo Mistral consente un ridimensionamento e una specializzazione efficienti.
Ciò consente a Mistral Small 4 di rispondere più velocemente, anche a risultati più intensivi di ragionamento. Può anche elaborare e ragionare su testo e immagini, consentendo agli utenti di analizzare documenti e grafici.
Mistral ha affermato che il modello presenta un nuovo parametro chiamato Reasoning_effort, che consentirebbe agli utenti di “adattare dinamicamente il comportamento del modello”. Secondo Mistral, le aziende sarebbero in grado di configurare Small 4 per fornire risposte rapide e leggere nello stesso stile di Mistral Small 3.2, o renderlo più prolisso sulla scia di Magistral, fornendo un ragionamento passo passo per compiti complessi.
Mistral ha affermato che Small 4 funziona con meno chip rispetto a modelli comparabili, con una configurazione consigliata di quattro Nvidia HGX H100 o H200 o due Nvidia DGX B200.
“La fornitura di modelli AI open supply avanzati richiede un’ampia ottimizzazione. Attraverso una stretta collaborazione con Nvidia, l’inferenza è stata ottimizzata sia per vLLM open supply che per SGLang, garantendo un servizio efficiente e advert alto rendimento in tutti gli scenari di implementazione”, ha affermato Mistral.
Prestazioni di riferimento
Secondo i benchmark di Mistral, Small 4 ha prestazioni vicine al livello di Mistral Medium 3.1 e Mistral Massive 3, in particolare in MMLU Professional.
Mistral ha affermato che le prestazioni che seguono le istruzioni rendono Small 4 adatto per attività aziendali advert alto quantity come la comprensione dei documenti.
Sebbene competitivo con altri piccoli modelli di altre aziende, Small 4 funziona ancora al di sotto di altri popolari modelli open supply, soprattutto nelle attività advert alta intensità di ragionamento. Qwen 3.5 122B e Qwen 3-next 80B superano Small 4 su LiveCodeBench, così come Claude Haiku in modalità istruzione.
Mistral Small 4 è riuscito a battere il GPT-OSS 120B di OpenAI nell’LCR.
Mistral sostiene che Small 4 raggiunge questi punteggi con “output significativamente più brevi” che si traducono in costi di inferenza e latenza inferiori rispetto agli altri modelli. Nello specifico nella modalità istruzione, Small 4 produce gli output più brevi di qualsiasi modello testato: 2,1K caratteri contro 14,2K per Claude Haiku e 23,6K per GPT-OSS 120B. In modalità ragionamento, gli output sono molto più lunghi (18,7K), come previsto per questo caso d’uso.
Could ha affermato che, sebbene la scelta del modello dipenda dagli obiettivi di un’organizzazione, la latenza è uno dei tre pilastri a cui dovrebbe dare priorità. “Dipende dai tuoi obiettivi e da ciò che stai ottimizzando per realizzare la tua architettura. Le aziende dovrebbero dare priorità a questi tre pilastri: affidabilità e output strutturato, rapporto latenza/intelligenza, personalizzazione e privateness”, ha affermato Could.










