La società francese di intelligenza artificiale Mistral ha rilasciato giovedì un nuovo modello di sintesi vocale open supply che può essere utilizzato dagli assistenti di intelligenza artificiale vocale o in casi di utilizzo aziendale come l’assistenza clienti. Il modello, che consente alle aziende di creare agenti vocali per le vendite e il coinvolgimento dei clienti, mette Mistral in diretta concorrenza con aziende del calibro di ElevenLabs, Deepgram e OpenAI.
Il nuovo modello, chiamato Voxtral TTS, supporta nove lingue, tra cui inglese, francese, tedesco, spagnolo, olandese, portoghese, italiano, hindi e arabo.
“I nostri clienti ci hanno chiesto un modello vocale. Quindi abbiamo creato un modello vocale di piccole dimensioni che possa essere inserito in uno smartwatch, uno smartphone, un laptop computer o altri dispositivi edge. Il suo costo è una frazione di qualsiasi altro prodotto sul mercato, ma offre prestazioni all’avanguardia”, ha dichiarato a TechCrunch Pierre Inventory, vicepresidente delle operazioni scientifiche presso Mistral AI, durante un’intervista telefonica.
Mistral ha affermato che il nuovo modello può adattare una voce personalizzata con un campione inferiore a cinque secondi e anche catturare caratteristiche come accenti sottili, inflessioni, intonazioni e irregolarità nel flusso del parlato. Il modello, basato su Ministrale 3Bpuò passare facilmente da una lingua all’altra senza perdere le caratteristiche della voce, il che è utile per casi d’uso come il doppiaggio o la traduzione in tempo reale. Inventory ha detto che la società voleva che il modello sembrasse umano e non robotico.
Secondo l’azienda, il modello è stato creato per prestazioni in tempo reale. Ha un tempo al primo audio (TTFA) – una misura di quando il modello inizia a “parlare” dopo aver ricevuto l’enter – di 90 ms per un campione di 10 secondi di 500 caratteri. Il modello ha anche un fattore di tempo reale (RTF) di 6x, il che significa che può eseguire il rendering di una clip di 10 secondi in circa 1,6 secondi.

All’inizio di quest’anno è stato lanciato Mistral una coppia di modelli di trascrizioneuno per l’elaborazione in batch di grandi dimensioni e l’altro per casi d’uso in tempo reale con bassa latenza. Con il nuovo modello vocale, l’azienda probabilmente mirerà a fornire una suite completa di prodotti vocali alle aziende.
“Abbiamo in programma di avere una piattaforma end-to-end in grado di gestire flussi multimodali di enter, inclusi audio, testo, immagini e output. Il vantaggio principale di ciò è che ottieni molte più informazioni con un sistema agentico end-to-end che supporta l’audio come enter o output”, ha affermato Inventory.
Evento Techcrunch
San Francisco, California
|
13-15 ottobre 2026
Il posizionamento di Mistral è che la sua parte open supply e di personalizzazione aiuterà le aziende advert adottare i suoi modelli vocali rispetto alla concorrenza, poiché potranno personalizzarli come desiderano.













