Home Tecnologia Mistral rilascia un nuovo modello open supply per la generazione vocale

Tecnologia

Mistral rilascia un nuovo modello open supply per la generazione vocale

26 Marzo 2026

La società francese di intelligenza artificiale Mistral ha rilasciato giovedì un nuovo modello di sintesi vocale open supply che può essere utilizzato dagli assistenti di intelligenza artificiale vocale o in casi di utilizzo aziendale come l’assistenza clienti. Il modello, che consente alle aziende di creare agenti vocali per le vendite e il coinvolgimento dei clienti, mette Mistral in diretta concorrenza con aziende del calibro di ElevenLabs, Deepgram e OpenAI.

Il nuovo modello, chiamato Voxtral TTS, supporta nove lingue, tra cui inglese, francese, tedesco, spagnolo, olandese, portoghese, italiano, hindi e arabo.

“I nostri clienti ci hanno chiesto un modello vocale. Quindi abbiamo creato un modello vocale di piccole dimensioni che possa essere inserito in uno smartwatch, uno smartphone, un laptop computer o altri dispositivi edge. Il suo costo è una frazione di qualsiasi altro prodotto sul mercato, ma offre prestazioni all’avanguardia”, ha dichiarato a TechCrunch Pierre Inventory, vicepresidente delle operazioni scientifiche presso Mistral AI, durante un’intervista telefonica.

Crediti immagine: Mistral

Mistral ha affermato che il nuovo modello può adattare una voce personalizzata con un campione inferiore a cinque secondi e anche catturare caratteristiche come accenti sottili, inflessioni, intonazioni e irregolarità nel flusso del parlato. Il modello, basato su Ministrale 3Bpuò passare facilmente da una lingua all’altra senza perdere le caratteristiche della voce, il che è utile per casi d’uso come il doppiaggio o la traduzione in tempo reale. Inventory ha detto che la società voleva che il modello sembrasse umano e non robotico.

Secondo l’azienda, il modello è stato creato per prestazioni in tempo reale. Ha un tempo al primo audio (TTFA) – una misura di quando il modello inizia a “parlare” dopo aver ricevuto l’enter – di 90 ms per un campione di 10 secondi di 500 caratteri. Il modello ha anche un fattore di tempo reale (RTF) di 6x, il che significa che può eseguire il rendering di una clip di 10 secondi in circa 1,6 secondi.

All’inizio di quest’anno è stato lanciato Mistral una coppia di modelli di trascrizioneuno per l’elaborazione in batch di grandi dimensioni e l’altro per casi d’uso in tempo reale con bassa latenza. Con il nuovo modello vocale, l’azienda probabilmente mirerà a fornire una suite completa di prodotti vocali alle aziende.

“Abbiamo in programma di avere una piattaforma end-to-end in grado di gestire flussi multimodali di enter, inclusi audio, testo, immagini e output. Il vantaggio principale di ciò è che ottieni molte più informazioni con un sistema agentico end-to-end che supporta l’audio come enter o output”, ha affermato Inventory.

Evento Techcrunch

San Francisco, California
|
13-15 ottobre 2026

Il posizionamento di Mistral è che la sua parte open supply e di personalizzazione aiuterà le aziende advert adottare i suoi modelli vocali rispetto alla concorrenza, poiché potranno personalizzarli come desiderano.

fonte

Mistral rilascia un nuovo modello open supply per la generazione vocale

LEAVE A REPLY Cancel reply

Posta recente

Josh Duhamel afferma che ora è pronto al 72% per un’apocalisse...

Perché la nuova serie di Harry Potter è così controversa: dalle...

L’utilizzo di una VPN potrebbe esporti allo spionaggio della NSA

L’educazione sessuale australiana che “oltrepassa i confini” prende d’assalto la classifica...

Quali giocatori coglieranno l’occasione per impressionare Tuchel?

Sì, l’ICE ha mentito riguardo al suo potere di effettuare arresti...

La star di Prime Gear James Might va in tribunale per...

Apple sconta massicciamente iPhone Air su Amazon nel Regno Unito

“Non si può rifiutare i migliori membership del mondo” – Rodri...

Gli spettatori di Emmerdale “confermano” le conseguenze del segreto della gravidanza...