DeepL, una società di traduzione nota soprattutto per i suoi strumenti di testo, ha rilasciato oggi una suite di traduzione voce-voce che copre casi d’uso come riunioni, conversazioni mobili e web e conversazioni di gruppo per lavoratori in prima linea tramite app personalizzate. L’azienda sta inoltre rilasciando un’API che consente a sviluppatori e aziende esterni di sfruttare la tecnologia di DeepL per casi d’uso personalizzati, come i call center.
“Dopo aver trascorso così tanti anni nella traduzione di testi, la voce è stata un passo naturale per noi”, ha dichiarato il CEO di DeepL Jarek Kutylowski in un’intervista a TechCrunch. “Abbiamo fatto molta strada quando si tratta di traduzione di testi e di documenti. Ma pensavamo che non esistesse un ottimo prodotto per la traduzione vocale in tempo reale.”
Kutylowski ha affermato che le sfide nella creazione di un prodotto di traduzione in tempo reale sono incentrate sul trovare un equilibrio tra la riduzione della latenza – il ritardo tra qualcuno che parla e la riproduzione dell’audio tradotto – e il mantenimento di risultati accurati.
DeepL sta rilasciando componenti aggiuntivi per piattaforme come Zoom e Microsoft Teams, dove gli ascoltatori possono ascoltare la traduzione in tempo reale mentre altri parlano nella lingua madre o seguire il testo tradotto in tempo reale sullo schermo. Questo programma è attualmente in fase di accesso anticipato e l’azienda è invitante organizzazioni a iscriversi a una lista d’attesa. L’azienda offre anche un prodotto per conversazioni mobili e basate sul Web che possono avvenire di persona o in remoto.
DeepL consente inoltre agli utenti di partecipare a una conversazione di gruppo in contesti come sessioni di formazione o workshop, consentendo ai partecipanti di partecipare tramite un codice QR.
DeepL ha affermato che la sua tecnologia voice-to-voice può anche apprendere e adattarsi al vocabolario personalizzato, come termini specifici del settore e nomi aziendali e personali.
Kutylowski ha affermato che l’intelligenza artificiale sta reinventando l’aspetto del servizio clienti nei prossimi anni. Ha osservato che un livello di traduzione aiuta le aziende a fornire supporto nelle lingue in cui il personale qualificato è scarso e costoso da assumere.
Evento Techcrunch
San Francisco, California
|
13-15 ottobre 2026
La società ha affermato di controllare l’intero stack voice-to-voice. Tuttavia, il sistema attuale converte il parlato in testo, applica la traduzione, quindi lo riconverte in parlato. DeepL ritiene che, poiché lavora da anni sulla traduzione di testi, sia all’avanguardia in termini di qualità della traduzione. Guardando al futuro, l’azienda intende sviluppare un modello di traduzione vocale end-to-end che salti completamente la fase di testo.
DeepL deve affrontare la concorrenza di diverse startup ben finanziate che lavorano negli angoli adiacenti dello spazio. Sanas, che l’anno scorso ha raccolto 65 milioni di dollari da Quadrille Capital e Teleperformance, utilizza l’intelligenza artificiale per modificare l’accento di chi parla in tempo reale, uno strumento rivolto principalmente agli agenti dei call center.
Camb.AI, con sede a Dubai, si concentra sulla sintesi vocale e sulla traduzione per le società di media e intrattenimento Amazon Web Services, aiutandole a doppiare e localizzare contenuti video su larga scala.
Palabra, supportato dalla società Seven Seven Six del co-fondatore di Reddit Alexis Ohanian, sta costruendo un motore di traduzione vocale in tempo reale progettato per preservare sia il significato che la voce originale di chi parla, mettendolo in competizione più diretta con ciò che DeepL sta ora costruendo.











