OpenAI ha dichiarato giovedì che la sua API includerà ora una serie di nuove funzionalità di intelligenza vocale progettate per aiutare gli sviluppatori a creare app in grado di parlare, trascrivere e tradurre le conversazioni con gli utenti.
Quello dell’azienda nuovo GPT‑Realtime‑2 è un altro modello vocale, costruito per creare una simulazione vocale realistica in grado di conversare con gli utenti. Tuttavia, a differenza del suo predecessore (GPT-Realtime-1.5), questo è costruito con un ragionamento di classe GPT‑5 che OpenAI afferma essere stato creato per gestire le richieste più complicate degli utenti.
L’azienda sta inoltre lanciando GPT‑Realtime‑Translate che, proprio come sembra, è progettato per fornire servizi di traduzione in tempo reale che “tengano il passo” con l’utente, in modo conversazionale. La funzionalità embody più di 70 lingue di input (ovvero le lingue che può comprendere) e 13 lingue di output (le lingue che trasmette a chi parla).
Infine, l’azienda ha anche lanciato una nuova funzionalità di trascrizione, GPT-Realtime-Whisper, che offre agli utenti funzionalità di sintesi vocale in tempo reale che vengono catturate man mano che si verificano le interazioni.
“Insieme, i modelli che stiamo lanciando spostano l’audio in tempo reale da semplici chiamate e risposte verso interfacce vocali che possono effettivamente funzionare: ascoltare, ragionare, tradurre, trascrivere e agire mentre una conversazione si svolge”, ha affermato l’azienda.
A chi serviranno questi aggiornamenti? Le aziende che desiderano espandere le capacità del servizio clienti sono un obiettivo ovvio. Tuttavia, OpenAI rileva anche che le sue nuove funzionalità aiuteranno in una vasta gamma di aree, tra cui istruzione, media, eventi e piattaforme di creazione, tra gli altri.
Per quanto utili possano sembrare questi strumenti dal punto di vista aziendale, sembra anche plausibile che possano essere utilizzati in modo improprio. La società ha affermato di aver costruito dei guardrail per impedire che le sue nuove funzionalità vengano abusate per creare spam, frode o altre forme di abuso on-line. Alcuni set off sono stati incorporati nel sistema in modo che “le conversazioni possano essere interrotte se vengono rilevate violazioni delle nostre linee guida sui contenuti dannosi”, ha affermato OpenAI.
Evento Techcrunch
San Francisco, California
|
13-15 ottobre 2026
Tutti i nuovi modelli vocali sono inclusi in API in tempo reale di OpenAI. Translate e Whisper vengono fatturati al minuto, mentre GPT-Realtime-2 viene fatturato in base al consumo di token.
Quando acquisti tramite i hyperlink presenti nei nostri articoli, potremmo guadagnare una piccola commissione. Ciò non pregiudica la nostra indipendenza editoriale.













