Home Tecnologia Scale AI lancia Voice Showdown, il primo punto di riferimento nel mondo...

Scale AI lancia Voice Showdown, il primo punto di riferimento nel mondo reale per l’intelligenza artificiale vocale, e i risultati sono umilianti per alcuni modelli di punta

4
0

L’intelligenza artificiale vocale si sta muovendo più velocemente degli strumenti che utilizziamo per misurarla. Tutti i principali laboratori di intelligenza artificiale – OpenAI, Google DeepMind, Anthropic, xAI – stanno facendo a gara per fornire modelli vocali in grado di effettuare conversazioni naturali e in tempo reale.

Ma i parametri di riferimento utilizzati per valutare questi modelli si basano ancora in gran parte su discorsi sintetici, suggerimenti solo in inglese e set di take a look at programmati che hanno poca somiglianza con il modo in cui le persone parlano effettivamente.

Scala dell’intelligenza artificialel’avvio di annotazioni di dati di grandi dimensioni il cui fondatore è stato ingaggiato da Meta l’anno scorso per dirigere il suo Laboratorio di Superintelligenzava ancora forte e affronta il problema a testa alta: oggi parte Resa dei conti vocalequella che viene definita la prima enviornment globale basata sulle preferenze, progettata per valutare l’intelligenza artificiale vocale attraverso la lente dell’interazione umana reale.

Questo prodotto offre un valore strategico unico agli utenti: accesso gratuito ai principali modelli di frontiera del mondo. Attraverso la piattaforma ChatLab di Scale, gli utenti possono interagire con modelli di alto livello, che in genere richiedono più abbonamenti da 20 dollari al mese, senza alcun costo. In cambio, gli utenti partecipano a occasionali “battaglie” testa a testa alla cieca per scegliere quale dei due modelli vocali principali anonimizzati offre un’esperienza migliore, fornendo dati per la classifica dei modelli di intelligenza artificiale vocale più autentica e basata sulle preferenze umane del settore.

“L’intelligenza artificiale vocale è davvero la frontiera in più rapida evoluzione nel campo dell’intelligenza artificiale in questo momento”, ha affermato Janie Gu, product supervisor di Showdown at Scale AI. “Ma il modo in cui valutiamo i modelli vocali non ha tenuto il passo.”

I risultati, ricavati da migliaia di conversazioni vocali spontanee in più di 60 lingue, rivelano lacune in termini di capacità che altri benchmark hanno costantemente mancato.

Come funziona il Voice Showdown di Scale

Voice Showdown è basato su ChatLab, la piattaforma di chat indipendente dal modello di Scale in cui gli utenti possono interagire liberamente con qualsiasi modello di intelligenza artificiale di frontiera scelgano, gratuitamente, all’interno di un’unica app. La piattaforma è stata resa disponibile alla comunità globale di Scale composta da oltre 500.000 annotatori, di cui circa 300.000 hanno inviato almeno un suggerimento. Scale apre oggi la piattaforma a una lista d’attesa pubblica.

Il meccanismo di valutazione è elegante nella sua semplicità: mentre un utente ha una conversazione vocale naturale con un modello, il sistema occasionalmente – su meno del 5% di tutti i messaggi vocali – fa emergere un confronto cieco fianco a fianco. Lo stesso messaggio viene inviato a un secondo modello anonimo e l’utente sceglie la risposta che preferisce.

Questo design risolve tre problemi che affliggono i benchmark vocali esistenti.

Innanzitutto, ogni suggerimento proviene da un discorso umano reale – con accenti, rumore di fondo, frasi finite a metà e riempitivi di conversazione – piuttosto che da audio sintetizzato generato dal testo.

In secondo luogo, la piattaforma abbraccia più di 60 lingue in 6 continenti, con oltre un terzo delle battaglie che si verificano in lingue numerous dall’inglese tra cui spagnolo, arabo, giapponese, portoghese, hindi e francese.

In terzo luogo, poiché le battaglie avvengono all’interno delle effettive conversazioni quotidiane degli utenti, l’81% dei suggerimenti sono conversazioni o domande aperte, ovvero domande senza un’unica risposta corretta. Ciò esclude il punteggio automatizzato e rende la preferenza umana l’unico segnale credibile.

Voice Showdown attualmente esegue due modalità di valutazione: Dictate (gli utenti parlano, i modelli rispondono con il testo) e Speech-to-Speech o S2S (Speech-to-Speech, gli utenti parlano, i modelli rispondono). Una terza modalità, Full Duplex, che cattura conversazioni interrompibili in tempo reale, è in fase di sviluppo.

Voto allineato agli incentivi

Un dettaglio di design distingue Voice Showdown da Chatbot Enviornment (LM Enviornment), il benchmark testuale a cui assomiglia di più. In LM Enviornment, i critici hanno notato che gli utenti a volte esprimono voti usa e getta con poca partecipazione al risultato. Voice Showdown risolve questo problema direttamente: dopo che un utente ha votato per il modello che preferisce, l’app lo passa a quel modello per il resto della conversazione. Se hai votato per GPT-4o Audio rispetto a Gemini, ora stai parlando con GPT-4o Audio. Questo allineamento delle conseguenze con le preferenze scoraggia il voto casuale o disonesto.

Il sistema controlla anche i fattori di confusione che potrebbero corrompere i confronti: le risposte di entrambi i modelli iniziano a essere trasmesse simultaneamente (eliminando i bias di velocità), il genere della voce viene abbinato in entrambe le opzioni (eliminando i bias di preferenza di genere) e nessuno dei due modelli viene identificato per nome durante la votazione.

La nuova classifica Voice AI a cui ogni decisore aziendale dovrebbe prestare attenzione

Voice Showdown viene lanciato con 11 modelli di frontiera valutati su 52 coppie modello-voce a partire dal 18 marzo 2026. Non tutti i modelli supportano entrambe le modalità di valutazione: la classifica Dictate embrace 8 modelli, mentre S2S ne embrace 6.

Classifica Dettatura (Speech-In, Textual content-Out)

In questa modalità, gli utenti forniscono un messaggio vocale e valutano due risposte testuali affiancate. Ecco i punteggi di base:

  1. Gemelli 3 Professional (1073)

  2. Gemelli 3Flash (1068)

  3. Audio GPT-4o (1019)

  4. Qwen3Omni (1000)

  5. Voxtral piccolo (925)

  6. Gemma 3n (918)

  7. GPT in tempo reale (875)

  8. Phi-4 multimodale (729)

Nota: Gemini 3 Professional e Gemini 3 Flash sono statisticamente a pari merito per la prima posizione.

Classifica di sintesi vocale (S2S).

In questa modalità, gli utenti parlano al modello e valutano due risposte audio concorrenti. Anche linee di base:

  1. Gemini 2.5 Flash Audio (1060)

  2. Audio GPT-4o (1059)

  3. Grok Voce (1024)

  4. Qwen3Omni (1000)

  5. GPT in tempo reale (962)

  6. GPT in tempo reale 1.5 (920)

Nota: Gemini 2.5 Flash Audio e GPT-4o Audio sono statisticamente al primo posto nelle valutazioni di base.

Le classifiche dettate sono guidate da Gemini 3 Professional e Gemini 3 Flash di Google, che sono statisticamente al primo posto con punteggi Elo intorno a 1.043-1.044 dopo i controlli di stile.

GPT-4o Audio occupa un netto terzo posto. I modelli a peso aperto, tra cui Gemma3n, Voxtral Small e Phi-4 Multimodal, seguono significativamente.

Le classifiche Speech-to-Speech (S2S) mostrano una corsa più serrata al vertice, con Gemini 2.5 Flash Audio e GPT-4o Audio statisticamente pari al primo posto nella classifica di base.

Dopo aver aggiustato la lunghezza della risposta e la formattazione, fattori che possono gonfiare la qualità percepita, GPT-4o Audio va avanti (1.102 Elo contro 1.075 per Gemini 2.5 Flash Audio).

Grok Voice balza al secondo posto con 1.093 sotto i controlli di stile, suggerendo che la sua classifica n. 3 svende la sua effettiva qualità delle prestazioni.

Qwen 3 Omni, il modello a peso aperto del staff Qwen di Alibaba, si comporta meglio di quanto la sua popolarità suggerirebbe, classificandosi al quarto posto in entrambe le modalità, davanti a diversi nomi di alto profilo.

“Quando le persone arrivano, scelgono i grandi nomi”, ha osservato Gu. “Ma per preferenza, i modelli meno conosciuti come Qwen in realtà vanno avanti.”

Sorpreso rivelato dai dati sulle preferenze del mondo reale

Al di là delle classifiche, il vero valore di Voice Showdown sta nella diagnostica degli errori, che dipingono un quadro dell’intelligenza artificiale vocale più complicato di quello rivelato dalla maggior parte delle classifiche.

Il divario multilingue è peggiore di quanto pensi

La robustezza del linguaggio è il principale elemento di differenziazione tra i modelli. In Dictate, i modelli Gemini 3 conducono essenzialmente in tutte le lingue testate.

In S2S, il vincitore dipende in gran parte dalla lingua parlata: GPT-4o Audio conduce in arabo e turco; Gemini 2.5 Flash Audio è più potente in francese; Grok Voice è competitivo in giapponese e portoghese.

Ma la scoperta più allarmante è la frequenza con cui alcuni modelli semplicemente smettono di rispondere nella lingua dell’utente.

GPT Realtime 1.5, il nuovo modello vocale in tempo reale di OpenAI, risponde in inglese a richieste non inglesi circa il 20% delle volte, anche su lingue advert alto contenuto di risorse ufficialmente supportate come hindi, spagnolo e turco.

Il suo predecessore, GPT Realtime, presenta disallineamenti a circa la metà di story tasso (~10%). Gemini 2.5 Flash Audio e GPT-4o Audio si attestano al ~7%.

Il fenomeno funziona in entrambe le direzioni: alcuni modelli trasportano il contesto non inglese da prima in una conversazione in una svolta in inglese, o semplicemente fraintendono un suggerimento e generano una risposta non correlata nella lingua completamente sbagliata.

Le parole degli utenti dalla piattaforma catturano senza mezzi termini la frustrazione: “Ho detto che oggi avrei un colloquio con Quest Administration e invece di rispondere, mi ha dato informazioni sulla ‘Gestione del rischio.'”

“GPT Realtime 1.5 pensava che stessi parlando in modo incoerente e mi ha consigliato assistenza per la salute mentale, mentre Qwen 3 Omni ha identificato correttamente che stavo parlando una lingua locale nigeriana.”

Il motivo per cui i benchmark esistenti non riescono a cogliere questo aspetto è che sono basati su un parlato sintetico ottimizzato per condizioni acustiche pulite e raramente sono multilingue. I veri oratori in ambienti reali, con rumore di fondo, espressioni brevi e accenti regionali, interrompono la comprensione del parlato in modi che le condizioni di laboratorio non prevedono.

La selezione della voce è più che estetica

Voice Showdown valuta i modelli non solo a livello di modello ma anche a livello di singola voce e la varianza all’interno del catalogo vocale di un singolo modello è sorprendente.

Per un modello senza nome nello studio, la voce con le migliori prestazioni ha vinto 30 punti percentuali in più rispetto alla voce con le peggiori prestazioni dello stesso modello sottostante. Entrambe le voci condividono lo stesso ragionamento e lo stesso backend di generazione. La differenza è puramente nella presentazione audio.

Le voci con le migliori prestazioni tendono a vincere o perdere in termini di comprensione dell’audio e completezza dei contenuti, indipendentemente dal fatto che il modello ti abbia ascoltato correttamente e abbia risposto in modo completo. Ma la qualità del parlato rimane un fattore decisivo a livello di selezione vocale, in particolare quando i modelli sono altrimenti comparabili. “La voce modella direttamente il modo in cui gli utenti valutano l’interazione”, ha affermato Gu.

I modelli si degradano nella conversazione

La maggior parte dei benchmark testa una singola svolta. Voice Showdown mette alla prova il modo in cui i modelli reggono durante conversazioni prolungate e i risultati non sono lusinghieri.

Al turno 1, la qualità dei contenuti rappresenta il 23% dei fallimenti del modello. Entro la curva 11 e oltre, diventa la modalità di guasto principale con una percentuale del 43%. La maggior parte dei modelli vede diminuire il proprio tasso di vincita man mano che le conversazioni si estendono, faticando a mantenere la coerenza tra più scambi.

Le varianti GPT Realtime rappresentano un’eccezione, migliorando marginalmente nei turni successivi, in linea con i loro punti di forza noti in contesti più lunghi e la loro debolezza documentata nelle espressioni brevi e rumorose che dominano le prime interazioni.

La lunghezza dei immediate mostra uno schema complementare: i immediate brevi (sotto i 10 secondi) sono dominati da errori di comprensione dell’audio (38%), mentre i immediate lunghi (oltre 40 secondi) spostano l’errore principale verso la qualità del contenuto (31%). L’audio più breve fornisce ai modelli meno contesto acustico da analizzare; le richieste più lunghe vengono comprese ma è più difficile rispondere bene.

Perché alcuni modelli di intelligenza artificiale vocale perdono

Dopo ogni confronto S2S, gli utenti taggano il motivo per cui hanno preferito una risposta rispetto all’altra su tre assi: comprensione dell’audio, qualità del contenuto e output vocale. Le firme dei guasti differiscono in modo significativo in base al modello.

Le perdite di Qwen 3 Omni riguardano la generazione del parlato: il suo ragionamento è competitivo, ma gli utenti sono scoraggiati da come suona. Le perdite di GPT Realtime 1.5 sono dominate dai fallimenti nella comprensione dell’audio (51%), coerenti con il suo comportamento di cambio lingua su istruzioni impegnative. I fallimenti di Grok Voice sono più bilanciati su tutti e tre gli assi, indicando nessuna debolezza dominante ma nemmeno una forza particolare.

Qual è il prossimo passo?

La classifica attuale copre l’interazione a turni: tu parli, il modello risponde, ripeti. Ma le conversazioni vocali reali non funzionano in questo modo. Le persone interrompono, cambiano direzione a metà frase e parlano tra loro.

Scale afferma che la valutazione Full Duplex, progettata per catturare queste dinamiche in tempo reale attraverso le preferenze umane piuttosto che scenari programmati o metriche automatizzate, arriverà a Showdown il prossimo. Nessun benchmark esistente cattura l’interazione full-duplex attraverso dati organici sulle preferenze umane.

La classifica è pubblicata su scale.com/showdown. Oggi è aperta una lista d’attesa pubblica per unirsi a ChatLab e votare sui confronti, con gli utenti che ricevono accesso gratuito a modelli vocali di frontiera tra cui GPT-4o, Gemini e Grok in cambio di voti di preferenza occasionali.

fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here