Le aziende che creano flussi di lavoro abilitati alla voce avevano opzioni limitate per la trascrizione di livello produttivo: API chiuse con rischi di residenza dei dati o modelli aperti che barattano la precisione con la distribubilità. Il nuovo modello ASR a peso aperto di Cohere, Transcribe, è costruito per competere su tutti e quattro i principali fattori di differenziazione: accuratezza contestuale, latenza, controllo e costi.
Cohere afferma che Transcribe supera i chief attuali in termini di precisione e, a differenza delle API chiuse, può essere eseguito sull’infrastruttura di un’organizzazione.
Cohere, a cui è possibile accedere tramite un’API o nel Mannequin Vault di Cohere come cohere-transcribe-03-2026, ha 2 miliardi di parametri ed è concesso in licenza con Apache-2.0. La società ha affermato che Transcribe ha un tasso medio di errori di parola (WER) di appena il 5,42%, quindi commette meno errori rispetto a modelli simili.
È addestrato in 14 lingue: inglese, francese, tedesco, italiano, spagnolo, greco, olandese, polacco, portoghese, cinese, giapponese, coreano, vietnamita e arabo. L’azienda non ha specificato su quale dialetto cinese è stata addestrata la modella.
Cohere ha affermato di aver addestrato il modello “con un’attenzione deliberata alla riduzione del WER, mantenendo al contempo la preparazione della produzione in primo piano”. Secondo Cohere, il risultato è un modello che le aziende possono collegare direttamente advert automazioni vocali, pipeline di trascrizione e flussi di lavoro di ricerca audio.
Trascrizione self-hosted per pipeline di produzione
Fino a poco tempo fa, la trascrizione aziendale period un compromesso: le API chiuse offrivano precisione ma bloccavano i dati; i modelli aperti offrivano controllo ma erano ritardati in termini di prestazioni. A differenza di Whisper, lanciato come modello di ricerca con licenza MIT, Transcribe è disponibile per uso commerciale sin dal rilascio e può essere eseguito sull’infrastruttura GPU locale di un’organizzazione. I primi utenti hanno segnalato l’approccio open-weight commerciale come significativo per le implementazioni aziendali.
Le organizzazioni possono portare Transcribe nelle proprie istanze locali, poiché Cohere ha affermato che il modello ha un’impronta di inferenza più gestibile per le GPU locali. La società ha affermato di essere stata in grado di farlo perché il modello “estende la frontiera di Pareto, offrendo una precisione all’avanguardia (basso WER) e sostenendo al contempo il throughput migliore della categoria (alto RTFx) all’interno della coorte di modelli con parametri 1B+”.
Come si accumula Transcribe
Transcribe ha sovraperformato i sostenitori del modello vocale, tra cui Whisper di OpenAI, che alimenta la funzionalità vocale di ChatGPT, e ElevenLabs, implementato da molti grandi marchi di vendita al dettaglio. Attualmente è in cima alla classifica Classifica ASR di Hugging Facein testa con un tasso medio di errori di parola del 5,42%, superando Whisper Massive v3 al 7,44%, ElevenLabs Scribe v2 al 5,83% e Qwen3-ASR-1.7B al 5,76%.
Sulla base di altri set di dati testati da Hugging Face, anche Transcribe ha ottenuto buoni risultati. Il set di dati AMI, che misura la comprensione degli incontri e l’analisi del dialogo, Transcribe ha registrato un punteggio dell’8,15%. Per il set di dati Voxpopuli che testa la comprensione dei diversi accenti, il modello ha ottenuto il 5,87%, battuto solo da Zoom Scribe.
I primi utenti hanno indicato la precisione e l’implementazione locale come fattori principali, in particolare per i staff che hanno instradato dati audio tramite API esterne e desiderano portare il carico di lavoro internamente.
Per i staff di ingegneri che creano pipeline RAG o flussi di lavoro degli agenti con enter audio, Transcribe offre un percorso verso la trascrizione di livello produttivo senza le penalità di residenza dei dati e latenza delle API chiuse.












