Microsoft AI, il laboratorio di ricerca del colosso tecnologico, ha annunciato il rilascio di tre modelli fondamentali di intelligenza artificiale giovedì che può generare testo, voce e immagini.
Il rilascio segnala la continua spinta di Microsoft a costruire il proprio stack di modelli di intelligenza artificiale multimodale – e competere con i laboratori di intelligenza artificiale rivali – anche se rimane legato a OpenAI.
MAI-Transcribe-1 trascrive in testo il parlato di 25 lingue various ed è 2,5 volte più veloce dell’offerta Azure Quick di Microsoft, secondo un comunicato stampa dell’azienda. MAI-Voice-1 è un modello di generazione audio. Questo modello vocale consente agli utenti di generare 60 secondi di audio in un secondo e consente agli utenti di creare una voce personalizzata. MAI-Picture-2 è un modello di generazione video.
MAI-Immagine-2 è stato originariamente pubblicato su MAI Playgroundun nuovo software program di take a look at di modelli linguistici di grandi dimensioni, il 19 marzo. Ora, tutti e tre i modelli vengono rilasciati su Microsoft Foundry e i modelli di trascrizione e vocale sono disponibili anche in MAI Playground.
I modelli sono stati sviluppati da Il team di superintelligenza MAI di Microsoftun gruppo di ricerca sull’intelligenza artificiale guidato da Mustafa Suleyman, CEO di Microsoft AI, formato e annunciato nel novembre 2025.
“In Microsoft AI, stiamo costruendo un’intelligenza artificiale umanista. Abbiamo una visione distinta quando creiamo i nostri modelli di intelligenza artificiale: mettere gli esseri umani al centro, ottimizzare il modo in cui le persone comunicano effettivamente, addestrare per l’uso pratico”, ha scritto Suleyman nel articolo del blog. “Presto vedrai altri nostri modelli in Foundry e direttamente nei prodotti e nelle esperienze Microsoft.”
In un mercato LLM sempre più affollato, MAI spera che un punto di forza per questi modelli sia che siano più economici di quelli di Google e OpenAI, ha scritto la società nel submit sul weblog.
Evento Techcrunch
San Francisco, California
|
13-15 ottobre 2026
MAI-Transcribe-1 parte da $ 0,36 l’ora. MAI-Voice-1 parte da $ 22 per 1 milione di caratteri e MAI-Picture-2 parte da $ 5 per 1 milione di token per l’enter di testo e $ 33 per 1 milione di token per l’output di immagini.
Nonostante abbia rilasciato i propri modelli, Suleyman ha riaffermato l’impegno di Microsoft nella partnership con OpenAI in un’intervista intervista con VentureBeat — sebbene una recente rinegoziazione di story partnership abbia consentito a Microsoft di perseguire davvero questa ricerca sulla superintelligenza, Ha detto Suleyman a The Verge.
Microsoft ha investito più di 13 miliardi di dollari nel laboratorio di ricerca sull’intelligenza artificiale e ospita i suoi modelli nei suoi vari prodotti attraverso una partnership pluriennale. Microsoft ha la stessa posizione con i chip; produce in proprio e acquista anche da operatori esterni.












