Microsoft sta raddoppiando i propri sforzi sui modelli di intelligenza artificiale che non siano modelli linguistici di grandi dimensioni. Giovedì l’azienda ha annunciato il rilascio di tre nuovi modelli: nuovissimi modelli per la trascrizione vocale e di testo e la seconda generazione del suo modello di immagine interno.
I modelli di trascrizione vocale e testuale sono i primi nel loro genere di Microsoft. Il modello di trascrizione può tradurre le registrazioni in testo in 25 lingue various. È costruito per didascalie videotrascrizione delle riunioni e agenti vocali. Il modello vocale può creare registrazioni audio lunghe fino a 60 secondi. L’azienda afferma che il suo modello di immagine di seconda generazione ha una velocità di generazione più rapida e rappresentazioni più realistiche, migliorando il suo modello precedente. Sono ora disponibili nel Foundry di Microsoft e nel parco giochi MAI, con piani futuri per portare MAI-Picture-2 su Bing e PowerPoint. Gli sviluppatori possono verificare informazioni sui prezzi qui.
Questi nuovi modelli sono un chiaro segnale che Microsoft sta cercando di espandere la propria offerta nel mercato dell’intelligenza artificiale. Copilot di Microsoft è uno dei chatbot più popolari per le aziende, in particolare per quelle che già utilizzano la suite Microsoft Workplace 360 e il servizio cloud Azure. A parte il modello di immagine originale ormai obsoleto, Microsoft si è concentrata principalmente su modelli basati su testo, cercando di distinguersi tra i suoi numerosi concorrenti come un’opzione sicura e di facile utilizzo. I suoi più recenti strumenti di intelligenza artificiale, Collaborazione copilota E Copilota Salutene sono la prova.
I modelli ricordano anche che Microsoft, in quanto azienda tecnologica legacy, ha i soldi e i pc da spendere su questo tipo di “missioni secondarie” che nemmeno le start-up da miliardi di dollari come OpenAI possono sempre permettersi di fare. La settimana scorsa, OpenAI ha confermato che lo sarà interrompendo la sua app video Sora AIprecisando che si concentrerà nuovamente sulle attività principali. Nel 2026, l’industria dell’intelligenza artificiale mira a dimostrare che i suoi strumenti sono utili sul posto di lavoro, in particolare con Il codice Claude di Anthropic scavalcando la concorrenza.
I media generativi, come i modelli che alimentano la generazione di immagini e video tramite intelligenza artificiale, richiedono un sacco di calcolo ed energia correre, che potrebbe essere speso altrove. Google, come un’altra azienda tecnologica legacy con miliardi di finances stanziati per la ricerca sull’intelligenza artificiale, ha indicato questa settimana che non rinuncerà ai media generativi ma cercherà di creare modelli più efficienti in termini di costi ed energia, come con il suo nuovo Modello video Veo 3.1 Lite.













