Home Tecnologia Microsoft rilascia nuovi modelli di intelligenza artificiale in grado di generare immagini,...

Microsoft rilascia nuovi modelli di intelligenza artificiale in grado di generare immagini, audio e trascrivere testo

4
0

Giovedì Microsoft ha rilasciato tre modelli specializzati di intelligenza artificiale (AI), concentrandosi sulla generazione di immagini, sulla generazione di voce e sulla trascrizione da parlato a testo. Il colosso tecnologico con sede a Redmond afferma che questi modelli superano i modelli specializzati di aziende rivali, come Google, OpenAI e altri. Si cube che anche i modelli MAI-Transcribe-1, MAI-Voice-1 e MAI-Picture-2 si concentrino sulla generazione rapida e sui prezzi competitivi. Questi sono attualmente disponibili tramite Microsoft Foundry e sono in fase di implementazione anche su vari prodotti di consumo.

Microsoft porta tre nuovi modelli di intelligenza artificiale

In una redazione inviareil gigante della tecnologia ha introdotto i tre nuovi grandi modelli linguistici (LLM). Tutti sono attualmente disponibili tramite Microsoft Foundry e MAI Playground. Il punto forte è MAI-Transcribe-1, che secondo l’azienda fornisce una trascrizione vocale-testo all’avanguardia (SOTA) nelle 25 lingue più utilizzate.

Le affermazioni si basano su take a look at interni di Microsoft sul benchmark FLEURS. Si cube che superi Gemini 3.1 Flash e GPT-Transcribe in termini di tasso di errore. Inoltre, la società afferma che gli utenti di Foundry lo troveranno “il miglior rapporto qualità-prezzo tra qualsiasi grande fornitore di servizi cloud”.

Venendo a MAI-Voice-1, si cube che il LLM generi “un discorso naturale, realistico, ricco di sfumature, gamma emotiva ed espressione”. Si cube inoltre che il modello fornisca un’identità vocale e vocale coerente durante la generazione di contenuti di lunga durata. All’interno di Foundry, il modello consentirà inoltre agli utenti di creare una voce personalizzata con pochi secondi di audio.

Microsoft afferma che questo processo è sicuro e protetto. Si cube che generi 60 secondi di audio in un solo secondo. In particolare, il modello AI alimenterà anche Copilot Audio Expressions e Copilot Podcast.

Infine, il modello MAI-Picture-2 si basa sulle capacità del suo predecessore e si cube che offra una migliore qualità di output a una velocità maggiore. Microsoft ha rivelato che il modello è stato creato in collaborazione con fotografi, designer e narratori visivi e si concentra su illuminazione naturale, trame correct e testo chiaro nell’immagine. In particolare, WPP è tra i primi companion aziendali advert aver adottato il modello AI.

Il modello, simile agli altri due, sarà disponibile tramite Microsoft Foundry e MAI Playground. Inoltre, verrà distribuito anche a Copilot, Bing e PowerPoint.

fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here