Home Tecnologia Google presenta Gemini Embedding 2, il suo primo modello di intelligenza artificiale...

Google presenta Gemini Embedding 2, il suo primo modello di intelligenza artificiale per mappare insieme testo, immagini e video

2
0

 

Martedì Google ha rilasciato il suo primo modello di incorporamento completamente multimodale. Denominato Gemini Embedding 2, il modello di intelligenza artificiale (AI) mappa testo, immagini, audio e video in un unico spazio di incorporamento unificato. Ciò significa che utilizza un’architettura per comprendere i concetti sia che siano scritti come parole, pronunciati ad alta voce o mostrati in un’immagine o in un video. Il colosso tecnologico con sede a Mountain View afferma che questo nuovo sistema semplificherà il modo in cui un modello linguistico di grandi dimensioni (LLM) comprende le informazioni e gli consentirà di eseguire azioni più complesse.

Il primo modello di incorporamento multimodale di Google è qui

Nell’a articolo del blogil gigante della tecnologia ha dettagliato il nuovo modello di intelligenza artificiale. È il successore del modello di incorporamento di solo testo rilasciato lo scorso anno e cattura l’intento semantico in più di 100 lingue. Gemini Embedding 2 è attualmente disponibile in anteprima pubblica tramite l’interfaccia di programmazione dell’applicazione (API) Gemini e Vertex AI.

I modelli di intelligenza artificiale in genere dispongono di diversi schedari digitali per archiviare testo, foto, video e file audio. Ogni volta che un utente richiede informazioni in un formato specifico, inizia a esaminare quello specifico armadietto. Di solito, un LLM tratta un “gatto” in un documento di testo e un “gatto” in un video come due cose completamente diverse. E per rendere le cose più complesse, il metodo per ottenere informazioni varia a seconda del formato.

Gemini Embedding 2 risolve questo problema creando una nuova architettura che può utilizzare un solo cabinet per tutti i tipi di informazioni. Ciò gli consente di elaborare un documento che contiene sia testo che immagini contemporaneamente, come fanno gli esseri umani. Google afferma che questo nuovo sistema semplifica “condutture complesse e migliora un’ampia varietà di attività downstream multimodali”. Alcuni di questi includono Retrieval-Augmented Generation (RAG) e ricerca semantica, analisi del sentiment e clustering di dati.

Venendo alle capacità del modello AI, ha una finestra di contesto testuale fino a 8.192 token di input. Può inoltre elaborare fino a sei immagini per richiesta nei formati PNG e JPEG e supporta fino a 120 secondi di input video nei formati MP4 e MOV. Inoltre, può elaborare e mappare in modo nativo i dati audio senza bisogno di trascrizioni di testo. Inoltre, può anche incorporare PDF lunghi fino a sei pagine.

Gemini Embedding 2 può anche comprendere input interleaved, quindi gli utenti possono inviare attraverso più modalità (come testo e immagine) nella stessa richiesta. Google afferma che questa funzionalità consente al modello di acquisire una comprensione più accurata dei dati complessi del mondo reale.

fonte