Home Tecnologia Google presenta il modello AI “any-to-any” di Gemini Omni: cosa dovrebbero sapere...

Google presenta il modello AI “any-to-any” di Gemini Omni: cosa dovrebbero sapere le aziende

18
0

Anche se lo period già scoperto da settimane da intrepidi utenti esperti di intelligenza artificiale fa, quello di Google nuovo modello Gemini Omni ha debuttato ufficialmente oggi alla conferenza annuale degli sviluppatori I/O dell’azienda a Mountain View, in California, e segna un paradigma significativamente nuovo nel più ampio mercato dell’intelligenza artificiale e della tecnologia.

Questo perché essendo “omni” (dal latino onnipotente — che significa “tutto”) suggerirebbe che questo sia il primo modello multimodale veramente nativo di Google, ovvero “un modello in grado di creare qualsiasi cosa da qualsiasi enter, a partire dal video”.

Il modello segna il tentativo di Google di comprimere lo stack generativo multimodale – testo-immagine, immagine-video, video-video, generazione audio – in un unico modello di base con un’unica superficie di modifying.

La grande domanda per i chief aziendali è: dovresti trasferire parte del tuo stack AI su Gemini Omni adesso?

Sfortunatamente, la verità è che potresti non essere ancora in grado di farlo: il modello è disponibile solo per i singoli utenti tramite i piani di abbonamento AI di Google a partire dal piano “AI Plus” da $ 20 per utente al mese. Attualmente è possibile accedervi su Sito web dei Gemelli e app mobili, basate sul Net di Google Fluire Suite di modifying di immagini e video AI e Pantaloncini di YouTube.

Sebbene l’azienda affermi che alla effective sarà disponibile tramite un’interfaccia di programmazione dell’applicazione (API), su cui molte aziende fanno affidamento per le loro esigenze di intelligenza artificiale, non è ancora pronta.

Inoltre, Google non ha emesso alcun benchmark pubblico per Gemini Omni (ancora). Tuttavia, le organizzazioni di terze parti lo metteranno senza dubbio alla prova su varie attività e metriche di qualità segnalate dagli utenti. Nel frattempo, però, la sua qualità e velocità rimangono in qualche modo soggettive.

Ma, date le capacità e la modifica più rapida consentite dal nuovo modello Omni, i singoli membri del tuo group dovrebbero probabilmente prendere in seria considerazione il passaggio advert esso, soprattutto se lavorano creando immagini per diagrammi tecnici, materiali di advertising and marketing e di comunicazione, corsi di formazione e formazione aziendale, materiale di vendita e praticamente tutto ciò che coinvolge immagini.

Ciò che Omni è in realtà

Omni è il capitolo successivo del lavoro che ha prodotto Nano Banana, il modello di generazione e modifying di immagini che Google ha lanciato circa un anno fa.

Il primo modello della famiglia, Gemini Omni Flash, accetta qualsiasi combinazione di testo, immagini, audio e video come enter e produce output di alta qualità attraverso le stesse modalità, il tutto da un unico modello anziché da un relè di sistemi specializzati.

Google afferma che il modello è “nativamente multimodale da zero”, il che conta meno come copia di advertising and marketing che come affermazione architettonica: un modello unificato può ragionare tra le modalità nello stesso passaggio successivo, il che generalmente si traduce in modifiche più coerenti, meno artefatti della pipeline e una superficie API molto più pulita per gli sviluppatori.

OpenAI ha avviato questa tendenza nel maggio 2024 con il rilascio di GPT-4o, il suo primo modello nativamente “omni”, anch’esso addestrato da zero per essere in grado di analizzare e generare più tipi diversi di contenuti, dal testo al codice, immagini e audio. Tuttavia, non supportava la generazione di video e alla effective il modello fu deprecato a seguito di segnalazioni di servilismo e persino di utenti chiedendo a OpenAI di mantenerlo dopo aver sviluppato relazioni parasociali con esso.

Gemini Omni rischia di suscitare un seguito altrettanto devoto? Resta da vedere.

Una grande differenza è che il modello di interazione del titolo è l’modifying video conversazionale. Ogni istruzione “si basa sull’ultima” e le indicazioni passate persistono durante le svolte in modo che il video si evolva in modo coerente man mano che l’utente ripete.

Gli esempi pratici evidenziati da Google includono cambiare il mondo all’interno di una clip, reinventare un’azione o l’angolazione della telecamera, perfezionare le sequenze su più turni e generare contenuti in stile esplicativo da brevi istruzioni.

Google enfatizza anche il miglioramento della fisica – gravità, energia cinetica, dinamica dei fluidi – che è il tipo di dettaglio che separa “sembra un video AI” da “sembra un filmato”.

Implementazione, prezzi e domanda sull’API

La prima cosa che i chief aziendali dovrebbero leggere attentamente è il piano di implementazione. Omni Flash sarà attivo oggi all’interno dell’app Gemini per gli abbonati statunitensi nei livelli AI Plus, AI Professional e AI Extremely, incluso il nuovo piano AI Extremely da $ 100 al mese annunciato da Google nello stesso evento.

Google afferma che verrà distribuito agli sviluppatori tramite le API Vertex AI “nelle prossime settimane”. Questo divario è significativo. Fino a quando l’API Vertex non sarà generalmente disponibile, Omni sarà effettivamente uno strumento per consumatori e prosumer.

I progetti pilota aziendali che vanno oltre la sperimentazione basata sulla singola postazione dovrebbero attendere l’API, sia perché è lì che risiedono gli SLA aziendali di Google e gli impegni di gestione dei dati, sia perché il video generativo di livello produttivo senza un’interfaccia programmatica non è un punto di partenza.

Il suo prezzo attraverso l’API per milione di token (presumibilmente) determinerà anche la sua fattibilità come prodotto aziendale al di fuori delle produzioni cinematografiche/televisive/di intrattenimento e artistiche.

Per i decisori che nel frattempo valutano l’economia della sede, il nuovo livello AI Extremely è posizionato specificamente per sviluppatori, responsabili tecnici, lavoratori della conoscenza e creatori avanzati, con accesso prioritario a Google Antigravity, limiti di utilizzo più elevati e accesso Omni Flash in bundle.

Per i piccoli group creativi con scadenze ravvicinate, questo potrebbe essere il modo più rapido per valutare il modello prima dell’arrivo dell’API.

I casi d’uso aziendali che contano davvero

È facile impostare per impostazione predefinita “video di advertising and marketing” come caso d’uso, ma la proposta di valore di Omni per le aziende è più ampia se lo consideri un motore video e multimediale programmabile piuttosto che un’app creativa:

  • Vendite e advertising and marketing: generazione rapida di varianti di annunci, creatività localizzate e demo di prodotti senza cicli di agenzia per risorsa.

  • Comunicazioni interne, apprendimento e sviluppo (L&D): video esplicativi, moduli di onboarding e process dettagliate sulle politiche prodotti da non specialisti.

  • Assistenza clienti e documentazione: esplicatori visivi dinamici e condizionati dalle question allegati agli articoli della guida.

  • Prodotto e ingegneria: visualizzazione di simulazioni, process dettagliate dell’interfaccia utente e video concettuali per le revisioni delle specifiche.

  • Operazioni sul campo: brevi clip didattiche specifiche per la situazione generate su richiesta.

Ciò che cambia con Omni rispetto alla precedente generazione di strumenti è l’unificazione. Molte aziende hanno unito un flusso di lavoro con modelli di testo in immagine, immagine in video, sincronizzazione labiale e vocale, ciascuno con il proprio contratto, fatturazione e percorso dati. Un singolo modello Vertex supportato dall’intelligenza artificiale comprime approvvigionamento e osservabilità in un unico posto, presupponendo che l’API finale fornisca throughput e latenza di livello produttivo.

La storia della governance è la parte più sottovalutata

Per CIO e CISO, la sezione più importante dell’annuncio di Google non è la scheda modello; è la provenienza e il lavoro di sicurezza del contenuto che viene spedito insieme advert esso.

Ogni video generato da Omni porta la filigrana digitale SynthID di Google. Google sta espandendo le credenziali di contenuto C2PA nei suoi strumenti generativi e lanciando un’API di rilevamento dei contenuti AI sulla piattaforma agente che consente alle aziende di identificare i contenuti generati dall’intelligenza artificiale sia da Google che da altri modelli popolari.

Le integrazioni dei associate annunciate nello stesso evento, tra cui Shutterstock, Avid (in Professional Instruments) e almeno un importante newswire, indicano dove sta andando lo commonplace.

Per le imprese, questo è importante tre modi concreti:

  1. group legali e di conformità una traccia di controllo difendibile per i media generati dall’intelligenza artificiale.

  2. Consente ai group di sicurezza del marchio di farlo rilevare il materiale generato dall’intelligenza artificiale che entra nelle pipeline di contenuti di terze parti.

  3. E questo fornisce una risposta difendibile per le autorità di regolamentazione nelle giurisdizioni, come l’UEche stanno inasprendo le regole sulla divulgazione dei media sintetici.

Esiste anche un programma “Avatar personali” che consente ai creatori di registrare brevi video per autorizzare l’uso della propria voce e delle proprie sembianze nei contenuti generati, come i chief e i dipendenti di Google si sono mostrati oggi in submit incentrati sull’I/O con le loro somiglianze generate dall’intelligenza artificiale.

Ciò lo mette in diretta concorrenza con Synthesia, un unicorno AI con sede nel Regno Unito focalizzato principalmente su video e avatar AI sicuri per l’azienda.

Per le aziende che prendono in considerazione video esecutivi, avatar di formazione o contenuti di portavoce del marchio, il modello di consenso qui è il giusto punto di partenza, ma i contratti e le politiche di gestione dei diritti dovranno estendersi per coprirlo.

Rischi da segnalare

I principali rischi di Omni sono familiari ma vale la pena ribadirli.

Il panorama competitivo è affollato dalla già citata Synthesia, dall’acclamato modello Seedance della società madre TikTok, ByteDance, dai modelli Kling AI di Kuaishou Know-how e dal campo open supply in rapido miglioramento, tutti competono per gli stessi flussi di lavoro.

Bloccarsi su un singolo modello video è una vera preoccupazione quando la qualità dell’output sta ancora facendo passi da gigante ogni trimestre.

La latenza e i costi per la generazione di video a quantity di produzione rimangono non dimostrati al di fuori delle demo controllate.

Inoltre, lo standing giuridico dei dati di addestramento per i video generativi è instabile in molteplici giurisdizioni; le aziende dovrebbero richiedere un linguaggio di indennizzo chiaro prima di distribuire i video generati nei canali rivolti ai clienti.

Inoltre, collaboratore di VentureBeat e Lo YouTuber dell’intelligenza artificiale Sam Witteveen, CEO del fornitore di machine learning aziendale Red Dragon AIha ricevuto l’accesso anticipato a Gemini Omni e ha segnalato che le restrizioni sui contenuti (che alcuni ritengono essere censura) sono piuttosto rigide, potenzialmente limitando e inibendo tutti i potenziali casi d’uso che un’azienda vorrebbe perseguire.

Pensieri per le imprese che valutano l’adozione

Vale la pena provare Omni, ma la struttura del progetto pilota è importante.

Per la maggior parte delle aziende, la mossa giusta nei prossimi 30-60 giorni è quella di finanziare un piccolo esperimento autorizzato con una o due sedi AI Extremely nel advertising and marketing o L&D, mentre i group della piattaforma e della sicurezza utilizzano quella pista per prepararsi per l’API Vertex AI: definire i requisiti di residenza dei dati, impostare la verifica SynthID e C2PA nella pipeline dei contenuti e supportare l’API AI Content material Detection insieme agli strumenti di governance dei media esistenti.

Tratta l’implementazione del client come un’anteprima UX, non un piano di produzione. Quando arriverà l’API, le aziende che hanno già svolto il lavoro di governance saranno quelle che sposteranno Omni nei flussi di lavoro reali mentre tutti gli altri stanno ancora elaborando la politica.

Omni non è, di per sé, un motivo per rivedere una strategia di intelligenza artificiale aziendale. Ma è un segnale forte che lo stack generativo multimodale si sta consolidando in singoli modelli con provenienza first-party integrata – e questo è un cambiamento che i decisori tecnici dovrebbero pianificare adesso.

fonte