Google, giovedì, ha presentato il modello di intelligenza artificiale (AI) Gemma 4. Il primo della famiglia Gemma 4 presenta numerosi miglioramenti rispetto ai suoi predecessori. Mentre Gemma 3 si concentrava sulle capacità di ragionamento testuale e visivo, il colosso tecnologico con sede a Mountain View afferma che l’ultima iterazione apporta capacità agentive e ragionamento avanzato al modello open supply. Disponibile in quattro various dimensioni, l’ultimo Massive Language Mannequin (LLM) sarà disponibile su tutte le piattaforme per sviluppatori di Google e potrà essere scaricato tramite repository di terze parti per essere eseguito localmente.
Google rilascia Gemma 4
Nell’a articolo del blogil gigante della tecnologia ha annunciato e dettagliato il modello AI Gemma 4. Il modello è disponibile in quattro various dimensioni e configurazioni, tra cui Efficient 2B (E2B), Efficient 4B (E4B), 26B Combination of Specialists (MoE) e 31B Dense. Anche la finestra di contesto è stata aumentata a 256.000 token, rispetto ai 128.000 token di Gemma 3. Inoltre, è stata addestrata nativamente in più di 140 lingue.
Un grande cambiamento rispetto alla generazione precedente è che Gemma 4 è ora disponibile con la licenza Apache 2.0 consentita, che ne consente l’utilizzo sia per scopi accademici che commerciali. LLM può essere utilizzato direttamente tramite Google AI Studio e Vertex AI oppure può essere scaricato dagli elenchi Hugging Face, Kaggle e Ollama dell’azienda.
Tre funzionalità straordinarie di Gemma 4 sono il supporto per il ragionamento avanzato, i flussi di lavoro degli agenti e la generazione di codice. Con un ragionamento avanzato, ora è capace di pianificazione in più fasi e di logica profonda e si cube che mostri miglioramenti nella matematica e nel seguire le istruzioni. Il modello è anche in grado di effettuare chiamate funzionali e output JSON strutturato, consentendo agli utenti di potenziare i propri agenti AI con il modello.
Inoltre, Google afferma che LLM supporta codice offline di alta qualità, sebbene non sia chiaro a che punto si collochi rispetto agli strumenti proprietari, come Claude Code e Codex. Tuttavia, il chiaro vantaggio qui è l’utilizzo gratuito e la privateness e la sicurezza sul dispositivo.
Un’altra caratteristica degna di nota embrace l’elaborazione nativa di video e immagini con supporto per risoluzioni variabili. Google afferma che il modello supporta attività visive come l’OCR e la comprensione dei grafici. Oltre a questo, i modelli E2B ed E4B supportano anche l’enter audio nativo per il riconoscimento e la comprensione del parlato.









