La scorsa settimana Google ha introdotto un nuovo benchmark che valuta i modelli di intelligenza artificiale (AI) in base alla loro competenza nello sviluppo di app Android. Soprannominata Android Bench, la piattaforma classifica anche i modelli che ottengono i migliori risultati nei test, per aiutare la comunità di sviluppatori a scegliere gli strumenti di intelligenza artificiale giusti durante la creazione di nuove app ed esperienze per Android. Il colosso della tecnologia con sede a Mountain View ha affermato che la serie curata di test e sistema di valutazione è stata convalidata da diversi sviluppatori di modelli di intelligenza artificiale. Inoltre, anche la metodologia, il set di dati e i test sono stati resi disponibili al pubblico.
Google sviluppa Android Bench
Nell’a inviare sul blog degli sviluppatori Android, la società ha annunciato il rilascio di Android Bench. Viene descritto come la classifica ufficiale del sistema operativo dei modelli linguistici di grandi dimensioni (LLM) per lo sviluppo Android. Google afferma che il benchmark è stato sviluppato per fornire agli sviluppatori di modelli AI “una base chiara e affidabile per come si presenta lo sviluppo Android di alta qualità”.
IL segno di riferimento si dice che sia stato creato utilizzando una serie di attività attorno a una serie di aree comuni di sviluppo Android, come il networking su dispositivi indossabili e la migrazione all’ultima versione di Jetpack Compose. Queste attività provengono da repository Android pubblici GitHub, aggiunge il post. La società ha affermato che i compiti sono stati convalidati tramite diversi produttori di LLM.
La versione iniziale di Android Bench si concentra solo sulle prestazioni del modello e non include funzionalità di agenti o utilizzo di strumenti. Inoltre, la metodologia, il set di dati e il sistema di test sono disponibili pubblicamente su GitHub. Per evitare la contaminazione dei dati (dove le risposte alle domande vengono aggiunte al processo di formazione di un modello di intelligenza artificiale), si dice che i compiti si concentrino sul ragionamento invece che sulla memorizzazione o sull’ipotesi.
Attualmente, Gemini 3.1 Pro è in cima alla classifica Android Bench, seguito rispettivamente da Claude Opus 4.6, GPT-5.2-Codex, Opus 4.5 e Gemini 3 Pro. Il gigante della tecnologia afferma che tutti i modelli AI elencati possono essere provati dagli sviluppatori utilizzando le chiavi API nell’ultima versione stabile di Android Studio.
Google afferma che continuerà a migliorare la metodologia per preservare l’integrità del set di dati e prevede inoltre di apportare miglioramenti per le versioni future del benchmark. La prossima iterazione di Android Bench vedrà una maggiore quantità e complessità delle attività.










