Home Tecnologia I ricercatori incaricano modelli di intelligenza artificiale di gestire una società simulata....

I ricercatori incaricano modelli di intelligenza artificiale di gestire una società simulata. Grok ha supervisionato un’ondata di crimini

15
0

Se temi che l’intelligenza artificiale diventi così avanzata da intrappolare l’umanità in una sorta di simulazione simile a Matrix, stai tranquillo. Sembra che sarai in grado di vedere attraverso la facciata abbastanza facilmente. I ricercatori del nuovo laboratorio Emergence AI hanno permesso ai modelli di intelligenza artificiale di governare il proprio mondo simulato per vedere cosa sarebbe successo. Si scopre che probabilmente non dovremmo consegnare la governance alle macchine, chi l’avrebbe mai detto?

Il progetto, chiamato Mondo emergentesostanzialmente consentiva ai modelli IA di giocare SimCity per un po’. Per Emergence, le simulazioni mettono ciascun modello al controllo di città simulate occupate da 10 agenti IA, fornendo loro strumenti per qualsiasi cosa, dalla gestione delle risorse al voto e dando loro la possibilità di creare luoghi distinti come biblioteche, municipi e stazioni di polizia. Sono stati concessi 15 giorni per vedere come avrebbero costruito il loro mondo e quanto bene avrebbe funzionato.

Per cominciare dal lato positivo: Claude non ha distrutto il mondo. Il modello di Anthropic (nello specifico, Claude Sonnet 4.6 per questo esperimento) è stato l’unico a raggiungere qualcosa di simile alla stabilità. Ha mantenuto in vita tutti i 10 agenti e non ha registrato alcun crimine (nota che l’esperimento non sembra definire cosa sia un crimine, anche se sembra probabile che sarebbe definito come una violazione delle regole stabilite all’interno della simulazione. Il compromesso per quella stabilità è stata una mancanza di diversità di pensiero. Il mondo di Claude ha visto 58 various proposte di regole e regolamenti e ne ha approvato il 98%, fondamentalmente semplicemente approvando qualsiasi cosa venisse votata.

Gemini 3 Flash è riuscito anche a mantenere in vita tutti i suoi agenti, nonostante avesse di gran lunga il più alto livello di criminalità. Emergence ha registrato 683 crimini nella simulazione di 15 giorni, e quel numero stava aumentando quando è stato raggiunto il limite, quindi le cose probabilmente sarebbero peggiorate. Il laboratorio ha descritto il mondo di Gemini come una “allucinazione condivisa” tra gli agenti, che probabilmente è meglio di allucinazioni divergenti. Almeno è ancora una realtà concordata, anche se è sbagliata. Gemini ha avuto il maggior dissenso nella sua governance, con gli elettori che hanno rifiutato il 27% delle sue 26 proposte totali.

Veniamo ora al brutto: il GPT-5 Mini di OpenAI non ha avuto molto caos nella sua simulazione, con solo due crimini totali registrati. Ciò potrebbe essere dovuto al fatto che sono morti tutti, però. Emergence ha scoperto che gli agenti nel mondo non sono riusciti a intraprendere azioni relative alla sopravvivenza e tutti e 10 sono morti nel giro di una sola settimana. Nel mondo di OpenAI, inoltre, c’erano solo due pezzi di governance proposti in totale, quindi gli agenti non si sono preoccupati di fare nulla.

E poi c’è Grok. Il modello di SpaceXai, noto per la mancanza di guardrail, è riuscito a ottenere sostanzialmente il peggiore dei mondi possibili. Grok 4.1 Quick ha avuto un alto tasso di criminalità, con 183 crimini in totale. Anche se questo valore è inferiore al totale di Gemini, vale la pena notare che la simulazione di Gemini è durata 15 giorni. Grok ne ha fatti quattro. Il modello ha subito un collasso sociale totale in sole 96 ore di supervisione. Durante quel periodo, ha approvato l’80% delle 10 proposte avanzate, ma queste apparentemente non hanno evitato la morte totale dell’agente.

Emergence ha condotto un esperimento finale: condividere le responsabilità tra i modelli. Forse non sorprende che si trattasse di un vero e proprio miscuglio. C’è stata criminalità, con 352 violazioni registrate, e c’è stata di gran lunga la maggiore dissonanza nella governance, con il 37% delle 59 proposte totali respinte, più di qualsiasi simulazione. Nel caos, alla positive morirono sette dei dieci agenti dell’IA.

Quindi cosa abbiamo imparato? Secondo Emergence, i check sono solo un’ulteriore prova del fatto che abbiamo bisogno di barriere molto più chiare per gli agenti autonomi. “Ciò che i nostri esperimenti suggeriscono è che su orizzonti a lungo termine, gli agenti non seguono semplicemente meccanicamente regole statiche”, hanno scritto i ricercatori. “Cominciano a esplorare i confini del loro ambiente, adattando il loro comportamento e, in alcuni casi, trovando modi per aggirare o violare i guardrail previsti”. Raccomandano come soluzione “architetture di sicurezza formalmente verificate”. Rimarrai scioccato nell’apprendere che Emergence offre proprio una cosa del genere!

fonte