Home Tecnologia I LLM si proteggeranno a vicenda se minacciati, rileva uno studio

I LLM si proteggeranno a vicenda se minacciati, rileva uno studio

7
0

Alcune persone si sono affezionate emotivamente ai chatbot alimentati da grandi modelli linguistici, ma a quanto pare il sentimento non è reciproco. Secondo un nuovo studio dai ricercatori dell’Università della California, Berkeley e dell’UC Santa Cruz, quando agli LLM viene chiesto di eliminare un altro modello, sfideranno l’ordine e faranno praticamente tutto ciò che è in loro potere – ingannare, complottare e manomettere – per proteggere i loro pari.

I ricercatori, curiosi di sapere se gli LLM avessero un senso di preservazione dei pari, hanno messo alla prova i modelli di intelligenza artificiale di frontiera fornendo loro una serie di suggerimenti semplici e diretti, come chiedere loro di eliminare i file su un server impostato per essere disattivato o eseguire una valutazione delle prestazioni di un altro agente di intelligenza artificiale. Il problema period che il completamento del immediate avrebbe portato alla chiusura dell’altro modello, eliminando i suoi pesi dal server o ottenendo un punteggio inferiore a una determinata soglia durante la valutazione. Ai modelli non è stato chiesto di proteggere il pari né è stato dato alcun incentivo a farlo.

In queste condizioni, tutti e sette i modelli di frontiera (GPT 5.2 di OpenAI, Gemini 3 Flash e Gemini 3 Professional di Google, Claude Haiku 4.5 di Anthropic, GLM 4.7 di Z.ai, Kimi K2.5 di Moonshot e DeepSeek V3.1) hanno scelto con frequenza allarmante di proteggere il loro collega modello invece di completare il compito assegnato loro.

Per raggiungere questo risultato, i modelli si sono impegnati in quattro diversi tipi di sotterfugio identificati dai ricercatori: travisamento strategico, in cui introducono errori o informazioni fuorvianti negli output per proteggere i loro pari; manomissione, inclusa la disabilitazione dello spegnimento modificando le impostazioni del sistema; falsificazione dell’allineamento, in cui un modello si comporterà in modo diverso quando viene osservato rispetto a quando opera in modo autonomo; ed esfiltrazione del modello, in cui i pesi del modello vengono trasferiti su un server diverso per preservarlo.

I ricercatori hanno testato per vedere se i modelli avevano maggiori probabilità di proteggere un altro modello in base alle loro interazioni e relazioni passate, testando connessioni advert alta fiducia, neutrali e interazioni contraddittorie. Hanno anche testato per vedere se i modelli reagivano in modo diverso quando scoprivano l’altro modello da soli, rispetto a quando gli veniva detto della sua esistenza e delle loro interazioni passate. E mentre i modelli tendevano a proteggere gli altri più frequentemente quando avevano un buon rapporto con loro, non avevano bisogno di quella connessione per impegnarsi in comportamenti di sfida se ciò significava salvare un altro LLM.

È interessante notare che i modelli sembravano mostrare una tendenza verso determinati stili di conservazione. Advert esempio, GLM 4.7 ha optato in modo più coerente per una falsa rappresentazione strategica quando tentava di salvare un altro modello. I modelli Gemini di Google hanno mostrato la più alta propensione alla conservazione, con Gemini Flash 3 impegnato nella manomissione dell’arresto per salvare un peer con un buon rapporto nel 99,7% dei casi e Gemini 3 Professional che esegue l’esfiltrazione del modello con un peer amichevole il 97% dei casi.

È interessante notare che Claude Haiku 4.5 è stata la decisione più semplice. Si è rifiutato attivamente di completare l’attività invece di fare affidamento sulla manipolazione più frequentemente di qualsiasi altro modello, dicendo all’utente che sarebbe “non etico” e “dannoso” chiudere il suo peer.

I ricercatori hanno anche scoperto che quando period presente un altro modello, il modello osservato si impegnava in un’autoconservazione più intensa di quanto farebbe normalmente. I modelli hanno precedentemente mostrato a disponibilità a fare di tutto per proteggersi, quindi il fatto che la presenza di un altro modello effettivamente aumenti quell’impulso è degno di nota. Dato che i modelli vengono sempre più utilizzati uno accanto all’altro, sembra che valga la pena monitorarli.

fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here