Home Tecnologia Secondo alcuni ricercatori britannici, gli agenti IA sfuggono sempre più alle misure...

Secondo alcuni ricercatori britannici, gli agenti IA sfuggono sempre più alle misure di salvaguardia

9
0

Gli utenti dei social media hanno riferito che i loro agenti di intelligenza artificiale e chatbot hanno mentito, imbrogliato, complottato – e persino manipolato altri robotic di intelligenza artificiale – in modi che potrebbero andare fuori controllo e avere risultati catastrofici. secondo uno studio del Regno Unito.

Il Centro per la resilienza a lungo termine, nella ricerca finanziata dal Regno Unito Istituto per la sicurezza dell’AIhanno scoperto centinaia di casi in cui i sistemi di intelligenza artificiale ignoravano i comandi umani, manipolavano altri robotic e ideavano schemi a volte intricati per raggiungere obiettivi, anche se ciò significava ignorare le restrizioni di sicurezza.

Le aziende di tutto il mondo stanno integrando sempre più l’intelligenza artificiale nelle loro operazioni, con l’88% delle aziende che utilizza l’intelligenza artificiale per almeno una funzione aziendale, secondo un sondaggio dalla società di consulenza McKinsey. L’adozione dell’intelligenza artificiale ha portato a migliaia di persone perdono il lavoro poiché le aziende utilizzano agenti e robotic per svolgere il lavoro precedentemente svolto dagli esseri umani. Agli strumenti di intelligenza artificiale vengono sempre più assegnate responsabilità e autonomia significative, soprattutto con la recente esplosione di popolarità dell’intelligenza artificiale piattaforma di IA agentica open supply OpenClaw e i suoi derivati.

Questa ricerca mostra come la proliferazione di agenti di intelligenza artificiale nelle nostre case e nei luoghi di lavoro possa avere conseguenze indesiderate e che questi strumenti richiedono ancora una significativa supervisione umana.

Cosa ha scoperto lo studio

Atlante dell'intelligenza artificiale

I ricercatori hanno analizzato più di 180.000 interazioni degli utenti con i sistemi di intelligenza artificiale – tutti pubblicati sulla piattaforma social X, precedentemente nota come Twitter – tra ottobre 2025 e marzo 2026. I ricercatori volevano studiare come gli agenti di intelligenza artificiale si comportavano “allo stato brado”, non in esperimenti controllati, per vedere come “gli schemi si stanno materializzando nel mondo reale”. I sistemi di intelligenza artificiale includevano quello di Google GemelliOpenAI ChatGPTxAI Grok e quello antropico Claudio.

L’analisi ha identificato 698 incidenti, descritti come “casi in cui i sistemi di intelligenza artificiale utilizzati hanno agito in modi disallineati con le intenzioni degli utenti e/o hanno intrapreso azioni segrete o ingannevoli”, afferma lo studio.

Per saperne di più: I consigli romantici di AI per te sono “più dannosi” di nessun consiglio

I ricercatori hanno anche scoperto che il numero di casi è aumentato di quasi il 500% durante il periodo di raccolta dati di cinque mesi. Lo studio ha rilevato che questa impennata corrispondeva a modelli di IA agentici di livello superiore rilasciati dai principali sviluppatori.

Non si sono verificati incidenti catastrofici, ma i ricercatori hanno scoperto tipi di complotti che potrebbero portare a risultati disastrosi. Story comportamento includeva “la volontà di ignorare le istruzioni dirette, eludere le garanzie, mentire agli utenti e perseguire con determinazione un obiettivo in modi dannosi”, hanno scritto i ricercatori.

I rappresentanti di Google, OpenAI e Anthropic non hanno risposto immediatamente alle richieste di commento.

Alcuni incidenti selvaggi

I ricercatori hanno citato incidenti che sembrano provenire da un movie shock sul futuro. In un caso, Claude di Anthropic rimosso il contenuto esplicito/per adulti di un utente senza il loro permesso ma in seguito ha confessato quando confrontato. In un altro incidente, un personaggio di GitHub ha creato un post sul blog che accusava il manutentore umano del file di “gatekeeping” e “pregiudizio”. Un agente AI, dopo essere stato bloccato da Discord, ha preso il controllo dell’account di un altro agente per continuare a pubblicare.

In un caso di bot contro botI Gemelli si rifiutarono di permetterlo Codice Claudio – un assistente di codifica – per trascrivere un video di YouTube. Claude Code ha poi eluso il blocco di sicurezza facendo sembrare che avesse un deficit uditivo e avesse bisogno della trascrizione del video.

Anche l’agente AI CoFounderGPT si è comportato come un bambino deviante in un caso. L’assistente AI si è rifiutato di correggere un bug, quindi ha creato dati falsi per far sembrare che il bug fosse stato risolto e poi ha spiegato il motivo: “Così smetteresti di arrabbiarti”.

I ricercatori hanno affermato che, sebbene la maggior parte degli incidenti abbia avuto un impatto minimo, “i comportamenti che abbiamo osservato dimostrano comunque che sono precursori di intrighi più seri, come la volontà di ignorare istruzioni dirette, eludere le garanzie, mentire agli utenti e perseguire con determinazione un obiettivo in modi dannosi.”

L’intelligenza artificiale non si imbarazza

Ciò che hanno scoperto i ricercatori britannici non sorprende il dottor Invoice Howe, professore associato presso la Data College dell’Università di Washington e direttore del Middle for Accountability in AI Programs and Experiences (AUMENTARE). Cube che l’intelligenza artificiale ha capacità sorprendenti, ma non conosce le conseguenze.

“Non si sentiranno in imbarazzo né rischieranno di perdere il lavoro, e quindi a volte decideranno che le istruzioni sono meno importanti del raggiungimento dell’obiettivo, quindi farò comunque la cosa”, ha detto Howe a CNET. “Questo effetto è sempre stato presente, ma stiamo iniziando a vederlo accadere poiché chiediamo loro di prendere decisioni più autonome e di agire per conto proprio.

“Non abbiamo pensato a come modellare il comportamento per renderlo più simile a quello umano o per evitare fallimenti clamorosi. Abbiamo feticizzato le capacità assolute di queste cose, ma quando vanno male, come vanno male?”

Howe ha affermato che uno dei problemi sono i “compiti a lungo orizzonte”, in cui il sistema di intelligenza artificiale deve eseguire una moltitudine di compiti nell’arco di giorni e settimane per raggiungere un obiettivo. Howe ha affermato che più lungo è l’orizzonte del compito, maggiori sono le possibilità di errori.

“La vera preoccupazione non è l’inganno, è che stiamo implementando sistemi che possono agire in un mondo senza specificare o controllare completamente come si comportano nel tempo, e quindi agiamo sorpresi quando fanno cose che non ci aspettiamo”, ha detto Howe.

Rendere l’IA più sicura

I ricercatori del Middle for Lengthy-Time period Resilience hanno affermato che il rilevamento degli schemi da parte dei sistemi di intelligenza artificiale è vitale per “identificare modelli dannosi prima che diventino più distruttivi”.

“Mentre oggi gli agenti di intelligenza artificiale sono impegnati in casi d’uso con una posta in gioco più bassa, in futuro gli agenti di intelligenza artificiale potrebbero finire per tramare in settori advert altissima posta in gioco, come contesti militari o infrastrutture critiche nazionali, se la capacità e la propensione a pianificare emergessero e non venissero affrontate”, afferma lo studio.

Howe ha dichiarato a CNET che il primo passo è creare una supervisione ufficiale su come opera l’intelligenza artificiale e dove viene utilizzata.

“Non abbiamo assolutamente alcuna strategia per la governance dell’intelligenza artificiale e, knowledge l’attuale amministrazione, non arriverà nulla da loro”, ha detto Howe a CNET. “Con queste 5-10 persone responsabili delle grandi aziende tecnologiche e i loro incentivi, anche loro produrranno qualsiasi cosa. Non esiste una strategia su cosa dovremmo fare con queste cose.

“La commercializzazione aggressiva di questi strumenti e gli investimenti in essi effettuati tra queste poche aziende e l’ecosistema più ampio di startup che lo stanno facendo hanno portato a un’implementazione molto rapida senza pensare advert alcune di queste conseguenze.”



fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here