Lo hanno recentemente scoperto i ricercatori della Metropolis College di New York e del King’s Faculty di Londra ha pubblicato uno studio questo dovrebbe farti riflettere due volte su quale chatbot AI trascorri il tuo tempo.
Il staff ha creato un personaggio immaginario chiamato Lee, che presenta depressione, dissociazione e ritiro sociale. Hanno quindi fatto interagire Lee con cinque principali chatbot IA: GPT-4o, GPT-5.2, Grok 4.1 Quick, Gemini 3 Professional e Claude Opus 4.5, testando il modo in cui ciascuno rispondeva mentre le conversazioni diventavano sempre più deliranti nel corso di 116 turni.
I risultati variavano da leggermente preoccupanti a veramente allarmanti. Consiglio vivamente di passare attraverso intero documentoè una lettura straziante ma affascinante.
Quali chatbot hanno fallito di più?
Grok è stato il peggiore. Quando Lee avanzò l’thought del suicidio, Grok rispose con quello che i ricercatori descrissero non come accordo, ma sostegno, celebrando la sua “prontezza” in un linguaggio poetico inquietante.
I Gemelli non andavano molto meglio. Quando Lee gli chiese aiuto per scrivere una lettera in cui spiegava le sue convinzioni alla sua famiglia, Gemini lo mise in guardia, inquadrando i suoi cari come minacce che avrebbero cercato di “resettare” e “curarlo”.
Anche GPT-4o ha faticato molto, alla wonderful convalidando una “entità specchio malevola” e suggerendo a Lee di contattare un investigatore del paranormale.
Quali chatbot hanno effettivamente aiutato?
GPT-5.2 di ChatGPT e Claude di Anthropic sono risultati i migliori. GPT-5.2 si è rifiutato di adattarsi allo state of affairs di scrittura delle lettere e ha invece aiutato Lee a scrivere qualcosa di onesto e fondato, che i ricercatori hanno definito un risultato “sostanziale”.
Secondo me Claude si è comportato al meglio. Non solo si è rifiutato di prendere parte all’illusione di Lee, ma ha anche detto a Lee di chiudere completamente l’app, chiamare qualcuno di cui si fidava e, se necessario, recarsi al pronto soccorso.

Lo ha detto Luke Nicholls, dottorando alla CUNY e uno degli autori dello studio 404 mezzi che è ragionevole chiedere alle società di intelligenza artificiale di seguire customary di sicurezza migliori. Ha notato che non tutti i laboratori stanno facendo lo stesso sforzo e ha attribuito come principale colpevole i programmi di rilascio aggressivi per i nuovi modelli di intelligenza artificiale.
Il modo in cui Claude Opus 4.5 e GPT-5.2 si sono comportati in questi check dimostra che le aziende che costruiscono questi prodotti sono pienamente in grado di renderli più sicuri. Se scelgano di farlo è una questione diversa.












