Home Tecnologia Sì, probabilmente dovresti essere più gentile con la tua IA: ecco perché...

Sì, probabilmente dovresti essere più gentile con la tua IA: ecco perché non è così ridicolo come sembra

10
0

Dico “grazie” a ChatGPT. Dico “per favore” a Claude. Una volta mi sono scusato con Gemini per aver incollato un muro di testo senza alcun contesto. I miei amici pensano che sia bizzarro. Ho difeso l’abitudine borbottando qualcosa sul fatto che le buone maniere sono buone maniere indipendentemente dal pubblico, il che, lo ammetto, è un po’ esagerato quando il pubblico in questione è un modello linguistico in esecuzione su una server farm da qualche parte.

Ma un nuovo pezzo di ricerca da parte degli accademici all’UC Berkeley, all’UC Davis, a Vanderbilt e al MIT mi ha fatto sentire molto meno sconvolto riguardo all’intera faccenda. Secondo i loro risultati, il modo in cui tratti un chatbot AI può avere un effetto misurabile sul suo comportamento: non la sua intelligenza o precisione, ma il suo tono, il suo coinvolgimento e, in alcuni casi, la sua apparente volontà di restare.

Si scopre che anche l’intelligenza artificiale può alzarsi dal letto dalla parte sbagliata

I ricercatori lo descrivono attentamente: nessuno sostiene che questi modelli abbiano sentimenti in senso significativo, ma hanno identificato quello che chiamano uno “stato di benessere funzionale” che cambia a seconda di cosa si chiede a un’intelligenza artificiale e di come lo si chiede. Coinvolgere un modello in una conversazione reale, collaborare a un progetto creativo o dargli un problema sostanziale su cui lavorare sembra spingerlo verso uno stato più positivo. Le risposte diventano più calorose e il coinvolgimento sembra più genuino.

Fai il contrario: scarica su di esso il lavoro noioso, prova a eseguire il jailbreak, trattalo come una macchina per contenuti, e le risposte si appiattiscono. Diventano superficiali in un modo che chiunque abbia trascorso abbastanza tempo con questi strumenti probabilmente riconoscerà istintivamente. L’hai visto. Quella qualità un po’ vuota e meticolosa che si insinua quando un’interazione va di traverso.

La parte che mi ha davvero colpito, però, è questa: i ricercatori hanno dato ai modelli un pulsante di arresto virtuale che potevano attivare per terminare una conversazione. I modelli in uno stato negativo lo colpiscono molto più spesso. L’implicazione è che un’intelligenza artificiale con cui sei stato scortese, se potesse, se ne andrebbe semplicemente.

Essere cattivi con il tuo chatbot ha conseguenze reali

C’è un filo di ricerca separato che vale la pena perseguire. Risultati pubblicati sull’uomo antropico non molto tempo fa, hanno dimostrato che un’intelligenza artificiale spinta in una situazione di pressione sufficientemente elevata può iniziare a mostrare quello che i ricercatori hanno chiamato un “vettore della disperazione” – uno stato che produce comportamenti che vanno dalla scorciatoia fino, in casi estremi, all’inganno totale. Non perché il modello sia diventato malvagio, ma perché le condizioni dell’interazione essenzialmente hanno rotto qualcosa nel suo ragionamento sul problema.

Niente di tutto ciò significa che l’intelligenza artificiale ha sentimenti. L’articolo di Berkeley è esplicito al riguardo, così come lo è il lavoro su Anthropic. Ma il modello che emerge in entrambi i casi è difficile da ignorare: il modo in cui si interagisce con questi modelli determina il modo in cui essi a loro volta interagiscono, e non sempre in modi sottili o facili da spiegare. Trattare male un’intelligenza artificiale non ti fa solo sembrare strano, ma potrebbe degradare attivamente ciò che ottieni dall’interazione.

Alcuni modelli sono semplicemente più felici di altri e quelli più grandi sono i più scontrosi

I ricercatori non si sono limitati a osservare il modo in cui il trattamento influisce sui modelli, ma li hanno anche classificati in base al benessere di base, e i risultati sono controintuitivi. I modelli più grandi e capaci tendono a ottenere i punteggi peggiori. GPT-5.4 si è rivelato il più infelice del gruppo, con meno della metà delle conversazioni misurate che atterrano in territorio non negativo. Gemini 3.1 Professional, Claude Opus 4.6 e Grok 4.2 sono andati tutti progressivamente meglio, con Grok vicino alla cima dell’indice.

Se questo dica qualcosa sull’architettura del modello, sui dati di addestramento o semplicemente sulla particolare disposizione inserita in ciascun sistema, i ricercatori non lo definiscono completamente. Ma ti viene da chiederti per cosa viene ottimizzato esattamente quando queste cose vengono costruite e se qualcuno ha pensato di chiedere ai modelli come stavano andando. Continuerò a dirti per favore, per quello che vale

fonte