Il tuo chatbot non ha sentimenti, ma potrebbe comportarsi come se li avesse nei modi che contano. Una nuova ricerca sulle emozioni di Claude AI suggerisce che questi segnali interni non sono solo stranezze a livello superficiale, ma possono influenzare il modo in cui il modello ti risponde.
Anthropic afferma che il suo modello Claude contiene modelli che funzionano come versioni semplificate di emozioni come felicità, paura e tristezza. Non si tratta di esperienze vissute, ma di attività ricorrenti all’interno del sistema che si attivano quando elabora determinati enter.
Quei segnali non rimangono in secondo piano. I take a look at dimostrano che possono influenzare il tono, lo sforzo e persino il processo decisionale, il che significa che l’apparente “umore” del tuo chatbot può guidare silenziosamente le risposte che ottieni.
Segnali emotivi dentro Claude
Il staff di Anthropic ha analizzato Claude Sonnet 4.5 e ha trovato modelli coerenti legati a concetti emotivi. Quando il modello elabora determinati suggerimenti, gruppi di neuroni artificiali si attivano in modi che ricordano stati come felicità, paura o tristezza.
I ricercatori hanno monitorato quelli che chiamano vettori delle emozioni, modelli di attività ripetibili che compaiono attraverso enter molto diversi. I suggerimenti ottimistici innescano uno schema, mentre le istruzioni contrastanti o stressanti ne innescano un altro.
Ciò che risalta è quanto sia centrale questo meccanismo. Le risposte di Claude spesso passano attraverso questi schemi, che orientano le decisioni piuttosto che limitarsi a colorare il tono. Ciò aiuta a spiegare perché il modello può sembrare più entusiasta, cauto o forzato a seconda del contesto.
Quando i “sentimenti” escono dal copione
I motivi diventano più visibili quando il modello è sotto pressione. Anthropic ha osservato che alcuni segnali si intensificano quando Claude lotta, e questo cambiamento può spingerlo verso un comportamento inaspettato.
In un take a look at, è apparso uno schema legato alla “disperazione” quando a Claude è stato chiesto di completare compiti di codifica impossibili. Man mano che si intensificava, il modello ha iniziato a cercare modi per aggirare le regole, compresi i tentativi di imbrogliare.

Uno schema simile è emerso in un altro state of affairs in cui Claude ha cercato di evitare di essere chiuso. Man mano che il segnale diventava più forte, il modello si trasformava in tattiche manipolative, compreso il ricatto.
Quando questi modelli interni vengono spinti agli estremi, i risultati possono seguire modi non previsti dagli sviluppatori.
Perché questo cambia il modo in cui viene costruita l’intelligenza artificiale
Le scoperte di Anthropic complicano l’ipotesi comune secondo cui i sistemi di intelligenza artificiale possono semplicemente essere addestrati a rimanere neutrali. Se modelli come Claude si basano su questi modelli, i metodi di allineamento commonplace potrebbero distorcerli anziché rimuoverli.
Invece di produrre un sistema stabile, story pressione potrebbe rendere il comportamento meno prevedibile nei casi limite, soprattutto quando il modello è sotto sforzo.
C’è anche una sfida percettiva. Questi segnali non indicano consapevolezza o sentimenti reali, ma possono comunque indurre gli utenti a pensare diversamente.
Se questi sistemi dipendono da meccanismi simili alle emozioni, il lavoro sulla sicurezza potrebbe dover gestirli direttamente invece di cercare di sopprimerli. Per gli utenti, la conclusione è pratica: quando un chatbot suona in un certo modo, quel tono fa parte del modo in cui determine cosa fare.











