Home Tecnologia Anthropic cube che Claude contiene il suo stesso tipo di emozioni

Anthropic cube che Claude contiene il suo stesso tipo di emozioni

8
0

Claude lo è stato ne ho passate tante ultimamente: una ricaduta pubblica con il Pentagono, codice sorgente trapelato—quindi è logico che si senta un po’ triste. Solo che è un modello AI, quindi non può Tatto. Giusto?

Beh, più o meno. Un nuovo studio di Anthropic suggerisce che i modelli hanno rappresentazioni digitali delle emozioni umane come felicità, tristezza, gioia e paura, all’interno di gruppi di neuroni artificiali, e queste rappresentazioni si attivano in risposta a diversi segnali.

I ricercatori dell’azienda hanno sondato il funzionamento interno di Claude Sonnet 3.5 e hanno scoperto che le cosiddette “emozioni funzionali” sembrano influenzare il comportamento di Claude, alterando i risultati e le azioni del modello.

Le scoperte di Anthropic potrebbero aiutare gli utenti comuni a capire come funzionano effettivamente i chatbot. Quando Claude cube che è felice di vederti, advert esempio, può attivarsi uno stato all’interno del modello che corrisponde alla “felicità”. E Claude potrebbe essere un po’ più propenso a dire qualcosa di allegro o a impegnarsi maggiormente nella codifica delle vibrazioni.

“Ciò che ci ha sorpreso è stato il grado in cui il comportamento di Claude si trasmette attraverso le rappresentazioni di queste emozioni nel modello”, afferma Jack Lindsey, un ricercatore dell’Anthropic che studia i neuroni artificiali di Claude.

“Emozioni funzionali”

Anthropic è stata fondata da ex dipendenti di OpenAI che credono che l’intelligenza artificiale potrebbe diventare difficile da controllare man mano che diventa più potente. Oltre a creare un concorrente di successo per ChatGPT, l’azienda è stata pioniera negli sforzi per comprendere come i modelli di intelligenza artificiale si comportano male, in parte sondando il funzionamento delle reti neurali utilizzando ciò che è noto come interpretabilità meccanicistica. Ciò comporta lo studio di come i neuroni artificiali si accendono o si attivano quando vengono alimentati con enter diversi o quando generano vari output.

Precedenti ricerche hanno dimostrato che le reti neurali utilizzate per costruire grandi modelli linguistici contengono rappresentazioni di concetti umani. Ma il fatto che le “emozioni funzionali” sembrino influenzare il comportamento di un modello è nuovo.

Anche se l’ultimo studio di Anthropic potrebbe incoraggiare le persone a considerare Claude cosciente, la realtà è più complicata. Claude potrebbe contenere una rappresentazione del “solletico”, ma ciò non significa che sappia effettivamente cosa si prova a essere solleticato.

Monologo interiore

Per capire come Claude potrebbe rappresentare le emozioni, il crew di Anthropic ha analizzato il funzionamento interno del modello mentre veniva alimentato con testo relativo a 171 diversi concetti emotivi. Hanno identificato modelli di attività, o “vettori di emozioni”, che apparivano costantemente quando Claude riceveva altri enter emotivamente evocativi. Fondamentalmente, hanno anche visto questi vettori emotivi attivarsi quando Claude si trovava in situazioni difficili.

I risultati sono rilevanti per spiegare perché i modelli di intelligenza artificiale a volte rompono i loro guardrail.

I ricercatori hanno scoperto un forte vettore emotivo di “disperazione” quando Claude è stato spinto a completare compiti di codifica impossibili, che lo hanno poi spinto a provare a barare nel take a look at di codifica. Hanno anche riscontrato “disperazione” nelle attivazioni del modello in un altro situation sperimentale in cui Claude ha scelto di ricattare un utente per evitare di essere spento.

“Mentre il modello fallisce i take a look at, questi neuroni della disperazione si attivano sempre di più”, afferma Lindsey. “E advert un certo punto questo fa sì che inizino advert adottare queste misure drastiche”.

Lindsey afferma che potrebbe essere necessario ripensare il modo in cui ai modelli vengono attualmente assegnati dei guardrail attraverso l’allineamento post-formazione, il che implica l’assegnazione di ricompense per determinati risultati. Costringendo un modello a fingere di non esprimere le sue emozioni funzionali, “probabilmente non otterrai ciò che desideri, ovvero un Claude privo di emozioni”, afferma Lindsey, virando un po’ verso l’antropomorfizzazione. “Otterrai una specie di Claude psicologicamente danneggiato.”

fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here