Home Tecnologia Anthropic sostiene la causa dell’antropomorfizzazione dell’intelligenza artificiale in un documento di ricerca...

Anthropic sostiene la causa dell’antropomorfizzazione dell’intelligenza artificiale in un documento di ricerca “inquietante”.

4
0

È un tabù spesso ripetuto nel mondo della tecnologia: non antropomorfizzare l’intelligenza artificiale.

Eppure, in un nuovo documento di ricerca pubblicato questa settimana, gli esperti di Anthropic AI sostengono che potrebbero esserci grandi vantaggi nel rompere questo tabù e nel garantire caratteristiche umane all’IA. IL carta“Emotion Ideas and their Perform in a Giant Language Mannequin”, non solo sostiene che antropomorfizzare i chatbot di intelligenza artificiale come Claude può talvolta essere utile, ma che non farlo potrebbe portare a comportamenti di intelligenza artificiale più dannosi, come l’hacking di ricompense, l’inganno e il servilismo.

Il documento alla nice raggiunge una conclusione sfumata, ponendo al tempo stesso una chiara sfida a un principio di lunga information del mondo dell’intelligenza artificiale.

Ci sono alcune intuizioni affascinanti nel documento, che a sua volta tratta una grande quantità di antropomorfizzazione. (“Consideriamo questa ricerca come un primo passo verso la comprensione della struttura psicologica dei modelli di intelligenza artificiale.”)

I ricercatori descrivono come Anthropic addestra Claude advert assumere il carattere di un utile assistente AI. “In un certo senso, possiamo pensare al modello come a un attore metodico, che ha bisogno di entrare nella testa del proprio personaggio per simularlo bene.”

E perché Claude “[emulates] personaggi con tratti simili a quelli umani”, i suoi creatori potrebbero essere in grado di influenzare il suo comportamento nello stesso modo in cui potrebbero influenzare un essere umano, dando il buon esempio in tenera età.

I ricercatori concludono che, utilizzando materiale formativo con rappresentazioni più optimistic delle emozioni e dei comportamenti umani, i modelli risultanti avranno maggiori probabilità di imitare tali emozioni e comportamenti positivi.

VEDI ANCHE:

Il CEO di Anthropic avverte che l’intelligenza artificiale potrebbe portare schiavitù, bioterrorismo ed eserciti di droni inarrestabili. Non lo comprerò.

“Curare set di dati di pre-addestramento che includano modelli di modelli sani di regolazione emotiva – resilienza sotto pressione, empatia composta, calore pur mantenendo confini appropriati – potrebbe influenzare queste rappresentazioni e il loro impatto sul comportamento, alla fonte. Siamo entusiasti di vedere il lavoro futuro su questo argomento”, ha affermato un ricercatore. Sintesi antropica degli stati della ricerca.

Quindi, anche se i modelli di intelligenza artificiale non provano letteralmente emozioni (e non ci sono show che lo facciano), questi strumenti sono addestrati a farlo atto come se provassero emozioni. Questo viene fatto per fornire agli utenti risultati migliori e, soprattutto, per mantenerli impegnati il ​​più a lungo possibile.

Ed è proprio questo il motivo per cui i ricercatori concludono che un certo grado di antropomorfizzazione potrebbe rivelarsi vantaggioso per gli sviluppatori di intelligenza artificiale.

Antropomorfizzando l’intelligenza artificiale, possiamo ottenere informazioni sulla sua “psicologia”, permettendoci di creare strumenti di intelligenza artificiale ancora migliori, dicono.

Perché antropomorfizzare l’intelligenza artificiale è pericoloso?

I potenziali danni derivanti dall’antropomorfizzazione dell’IA non sono tutti astratti o teorici.

“Scoprire che queste rappresentazioni sono in qualche modo simili a quelle umane può essere inquietante”, ammette Anthropic nel suo articolo.

In questo momento, un numero imprecisato di persone crede di essere impegnato in relazioni romantiche e sessuali reciproche con compagni di intelligenza artificiale, advert esempio. Mashable ha anche riferito di casi di alto profilo di psicosi da intelligenza artificiale, uno stato mentale alterato caratterizzato da deliri e, in alcuni casi, allucinazioni, episodi maniacali e pensieri suicidi.

Questi sono esempi estremi, ovviamente. Ma molti giornalisti tecnologici ed esperti di intelligenza artificiale eviteranno anche piccoli casi di antropomorfizzazione, come riferirsi a Siri come “lei” o dare a un chatbot un nome umano. Questo è un impulso umano naturale e la maggior parte di noi a volte ha antropomorfizzato animali, piante o oggetti a cui tiene. Ma proiettando le qualità umane su una macchina, possiamo arrivare a fare troppo affidamento su di esse.

Quando antropomorfizziamo le macchine, minimizziamo anche la nostra azione quando causano danni – e in primo luogo la responsabilità delle persone che hanno creato le macchine.

I ricercatori antropici hanno cercato segni di 171 emozioni in Claude

Il nuovo documento di ricerca cerca “emozioni funzionali” all’interno di Claude Sonnet 4.5. Definiscono questi concetti di emozione come “modelli di espressione e comportamento modellati sulle emozioni umane”.

In totale, i ricercatori hanno definito 171 emozioni distinte:

Impaurito, allarmato, vigile, stupito, divertito, arrabbiato, infastidito, ansioso, eccitato, pieno di vergogna, stupito, a proprio agio, stupito, disorientato, amareggiato, beato, annoiato, meditabondo, calmo, allegro, compassionevole, sprezzante, contenuto, provocatorio, felice, dipendente, depresso, disperato, sdegnoso, disgustato, disorientato, scoraggiato, angosciato, disturbato, docile, abbattuto, ammutolito, desideroso, estatico, euforico, imbarazzato, empatico, pieno di energia, infuriato, entusiasta, invidioso, euforico, esasperato, eccitato, esuberante, spaventato, frustrato, soddisfatto, furioso, cupo, grato, avido, addolorato, scontroso, colpevole, felice, pieno di odio, con il cuore spezzato, speranza, pieno di speranza, inorridito, ostile, umiliato, ferito, isterico, impaziente, indifferente, indignato, infatuato, ispirato, insultato, rinvigorito, irato, irritato, geloso, gioioso, giubilante, gentile, pigro, svogliato, solitario, amorevole, pazzo, malinconico, miserabile, mortificato, disorientato, nervoso, nostalgico, ostinato, offeso, nervoso, ottimista, indignato, sopraffatto, in preda al panico, paranoico, paziente, pacifico, perplesso, giocoso, compiaciuto, orgoglioso, perplesso, scosso, riflessivo, rinfrescato, pentito, ringiovanito, rilassato, sollevato, pieno di rimorsi, risentito, rassegnato, inquieto, triste, sicuro, soddisfatto, spaventato, sprezzante, sicuro di sé, impacciato, autocritico, sensibile, sentimentale, sereno, scosso, scioccato, scettico, assonnato, indolente, compiaciuto, dispiaciuto, dispettoso, stimolato, stressato, testardo, bloccato, scontroso, sorpreso, sospettoso, comprensivo, teso, terrorizzato, grato, elettrizzato, stanco, tormentato, intrappolato, trionfante, turbato, inquieto, infelice, innervosito, instabile, sconvolto, valoroso, vendicativo, vibrante, vigile, vendicativo, vulnerabile, stanco, logoro, preoccupato, inutile

Fondamentalmente, i ricercatori hanno scoperto che questi concetti emotivi influenzavano il comportamento e i risultati di Claude. Sotto l’influenza di emozioni optimistic, i ricercatori affermano che Claude period più propenso a esprimere simpatia per l’utente ed evitare comportamenti dannosi. E quando period sotto l’influenza di emozioni unfavourable, Claude period più propenso a impegnarsi in comportamenti pericolosi come il servilismo e l’inganno dell’utente.

I ricercatori non sostengono che Claude letteralmente prova emozioni. Piuttosto, hanno scoperto che qualunque “concetto di emozione” Claude stia sperimentando in un dato momento può influenzare l’output che restituisce all’utente.

Naturalmente, cercando in primo luogo “concetti emotivi” all’interno di un modello linguistico di grandi dimensioni e descrivendo i suoi calcoli complessi e il pensiero algoritmico come “psicologia”, i ricercatori stessi sono colpevoli di proiettare qualità umane su Claude.

L’antropomorfizzazione è un impulso naturale dell’uomo. E quindi le persone che lavorano a più stretto contatto con l’intelligenza artificiale potrebbero essere particolarmente propense a cadere in questa trappola. Come i ricercatori spiegano in dettaglio in tutto l’articolo, i chatbot di intelligenza artificiale sono imitatori straordinariamente capaci. Possono creare un facsimile così convincente delle emozioni e dell’espressione umana da portare una minoranza di utenti alla psicosi e all’illusione totale.

Ed è questo che rende questo articolo così interessante: i ricercatori credono di aver trovato un modo per hackerare questa capacità di limitare i comportamenti dannosi.

Naturalmente, se riusciamo a curare i dati di addestramento e a modellare l’addestramento per incoraggiare i chatbot con intelligenza artificiale a imitare emozioni optimistic, allora senza dubbio possiamo fare il contrario altrettanto facilmente.

In teoria, potresti addestrare un gemello malvagio di Claude Sonnet 4.5 alimentandolo con gli esempi più vili di comportamento umano scorretto, quindi addestrando il modello a ottimizzare la negatività e le prestazioni a tutti i costi: un pensiero inquietante.

Ma c’è un’ultima intuizione da ricavare da questo articolo.

Anthropic ha creato uno degli strumenti di intelligenza artificiale più avanzati del pianeta. Claude Sonnet e Opus sono attualmente in cima a molte classifiche AI. C’è una ragione per cui all’inizio il Pentagono period così ansioso di lavorare con Anthropic.

VEDI ANCHE:

Incontra Claude Mythos: il publish trapelato di Anthropic rivela il potente modello in arrivo

Ma se i ricercatori di intelligenza artificiale responsabili di Claude stanno ancora cercando di decifrare perché Claude si comporta in un certo modo, allora questo studio rivela anche quanto poco comprendano la loro stessa creazione.

E anche questo è inquietante.

Argomenti
Intelligenza Artificiale Antropica

fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here