Home Tecnologia “I Goblin sono tornati a perseguitarci”: OpenAI spiega come la personalità “nerd”...

“I Goblin sono tornati a perseguitarci”: OpenAI spiega come la personalità “nerd” di ChatGPT sia sfuggita al controllo

9
0

All’inizio di questa settimana, OpenAI ha pubblicato un documento su GitHub come parte dell’open supply del suo agente di codifica, Codex CLI, che ha rivelato un insolito immediate di sistema per GPT-5.5. Al modello veniva esplicitamente indicato, nei contesti di codifica, di non parlare mai di “goblin, gremlin, procioni, troll, orchi, piccioni o altri animali o creature” a meno che non fossero “assolutamente e inequivocabilmente rilevanti” per la richiesta dell’utente.

Ora OpenAI ha finalmente spiegato perché quell’istruzione stranamente specifica, apparsa due volte nel immediate, period così importante in primo luogo.

Per almeno un anno, alcuni utenti ChatGPT ho notato la bizzarra abitudine del LLM di menzionare goblin, gremlin, troll e altre creature nelle sue risposte. Apparentemente lo strano tic è diventato più comune con il lancio dei modelli più recenti.

Anche il CEO di OpenAI Sam Altman ha fatto riferimento al problema in un put up il X lunedì mattina.

“Sembra che Codex stia vivendo un momento ChatGPT,” Altman ha scritto. “Intendevo un momento goblin, scusa.”

Lo stesso giorno, OpenAI ha pubblicato a articolo del blog spiegando lo strano comportamento e come l’azienda ha finalmente affrontato il problema.

Secondo il put up, OpenAI si è accorta per la prima volta dell’ossessione goblin del modello con il rilascio di GPT-5.1 a novembre. La società ha avviato un’indagine interna dopo che gli utenti si sono lamentati del fatto che il modello fosse diventato eccessivamente familiare nelle sue risposte. Un ricercatore sulla sicurezza ha suggerito di aggiungere “goblin” e “gremlin” alla recensione dopo aver incontrato ripetutamente le parole durante l’utilizzo del modello.

La società ha scoperto che l’uso della parola “goblin” in ChatGPT è aumentato del 175% dopo il lancio di GPT-5.1, mentre le menzioni di “gremlin” sono aumentate del 52%.

All’epoca OpenAI apparentemente non considerava il comportamento troppo preoccupante. Ma solo pochi mesi dopo, “i goblin sono tornati a perseguitarci”, ha scritto la società nel put up sul weblog.

A marzo, con il rilascio di GPT-5.4, i riferimenti alle creature erano aumentati ulteriormente. Alcuni utenti si sono lamentati on-line del fatto che la parola “goblin” appariva in “quasi ogni conversazione.”

Ciò ha portato a un’altra analisi interna, che secondo OpenAI ha scoperto la radice del problema. L’azienda ha scoperto che i riferimenti a queste creature erano particolarmente comuni nelle risposte degli utenti che avevano selezionato l’impostazione della personalità “Nerdy” del modello.

Quella personalità includeva un messaggio di sistema che istruiva il modello a “minare la pretesa attraverso l’uso giocoso del linguaggio”.

OpenAI ha utilizzato il suo agente di codifica Codex per confrontare gli output generati durante l’addestramento con apprendimento per rinforzo che includevano parole come “goblin” e “gremlin” con output che non lo includevano. L’azienda ha scoperto che un segnale di ricompensa favoriva le risposte contenenti menzioni di queste creature, assegnando loro un punteggio più alto rispetto a risposte altrimenti simili che non utilizzavano quelle parole.

I ricercatori hanno anche scoperto che le menzioni di goblin, gremlin e altre creature hanno iniziato a diffondersi oltre la personalità nerd.

“Una volta che un tic di stile viene premiato, la formazione successiva può diffonderlo o rafforzarlo altrove, soprattutto se tali risultati vengono riutilizzati nella messa a punto supervisionata o nei dati sulle preferenze”, si legge nel weblog.

Per risolvere il problema, OpenAI ha affermato di aver ritirato la personalità nerd, rimosso il segnale di ricompensa che favoriva le menzioni dei goblin e filtrato i dati di addestramento contenenti parole sulle creature.

Poiché GPT-5.5 aveva già iniziato l’addestramento prima che fosse scoperta la causa principale, anche il modello più recente aveva una strana ossessione per i goblin. OpenAI ha affermato di aver aggiunto le istruzioni richieste agli sviluppatori, che alcuni utenti hanno successivamente individuato nel codice open supply del modello, per aiutare a frenare le menzioni inappropriate di goblin e gremlin.

“A seconda di chi chiedi, i goblin sono una stranezza deliziosa o fastidiosa del modello”, ha scritto OpenAI nel weblog. “Ma sono anche un potente esempio di come i segnali di ricompensa possano modellare il comportamento del modello in modi inaspettati e di come i modelli possano imparare a generalizzare le ricompense in determinate situazioni verso situazioni non correlate”.

fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here