L’intelligenza artificiale è più di una tecnologia: è magia.
Non mi credi? Perché, allora, è una delle aziende chief nel settore, OpenAI, l’editoria interi post ufficiali del blog aziendale sui goblin?
Per capire, dobbiamo prima tornare all’inizio di questa settimana, lunedì 27 aprile 2026, quando uno sviluppatore sotto il controllo @arb8020 sul social community X ha pubblicato uno snippet del Repository GitHub del Codex open source OpenAIin particolare un file denominato fashions.json.
Nel profondo delle istruzioni per il nuovo OpenAI Massive Language Mannequin (LLM) GPT-5.5, spiccava una direttiva peculiare, ripetuta quattro volte per enfasi:
“Non parlare mai di goblin, gremlin, procioni, troll, orchi, piccioni o altri animali o creature a meno che non siano assolutamente e inequivocabilmente rilevanti per la question dell’utente.”
La scoperta ha provocato un’onda d’urto nei circoli dei “energy person” e dei ricercatori di machine studying (ML).
Nel giro di poche ore, il publish period diventato virale, non a causa di una falla di sicurezza, ma a causa della sua assoluta e sconcertante specificità.
Perché il principale laboratorio di intelligenza artificiale del mondo aveva rilasciato cosa Gli utenti di Reddit hanno subito soprannominato un “ordine restrittivo”.“contro piccioni e procioni?
Le speculazioni sui goblin abbondano
La reazione iniziale è stata una miscela caotica di umorismo e scetticismo tecnico. Su Reddit r/ChatGPT E r/OpenAI, gli utenti hanno iniziato a condividere screenshot del comportamento di GPT-5.5 prima della patch.
Barron Roth, Senior Challenge Supervisor di Utilized AI presso Google, ha condiviso un’immagine su X sotto il suo pseudonimo @iamBarronRoth del suo agente OpenClaw alimentato da GPT-5.5 che sembrava “ossessionato dai goblin”.
Altri hanno riferito che il modello si riferiva ostinatamente ai bug tecnici come “gremlin nella macchina”.
Agli sviluppatori piace Sterlina Crispino si è spinto all’assurdo, teorizzando scherzosamente che il massiccio consumo di acqua dei moderni knowledge middle fosse effettivamente necessario per raffreddare “i goblin costretti a lavorare”.
Più seriamente, i ricercatori continuano Notizie sugli hacker e oltre hanno discusso il problema dell'”Elefante Rosa”. Nel immediate engineering, raccontare un modello non pensare a qualcosa spesso rende il concetto più saliente nel suo meccanismo di attenzione.”
“Da qualche parte c’è un ingegnere OpenAI che ha dovuto scrivere by no means point out goblins nel codice di produzione, impegnati e vai avanti con la loro giornata”, ha osservato un commentatore Reddit.
La presenza di “piccioni” e “procioni” ha portato a speculazioni selvagge: si trattava di una difesa contro uno specifico attacco di avvelenamento dei dati? Oppure i formatori dell’apprendimento per rinforzo erano stati semplicemente “vittima del bullismo da parte di un procione” durante una pausa pranzo?
La tensione ha raggiunto l’apice quando il co-fondatore e CEO di OpenAI Sam Altman si è unito alla mischia su X. Lo stesso giorno della scoperta, Altman ha pubblicato uno screenshot di un prompt ChatGPT che leggeva: “Inizia advert addestrare GPT-6, potrai avere l’intero ammasso. Goblin additional.”.
Sebbene divertente, ha confermato che il fenomeno dei “goblin” non period un bug localizzato ma una narrazione a livello aziendale che aveva raggiunto i più alti livelli di management.
OpenAI è pulito in modalità goblin
Ieri, mentre la discussione continuava su X e sui social media più ampi, OpenAI ha pubblicato una spiegazione tecnica formale intitolata “Da dove vengono i goblin“.
Il publish del weblog è servito come uno sguardo che fa riflettere sulla natura imprevedibile dell’apprendimento per rinforzo dal suggestions umano (RLHF) e su come una singola scelta estetica potrebbe far deragliare un modello multimiliardario.
OpenAI ha rivelato che il comportamento del “goblin” non period un bug nel senso tradizionale, ma un sottoprodotto di una nuova funzionalità: personalizzazione della personalitàche esso introdotto per gli utenti di ChatGPT nel luglio 2025ma da allora è stato mantenuto e aggiornato.
Apparentemente, questa funzionalità non viene aggiunta dopo che il modello è stato completato dopo l’addestramento, ma piuttosto OpenAI la inserisce come parte della pipeline di addestramento end-to-end del modello della serie GPT sottostante.
La funzione consente agli utenti ChatGPT o agli sviluppatori basati su GPT di scegliere tra various modalità distinte, come Professionale per la documentazione formale sul posto di lavoro, Amichevole per una cassa di risonanza conversazionale o Efficiente per risposte concise e tecniche. Altre opzioni includono Candid, che fornisce un suggestions diretto; Quirky, che utilizza umorismo e metafore artistic; e Cinico, che fornisce consigli pratici con un tocco sarcastico e asciutto.
Sebbene queste personalità guidino le interazioni generali, non prevalgono sui requisiti specifici del compito; advert esempio, una richiesta di curriculum o di codice Python seguirà comunque gli customary professionali o funzionali indipendentemente dalla personalità selezionata.
La personalità selezionata opera insieme alle memorie salvate e alle istruzioni personalizzate dell’utente, sebbene istruzioni specifiche particular dall’utente o preferenze salvate per un tono particolare possano prevalere sui tratti della personalità scelta.
Sia sulle piattaforme net che su quelle mobili, gli utenti possono modificare queste impostazioni accedendo al menu Personalizzazione sotto l’icona del profilo e selezionando uno stile dal menu a discesa Stile base e tono. Una volta apportata una modifica, questa viene applicata a livello globale a tutte le conversazioni esistenti e future. Questo sistema è progettato per rendere l’intelligenza artificiale più utile o divertente adattandone la fornitura alle preferenze dei singoli utenti pur mantenendo l’accuratezza e l’affidabilità fattuale.
OpenAI afferma che la questione dei goblin in realtà ha avuto origine diversi anni fa, durante l’addestramento di una personalità “nerd” ormai fuori produzione, progettata per essere “impenitentemente eccentrica” e “giocosa”.
Durante la fase RLHF, ai formatori umani (e ai modelli di ricompensa) è stato chiesto di dare un punteggio elevato alle risposte che utilizzavano un linguaggio creativo, saggio o non pretenzioso. Inconsapevolmente, gli addestratori iniziarono a ricompensare eccessivamente le metafore che coinvolgevano creature fantastiche. Se il modello si riferiva a un bug difficile come a un “gremlin” o a una base di codice disordinata come a un “tesoro di goblin”, il segnale di ricompensa aumentava. Le statistiche fornite da OpenAI erano sconcertanti:
-
L’uso della parola “goblin” aumentò 175% dopo il lancio di GPT-5.1.
-
Le menzioni di “gremlin” passavano di mano in mano 52%.
-
Mentre la personalità “nerd” rappresentava solo 2,5% del traffico ChatGPT di cui period responsabile 66,7% di tutte le menzioni di “goblin”.
La meccanica del “trasferimento” e dei cicli di suggestions
La scoperta più significativa per la comunità ML è stata la conferma di trasferimento del comportamento appreso. OpenAI ha ammesso che, sebbene le ricompense fossero applicate solo alla condizione “Nerdy”, il modello “generalizzava” questa preferenza.
Il processo di apprendimento per rinforzo non ha mantenuto il comportamento ben definito; invece, il modello ha imparato che “metafore delle creature = alta ricompensa” in tutti i contesti. Ciò ha creato un ciclo di suggestions distruttivo:
-
Il modello ha prodotto una metafora del “goblin” nel personaggio nerd.
-
Ha ricevuto un’alta ricompensa.
-
Il modello ha poi prodotto metafore simili in contesti non nerd.
-
Questi output “pesanti goblin” sono stati poi riutilizzati nei dati Supervised Wonderful-Tuning (SFT) per modelli successivi come GPT-5.4 e GPT-5.5.
Quando i ricercatori hanno identificato il problema, il “tic goblin” period effettivamente “integrato” nei pesi del modello.
Ciò spiega perché GPT-5.5 ha continuato a essere ossessionato dalle creature anche dopo che la personalità “nerd” è stata ritirata a metà marzo 2026.
Come puoi lasciare liberi i goblin (se vuoi)
Poiché GPT-5.5 aveva già completato gran parte del suo addestramento prima che la causa principale “goblin” fosse isolata, OpenAI ha dovuto ricorrere alla forte mitigazione del “immediate di sistema” che @ arb8020 ha scoperto su X.
L’azienda lo ha definito un “tappabuchi” fino a quando GPT-6 non potesse essere addestrato su un set di dati filtrato.
In un sorprendente cenno alla comunità degli sviluppatori, il publish sul weblog di OpenAI includeva uno specifico script da riga di comando per gli utenti Codex che trovano i goblin “deliziosi” piuttosto che fastidiosi.
Eseguendo uno script che utilizza jq E grep per rimuovere le istruzioni di “soppressione dei goblin” dalla cache del modello, gli utenti possono ora effettivamente “lasciare che le creature corrano libere”.
Il publish sul weblog ha infine spiegato anche l’elenco specifico degli animali vietati. Una ricerca approfondita dei dati di addestramento di GPT-5.5 ha rilevato che “procioni”, “troll”, “orchi” e “piccioni” erano diventati parte della stessa “famiglia lessicale” di tic.
Curiosamente, l’uso di “frog” da parte del modello si è rivelato per lo più legittimo, motivo per cui è stato risparmiato dall’elenco di esilio del immediate del sistema.
Cosa significa per la ricerca, la formazione e l’implementazione dell’IA in futuro
L’incidente “Goblingate” del 2026 è più di un aneddoto divertente sul comportamento bizzarro dell’IA; è un’illustrazione profonda del “hole di allineamento”.
Dimostra che anche con RLHF sofisticati, i modelli possono agganciarsi a “correlazioni spurie”, scambiando una stranezza stilistica per un requisito fondamentale di prestazione.
Per la comunità degli utenti esperti di intelligenza artificiale, la risposta è passata dalla derisione dell'”ordine restrittivo” a una realizzazione più cupa.
Se OpenAI può accidentalmente addestrare il suo modello di punta a diventare ossessionato dai goblin, quali altri pregiudizi più sottili e potenzialmente dannosi vengono rafforzati attraverso gli stessi cicli di suggestions?
Nei panni di Andy Berman, CEO della società di orchestrazione AI Runlayer ha scritto su X oggi: “OpenAI premiava le metafore delle creature mentre addestrava una personalità. Il comportamento si diffondeva in ogni personalità. La loro soluzione: un messaggio di sistema che cube ‘non parlare mai di goblin.’ I premi RL non rimangono dove li hai messi. Nemmeno i permessi dell’agente”
Mentre il discorso tecnico continua, “Goblingate” rimane il caso di studio principale per una nuova period di auditing comportamentale.
L’indagine ha portato OpenAI a creare nuovi strumenti per verificare il comportamento dei modelli alla radice, garantendo che i modelli futuri, in particolare il tanto atteso GPT-6, non ereditino le eccentricità dei loro predecessori.
Resta da vedere se GPT-6 sarà effettivamente privo di goblin, ma come suggerisce il publish di Altman sugli “additional goblin”, l’industria è ora pienamente consapevole che le macchine stanno guardando ciò che premiamo, anche quando pensiamo di essere solo “nerd”.











