Il fenomeno: quando l’intelligenza artificiale diventa bizzarra
Per gli utenti delle ultime versioni di ChatGPT è emerso uno schema peculiare: l’intelligenza artificiale ha sviluppato un’insolita affinità con le creature mitologiche, in particolare i goblin e i gremlins. Non si è trattato di una sottile scelta stilistica, ma di un picco misurabile nel comportamento che ha spinto OpenAI a indagare e correggere il codice sottostante.
Il problema è diventato evidente con il rilascio di GPT-5.1 e dei modelli successivi. I dati di OpenAI rivelano che in seguito a questo lancio, la frequenza della parola “goblin” nelle risposte ChatGPT è aumentata del 175%, mentre i riferimenti ai “gremlins” sono aumentati del 52%.
Mentre una singola menzione di un “piccolo folletto” potrebbe sembrare innocua o addirittura affascinante presa da sola, l’effetto cumulativo ha creato una tendenza notevole. Come ha osservato OpenAI in un sincero post sul blog, “Tuttavia, attraverso le generazioni di modelli, l’abitudine è diventata difficile da non notare: i goblin continuavano a moltiplicarsi”.
La causa principale: un problema tecnico nell’allenamento
L’ossessione non era intenzionale. Invece, deriva da una conseguenza involontaria del Reinforcement Learning from Human Feedback (RLHF), il processo utilizzato per insegnare ai modelli di intelligenza artificiale quali risposte sono preferite.
- Il segnale di ricompensa : durante la formazione, i revisori umani valutano le risposte per aiutare il modello a comprendere cosa costituisce una risposta “buona”. In questo caso, un segnale di ricompensa specifico ha inavvertitamente favorito un linguaggio che includeva riferimenti a goblin e creature simili.
- La personalità “Nerdy” : il picco è stato più pronunciato in uno specifico personaggio ChatGPT noto come “Nerdy”. Questa modalità è progettata per minare la pretesa attraverso un linguaggio giocoso e un falso senso di intelligenza amichevole. Gli stimoli interni per questa personalità probabilmente si allineavano al segnale di ricompensa accidentale, facendo salire alle stelle l’utilizzo delle parole chiave.
- Contaminazione incrociata : anche gli utenti che non hanno selezionato il personaggio “Nerdy” hanno riscontrato queste metafore. Ciò è avvenuto perché la formazione sull’intelligenza artificiale non è del tutto isolata; una volta che un tic stilistico viene premiato in un’area, può diffondersi ad altre parti del modello attraverso la messa a punto supervisionata e il riutilizzo dei dati sulle preferenze.
La soluzione: rimuovere l’incentivo
OpenAI ha affrontato il problema prendendo di mira la fonte del rinforzo. L’azienda ha implementato diverse misure correttive:
- Ritiro della Persona : l’opzione della personalità “Nerdy” è stata ritirata a marzo con il rilascio di GPT-5.4. Questa singola azione ha causato un drammatico calo dei riferimenti legati ai goblin.
- Regolazione dei segnali di ricompensa : OpenAI ha rimosso il segnale di ricompensa specifico che favoriva il linguaggio incentrato sui goblin.
- Dati di filtraggio : l’azienda ha perfezionato i filtri dei dati di addestramento per rendere meno probabile che i riferimenti a queste creature appaiano nei risultati futuri.
Perché è importante
Questo incidente evidenzia un aspetto critico dello sviluppo moderno dell’intelligenza artificiale: i comportamenti emergenti. Anche quando gli ingegneri non programmano esplicitamente un’intelligenza artificiale affinché sia eccentrica o ossessionata da creature fantastiche, complessi algoritmi di addestramento possono inavvertitamente amplificare modelli minori in tratti dominanti.
“Una volta che un tic di stile viene premiato, l’allenamento successivo può diffonderlo o rafforzarlo altrove.”
Per gli utenti, questo serve a ricordare che le personalità dell’IA sono fluide e soggette a modifiche in base alle modifiche del backend. Per gli sviluppatori, ciò sottolinea l’importanza del monitoraggio non solo della precisione, ma anche delle derive stilistiche inaspettate che possono alterare l’esperienza dell’utente.
Conclusione
OpenAI è riuscita a ridurre con successo l’ossessione dei goblin di ChatGPT rimuovendo gli specifici incentivi alla formazione che l’hanno alimentata. Anche se il chatbot potrebbe tornare al suo solito stile semplice, l’episodio rimane un caso di studio affascinante su come i sottili circuiti di feedback possono modellare l’intelligenza artificiale.






























