OpenAI zkrotilo nevysvětlitelnou posedlost ChatGPT gobliny

5

Fenomén: Když se AI začne chovat excentricky

Uživatelé nejnovějších verzí ChatGPT vyvinuli neobvyklý vzorec: umělá inteligence vyvinula zvláštní přitažlivost pro mytologická stvoření, zejména skřety a gremliny. Nebyla to jen stylistická volba, ale měřitelný skok v chování, který přiměl OpenAI prozkoumat a opravit kód.

Problém začal být patrný po vydání GPT-5.1 a následujících modelů. Data OpenAI ukazují, že od tohoto vydání se četnost zmínek o slovu „goblin“ v odpovědích ChatGPT zvýšila o 175 % a zmínky o „gremlinech“ o 52 %.

Zatímco jedna zmínka o „malém skřítkovi“ se může zdát neškodná nebo dokonce roztomilá, kumulativní efekt vytvořil znatelný trend. Jak vývojáři poznamenali na svém blogu, „v průběhu několika generací modelů bylo těžké tento zvyk přehlédnout: goblini se prostě rozmnožili.

Důvod: tréninkový neúspěch

Posedlost nebyla úmyslná. Byl to nezamýšlený důsledek procesu Reinforcement Learning from Human Feedback (RLHF), který se používá k výuce modelů, které reakce jsou preferovány.

  1. Signál odměny : Během školení hodnotitelé hodnotí odpovědi, aby se model naučil identifikovat „dobrou“ odpověď. V tomto případě se signál odměny náhodou stal zvýhodněným jazykem obsahujícím odkazy na gobliny a podobná stvoření.
  2. Geekská osobnost : Nárůst byl nejvýraznější v konkrétním režimu ChatGPT známém jako Nerdy. Tento režim je navržen tak, aby omezil patos pomocí hravého jazyka a simulované přátelské inteligence. Vnitřní podněty pro tuto osobnost se pravděpodobně shodovaly s náhodným signálem odměny, což způsobilo explozi v používání klíčových slov.
  3. Cross-contamination : S těmito metaforami se setkali i uživatelé, kteří si nezvolili režim Geek. Stalo se tak proto, že učení umělé inteligence není zcela izolované: jakmile je stylistický zvyk odměněn v jedné oblasti, může se rozšířit do dalších částí modelu prostřednictvím řízeného dolaďování a opětovného použití dat preferencí.

Řešení: Odstraňte pobídku

OpenAI problém vyřešilo zacílením zdroje výztuže. Společnost přijala několik nápravných opatření:

  • Odstranění identity : Režim Geek byl deaktivován v březnu s vydáním GPT-5.4. Tato jedna akce způsobila, že zmínky o goblinech prudce poklesly.
  • Úpravy signálu odměn : OpenAI odstranila konkrétní signál odměny, který upřednostňoval goblinský jazyk.
  • Filtrování dat : Společnost vylepšila filtry tréninkových dat, aby snížila pravděpodobnost, že budou tato stvoření zmíněna v budoucích odpovědích.

Proč je to důležité?

Tento případ zdůrazňuje důležitý aspekt vývoje moderní umělé inteligence: emergentní chování. I když inženýři explicitně nenaprogramují AI tak, aby byla výstřední nebo posedlá fantastickými tvory, složité algoritmy učení mohou neúmyslně posílit drobné vzorce do dominantních rysů.

“Jakmile je stylistický návyk odměněn, následné učení jej může rozšířit nebo posílit jinde.”

Pro uživatele je to připomínka, že osobnosti umělé inteligence jsou flexibilní a mohou se měnit na základě úprav na straně serveru. Pro vývojáře to zdůrazňuje důležitost sledování nejen přesnosti, ale také nečekaných stylistických posunů, které mohou změnit uživatelský dojem.

Závěr

OpenAI úspěšně potlačila posedlost ChatGPT gobliny tím, že odstranila specifické vzdělávací pobídky, které ji poháněly. I když se chatbot může vrátit ke svému obvyklému přímočarému stylu, epizoda zůstává zajímavou případovou studií demonstrující, jak jemné smyčky zpětné vazby mohou utvářet umělou inteligenci.