OpenAI temt de onverklaarbare obsessie van ChatGPT met Goblins

29

Het fenomeen: wanneer AI eigenzinnig wordt

Voor gebruikers van de nieuwste versies van ChatGPT is een eigenaardig patroon naar voren gekomen: de kunstmatige intelligentie heeft een ongebruikelijke affiniteit ontwikkeld voor mythologische wezens, met name goblins en gremlins. Dit was geen subtiele stilistische keuze, maar een meetbare piek in gedrag die OpenAI ertoe aanzette de onderliggende code te onderzoeken en te corrigeren.

Het probleem werd prominent met de release van GPT-5.1 en daaropvolgende modellen. Uit gegevens van OpenAI blijkt dat na deze lancering de frequentie van het woord ‘goblin’ in ChatGPT-reacties met 175% is gestegen, terwijl verwijzingen naar “gremlins” met 52% zijn gestegen.

Hoewel een enkele vermelding van een ‘kleine kobold’ op zichzelf misschien onschuldig of zelfs charmant lijkt, zorgde het cumulatieve effect voor een opvallende trend. Zoals OpenAI opmerkte in een openhartige blogpost: “Over de modelgeneraties heen werd de gewoonte echter moeilijk te missen: de goblins bleven zich vermenigvuldigen.”

De hoofdoorzaak: een fout in de training

De obsessie was niet opzettelijk. In plaats daarvan kwam het voort uit een onbedoeld gevolg van Reinforcement Learning from Human Feedback (RLHF), het proces dat wordt gebruikt om AI-modellen te leren welke antwoorden de voorkeur hebben.

  1. Het beloningssignaal : Tijdens de training beoordelen menselijke beoordelaars de reacties om het model te helpen leren wat een ‘goed’ antwoord is. In dit geval gaf een specifiek beloningssignaal onbedoeld de voorkeur aan taal die verwijzingen naar goblins en soortgelijke wezens bevatte.
  2. De ‘Nerdy’-persoonlijkheid : De piek was het meest uitgesproken in een specifieke ChatGPT-persona die bekend staat als “Nerdy.” Deze modus is ontworpen om pretentie te ondermijnen door middel van speelse taal en een nepgevoel van vriendelijke intelligentie. De interne aanwijzingen voor deze persoonlijkheid kwamen waarschijnlijk overeen met het onbedoelde beloningssignaal, waardoor het gebruik van zoekwoorden omhoog schoot.
  3. Kruisbesmetting : zelfs gebruikers die niet de ‘Nerdy’-persona selecteerden, kwamen deze metaforen tegen. Dit gebeurde omdat AI-training niet volledig in silo’s plaatsvindt; Zodra een stilistische tic op één gebied wordt beloond, kan deze zich naar andere delen van het model verspreiden door middel van begeleide verfijning en hergebruik van voorkeursgegevens.

De oplossing: de prikkel wegnemen

OpenAI heeft het probleem aangepakt door zich te richten op de bron van de versterking. Het bedrijf heeft verschillende corrigerende maatregelen geïmplementeerd:

  • De Persona buiten gebruik stellen : de persoonlijkheidsoptie “Nerdy” werd in maart stopgezet met de release van GPT-5.4. Deze enkele actie veroorzaakte een dramatische daling van het aantal goblin-gerelateerde referenties.
  • Beloningssignalen aanpassen : OpenAI verwijderde het specifieke beloningssignaal dat de voorkeur gaf aan op kobolden gericht taalgebruik.
  • Gegevens filteren : het bedrijf heeft de filters voor trainingsgegevens verfijnd om ervoor te zorgen dat verwijzingen naar deze wezens minder snel in toekomstige publicaties verschijnen.

Waarom dit belangrijk is

Dit incident benadrukt een cruciaal aspect van de moderne AI-ontwikkeling: opkomend gedrag. Zelfs als ingenieurs een AI niet expliciet programmeren om eigenzinnig of geobsedeerd te zijn door fantasiewezens, kunnen complexe trainingsalgoritmen onbedoeld kleine patronen versterken tot dominante eigenschappen.

“Als een stijltic eenmaal wordt beloond, kan latere training deze elders verspreiden of versterken.”

Voor gebruikers herinnert dit eraan dat AI-persoonlijkheden veranderlijk zijn en aan verandering onderhevig zijn op basis van backend-aanpassingen. Voor ontwikkelaars onderstreept het het belang van monitoring, niet alleen op nauwkeurigheid, maar ook op onverwachte stilistische afwijkingen die de gebruikerservaring kunnen veranderen.

Conclusie

OpenAI heeft met succes de goblin-obsessie van ChatGPT ingeperkt door de specifieke trainingsprikkels die deze aanwakkerden te verwijderen. Hoewel de chatbot misschien terugkeert naar zijn gebruikelijke, ongecompliceerde stijl, blijft de aflevering een fascinerende case study van hoe subtiele feedbackloops kunstmatige intelligentie vorm kunnen geven.