Das Phänomen: Wenn KI skurril wird
Für Benutzer der neuesten Versionen von ChatGPT hat sich ein eigenartiges Muster herauskristallisiert: Die künstliche Intelligenz hat eine ungewöhnliche Affinität zu Fabelwesen entwickelt, insbesondere zu Kobolden und Gremlins. Dies war keine subtile stilistische Entscheidung, sondern ein messbarer Verhaltensanstieg, der OpenAI dazu veranlasste, den zugrunde liegenden Code zu untersuchen und zu korrigieren.
Das Problem wurde mit der Veröffentlichung von GPT-5.1 und nachfolgenden Modellen deutlich. Daten von OpenAI zeigen, dass nach dieser Einführung die Häufigkeit des Wortes „Goblin“ in ChatGPT-Antworten um 175 % anstieg, während Verweise auf „Gremlins“ um 52 % zunahmen.
Während eine einzelne Erwähnung eines „kleinen Kobolds“ für sich genommen harmlos oder sogar charmant wirken könnte, führte die kumulative Wirkung zu einem spürbaren Trend. Wie OpenAI in einem ehrlichen Blogbeitrag feststellte: „Aber über die Modellgenerationen hinweg war die Angewohnheit kaum zu übersehen: Die Kobolde vermehrten sich weiter.“
Die Grundursache: Ein Fehler im Training
Die Besessenheit war nicht beabsichtigt. Vielmehr war es eine unbeabsichtigte Folge von Reinforcement Learning from Human Feedback (RLHF), dem Prozess, mit dem KI-Modellen beigebracht wird, welche Antworten bevorzugt werden.
- Das Belohnungssignal : Während des Trainings bewerten menschliche Prüfer die Antworten, um dem Modell dabei zu helfen, zu lernen, was eine „gute“ Antwort darstellt. In diesem Fall bevorzugte ein bestimmtes Belohnungssignal versehentlich eine Sprache, die Hinweise auf Kobolde und ähnliche Kreaturen enthielt.
- Die „Nerdy“-Persönlichkeit : Der Anstieg war bei einer bestimmten ChatGPT-Persönlichkeit, die als „Nerdy“ bekannt ist, am deutlichsten. Dieser Modus ist darauf ausgelegt, den Anspruch durch spielerische Sprache und einen vorgetäuschten Sinn für freundliche Intelligenz zu untergraben. Die internen Aufforderungen für diese Persönlichkeit stimmten wahrscheinlich mit dem zufälligen Belohnungssignal überein, was zu einem sprunghaften Anstieg der Keyword-Nutzung führte.
- Kreuzkontamination : Sogar Benutzer, die nicht die Persona „Nerdy“ ausgewählt haben, sind auf diese Metaphern gestoßen. Dies geschah, weil das KI-Training nicht vollständig isoliert ist; Sobald ein stilistischer Tick in einem Bereich belohnt wird, kann er sich durch überwachte Feinabstimmung und Wiederverwendung von Präferenzdaten auf andere Teile des Modells ausbreiten.
Die Lösung: Den Anreiz entfernen
OpenAI ging das Problem an, indem es auf die Quelle der Verstärkung abzielte. Das Unternehmen hat mehrere Korrekturmaßnahmen umgesetzt:
- Einstellung der Persona : Die Persönlichkeitsoption „Nerdy“ wurde im März mit der Veröffentlichung von GPT-5.4 eingestellt. Diese einzelne Aktion führte zu einem dramatischen Rückgang der Goblin-bezogenen Referenzen.
- Belohnungssignale anpassen : OpenAI hat das spezifische Belohnungssignal entfernt, das eine koboldzentrierte Sprache begünstigt hatte.
- Daten filtern : Das Unternehmen hat seine Trainingsdatenfilter verfeinert, um zu verhindern, dass Verweise auf diese Kreaturen in zukünftigen Ausgaben auftauchen.
Warum das wichtig ist
Dieser Vorfall unterstreicht einen kritischen Aspekt der modernen KI-Entwicklung: aufkommende Verhaltensweisen. Selbst wenn Ingenieure eine KI nicht ausdrücklich so programmieren, dass sie schrullig oder von Fantasiewesen besessen ist, können komplexe Trainingsalgorithmen unbeabsichtigt kleinere Muster zu dominanten Merkmalen verstärken.
„Sobald ein Stil-Tick belohnt wird, kann er durch späteres Training an anderer Stelle verbreitet oder verstärkt werden.“
Für Benutzer dient dies als Erinnerung daran, dass KI-Persönlichkeiten fließend sind und sich aufgrund von Backend-Anpassungen ändern können. Für Entwickler unterstreicht dies, wie wichtig es ist, nicht nur die Genauigkeit zu überwachen, sondern auch unerwartete stilistische Abweichungen zu erkennen, die das Benutzererlebnis verändern können.
Fazit
OpenAI hat die Goblin-Besessenheit von ChatGPT erfolgreich eingedämmt, indem es die spezifischen Trainingsanreize entfernt hat, die sie befeuert haben. Während der Chatbot möglicherweise zu seinem gewohnt geradlinigen Stil zurückkehrt, bleibt die Episode eine faszinierende Fallstudie darüber, wie subtile Feedbackschleifen künstliche Intelligenz formen können.
































