Zjawisko: Kiedy sztuczna inteligencja zaczyna zachowywać się ekscentrycznie
Użytkownicy najnowszych wersji ChatGPT odkryli nietypowy wzór: sztuczna inteligencja zaczęła dziwnie przyciągać stworzenia mitologiczne, szczególnie gobliny i gremliny. Nie był to tylko wybór stylistyczny, ale wymierna zmiana w zachowaniu, która skłoniła OpenAI do zbadania i naprawienia kodu.
Problem stał się zauważalny po wydaniu GPT-5.1 i kolejnych modeli. Dane OpenAI pokazują, że od tej wersji częstotliwość wzmianek o słowie „goblin” w odpowiedziach ChatGPT wzrosła o 175%, a wzmianek o „gremlinach” wzrosła o 52%.
Chociaż jedna wzmianka o „małym goblinie” może wydawać się nieszkodliwa lub nawet urocza, skumulowany efekt stworzył zauważalny trend. Jak zauważyli twórcy na swoim blogu, „w ciągu kilku pokoleń modeli trudno było przeoczyć ten nawyk: gobliny po prostu się rozmnażały”.
Powód: niepowodzenie w szkoleniu
Ta obsesja nie była zamierzona. Była to niezamierzona konsekwencja procesu uczenia się przez wzmacnianie na podstawie informacji zwrotnej od ludzi (RLHF), który służy do uczenia modeli, które reakcje są preferowane.
- Sygnał nagrody : Podczas szkolenia weryfikatorzy oceniają odpowiedzi, dzięki czemu model uczy się identyfikować „dobrą” odpowiedź. W tym przypadku sygnał nagrody przypadkowo został uprzywilejowany przez język zawierający odniesienia do goblinów i podobnych stworzeń.
- Osobowość maniaka : Skok był najbardziej wyraźny w konkretnym trybie ChatGPT, znanym jako Nerdy. Ten tryb ma na celu zmniejszenie patosu poprzez zabawny język i symulowaną przyjazną inteligencję. Wewnętrzne sygnały dotyczące tej osobowości prawdopodobnie zbiegły się z losowym sygnałem nagrody, powodując eksplozję użycia słów kluczowych.
- Zanieczyszczenie krzyżowe : Nawet użytkownicy, którzy nie wybrali trybu Geek, zetknęli się z tymi metaforami. Stało się tak, ponieważ uczenie się sztucznej inteligencji nie jest całkowicie odizolowane: gdy nawyk stylistyczny zostanie nagrodzony w jednym obszarze, może rozprzestrzenić się na inne części modelu poprzez kontrolowane dostrajanie i ponowne wykorzystanie danych dotyczących preferencji.
Rozwiązanie: usuń zachętę
OpenAI rozwiązało problem, celując w źródło wzmocnienia. Firma podjęła szereg działań naprawczych:
- Usuwanie tożsamości : Tryb Geek został wyłączony w marcu wraz z wydaniem GPT-5.4. To jedno działanie spowodowało, że wzmianki o goblinach gwałtownie spadły.
- Dostosowanie sygnału nagrody : OpenAI usunął specyficzny sygnał nagrody, który faworyzował język goblinów.
- Filtrowanie danych : Firma ulepszyła filtry danych szkoleniowych, aby zmniejszyć prawdopodobieństwo pojawienia się wzmianek o tych stworzeniach w przyszłych odpowiedziach.
Dlaczego to jest ważne?
Ten przypadek podkreśla ważny aspekt rozwoju współczesnej sztucznej inteligencji: zachowania pojawiające się. Nawet jeśli inżynierowie nie programują wprost sztucznej inteligencji tak, aby była ekscentryczna lub miała obsesję na punkcie fantastycznych stworzeń, złożone algorytmy uczenia się mogą nieumyślnie przekształcić drobne wzorce w dominujące cechy.
„Kiedy nawyk stylistyczny zostanie nagrodzony, późniejsza nauka może go rozpowszechnić lub wzmocnić gdzie indziej”.
Dla użytkowników jest to przypomnienie, że osobowości AI są elastyczne i mogą się zmieniać w zależności od dostosowań po stronie serwera. Dla programistów podkreśla to znaczenie monitorowania nie tylko dokładności, ale także nieoczekiwanych zmian stylistycznych, które mogą zmienić doświadczenie użytkownika.
Wniosek
OpenAI skutecznie powstrzymało obsesję ChatGPT na punkcie goblinów, usuwając specyficzne zachęty do nauki, które ją napędzały. Chociaż chatbot może powrócić do swojego zwykłego, prostego stylu, odcinek pozostaje interesującym studium przypadku pokazującym, jak subtelne pętle sprzężenia zwrotnego mogą kształtować sztuczną inteligencję.
































