OpenAI Menjinakkan Obsesi ChatGPT yang Tidak Dapat Dijelaskan Terhadap Goblin

9

Fenomena: Saat AI Menjadi Unik

Bagi pengguna ChatGPT versi terbaru, pola aneh telah muncul: kecerdasan buatan telah mengembangkan ketertarikan yang tidak biasa terhadap makhluk mitologi, khususnya goblin dan gremlin. Ini bukanlah pilihan gaya yang halus, melainkan lonjakan perilaku terukur yang mendorong OpenAI untuk menyelidiki dan memperbaiki kode yang mendasarinya.

Masalah ini menjadi menonjol dengan dirilisnya GPT-5.1 dan model berikutnya. Data dari OpenAI mengungkapkan bahwa setelah peluncuran ini, frekuensi kata “goblin” dalam tanggapan ChatGPT melonjak sebesar 175%, sementara referensi untuk “gremlin” meningkat sebesar 52%.

Meskipun satu penyebutan “goblin kecil” mungkin tampak tidak berbahaya atau bahkan menarik jika diabaikan, efek kumulatifnya menciptakan tren yang nyata. Seperti yang ditulis OpenAI dalam postingan blognya, “Namun, di seluruh generasi model, kebiasaan ini sulit untuk diabaikan: para goblin terus bertambah banyak.”

Akar Penyebab: Kesalahan dalam Pelatihan

Obsesi itu tidak disengaja. Sebaliknya, hal ini berasal dari konsekuensi yang tidak disengaja dari Reinforcement Learning from Human Feedback (RLHF), yaitu proses yang digunakan untuk mengajarkan model AI yang jawabannya lebih disukai.

  1. Sinyal Hadiah : Selama pelatihan, peninjau manusia menilai respons untuk membantu model mempelajari jawaban yang “baik”. Dalam hal ini, sinyal hadiah tertentu secara tidak sengaja memilih bahasa yang menyertakan referensi ke goblin dan makhluk serupa.
  2. Kepribadian “Kutu Buku” : Lonjakan paling menonjol pada persona ChatGPT tertentu yang dikenal sebagai “Kutu Buku”. Mode ini dirancang untuk mengurangi kepura-puraan melalui bahasa yang lucu dan rasa kecerdasan ramah yang palsu. Permintaan internal untuk kepribadian ini kemungkinan besar sejalan dengan sinyal hadiah yang tidak disengaja, menyebabkan penggunaan kata kunci meroket.
  3. Kontaminasi Silang : Bahkan pengguna yang tidak memilih persona “Kutu Buku” pun mengalami metafora ini. Hal ini terjadi karena pelatihan AI tidak sepenuhnya dilakukan secara terpisah; setelah gaya diterapkan di satu area, gaya tersebut dapat menyebar ke bagian lain model melalui penyesuaian yang diawasi dan penggunaan kembali data preferensi.

Cara Mengatasinya: Menghapus Insentif

OpenAI mengatasi masalah ini dengan menargetkan sumber penguatan. Perusahaan menerapkan beberapa langkah perbaikan:

  • Menghentikan Persona : Opsi kepribadian “Nerdy” dihentikan pada bulan Maret dengan dirilisnya GPT-5.4. Tindakan tunggal ini menyebabkan penurunan drastis dalam referensi terkait goblin.
  • Menyesuaikan Sinyal Hadiah : OpenAI menghapus sinyal hadiah spesifik yang selama ini mendukung bahasa yang berpusat pada goblin.
  • Pemfilteran Data : Perusahaan menyempurnakan filter data pelatihannya untuk mengurangi kemungkinan referensi terhadap makhluk ini muncul di keluaran mendatang.

Mengapa Ini Penting

Insiden ini menyoroti aspek penting dalam pengembangan AI modern: perilaku yang muncul. Bahkan ketika para insinyur tidak secara eksplisit memprogram AI agar menjadi unik atau terobsesi dengan makhluk fantasi, algoritma pelatihan yang kompleks dapat secara tidak sengaja memperkuat pola-pola kecil menjadi sifat-sifat dominan.

“Setelah suatu gaya dihargai, pelatihan selanjutnya dapat menyebarkan atau memperkuatnya di tempat lain.”

Bagi pengguna, hal ini berfungsi sebagai pengingat bahwa kepribadian AI bersifat cair dan dapat berubah berdasarkan penyesuaian backend. Bagi pengembang, hal ini menggarisbawahi pentingnya pemantauan tidak hanya untuk akurasi, namun juga penyimpangan gaya tak terduga yang dapat mengubah pengalaman pengguna.

Kesimpulan

OpenAI telah berhasil membatasi obsesi goblin ChatGPT dengan menghilangkan insentif pelatihan khusus yang memicunya. Meskipun chatbot mungkin kembali ke gaya lugas seperti biasanya, episode ini tetap menjadi studi kasus menarik tentang bagaimana putaran umpan balik yang halus dapat membentuk kecerdasan buatan.