Останні новини та статті

OpenAI приручила незрозумілу одержимість ChatGPT гоблінами

08.05.2026

Феномен: коли ІІ починає поводитися ексцентрично

У користувачів останніх версій ChatGPT з’явився незвичайний патерн: штучний інтелект розвинув дивну потяг до міфологічним істотам, особливо до гоблінів та гремлин. Це було не просто стилістичним вибором, а вимірним стрибком у поведінці, який спонукав OpenAI провести розслідування та виправити код.

Проблема стала помітною після випуску GPT-5.1 та наступних моделей. Дані OpenAI показують, що після цього релізу частота згадки слова «гоблін» у відповідях ChatGPT зросла на 175%, а згадки «гремлінів» — на 52%.

Хоча одна згадка «маленького гобліна» може здатися невинною або навіть милим, сукупний ефект створив помітну тенденцію. Як зазначили розробники у своєму блозі, «протягом кількох генерацій моделей звичка стала важко не помітити: гобліни просто множилися».

Причина: збій у навчанні

Одержимість була навмисною. Вона стала непередбаченим наслідком процесу навчання з підкріпленням на основі людського зворотного зв’язку (RLHF), який використовується для навчання моделей, які відповіді кращі.

Сигнал винагороди : Під час навчання людські рецензенти оцінюють відповіді, щоб модель навчилася визначати «хорошу» відповідь. У разі сигнал винагороди випадково став сприяти мові, що містить згадки гоблінів і схожих істот.
«Гіковська» особистість : Стрибок був найбільш виражений у конкретному режимі ChatGPT, відомому як «Гік» (Nerdy). Цей режим розроблено, щоб знижувати пафос за допомогою грайливої мови та імітації дружнього інтелекту. Внутрішні підказки для цієї особи, ймовірно, збіглися з випадковим сигналом винагороди, що викликало вибухове зростання використання ключових слів.
Перехресне зараження : Навіть користувачі, які не вибрали режим Гік, стикалися з цими метафорами. Це сталося тому, що навчання ІІ не ізольовано повністю: як тільки стилістична звичка отримує винагороду в одній області, вона може поширитися на інші частини моделі через контрольоване тонке налаштування та повторне використання цих переваг.

Рішення: усунення стимулу

OpenAI вирішила проблему, націлившись на джерело підкріплення. Компанія вжила кілька коригувальних заходів:

Видалення особистості : Режим «Гік» був вимкнений у березні з виходом GPT-5.4. Ця одна дія призвела до різкого зниження згадок гоблінів.
Коректування сигналів винагороди : OpenAI прибрала конкретний сигнал винагороди, який сприяв мові з гоблінами.
Фільтрація даних : Компанія покращила фільтри навчальних даних, щоб зменшити ймовірність появи згадок цих істот у майбутніх відповідях.

Чому це важливо

Цей випадок наголошує на важливому аспекті сучасної розробки ІІ: що виникають поведінки. Навіть коли інженери явно не програмують ІІ бути ексцентричним або одержимим фантастичними істотами, складні алгоритми навчання можуть ненавмисно посилювати незначні патерни до рис.

«Щойно стилістична звичка отримує винагороду, подальше навчання може поширити чи посилити їх у інших місцях».

Для користувачів це нагадування, що особи ІІ гнучкі і можуть змінюватися в залежності від коригування на стороні сервера. Для розробників це підкреслює важливість моніторингу не тільки точності, а й несподіваних стилістичних зрушень, які можуть змінити досвід користувача.

Висновок

OpenAI успішно обмежила одержимість ChatGPT гоблінами, прибравши конкретні стимули навчання, які її підживлювали. Хоча чат-бот може повернутися до свого звичайного прямого стилю, цей епізод залишається цікавим кейсом, який демонструє, як тонкі петлі зворотного зв’язку можуть формувати штучний інтелект.