Феномен: когда ИИ начинает вести себя эксцентрично
У пользователей последних версий ChatGPT появился необычный паттерн: искусственный интеллект развил странную тягу к мифологическим существам, особенно к гоблинам и гремлинам. Это было не просто стилистическим выбором, а измеримым скачком в поведении, который побудил OpenAI провести расследование и исправить код.
Проблема стала заметна после выпуска GPT-5.1 и последующих моделей. Данные OpenAI показывают, что после этого релиза частота упоминания слова «гоблин» в ответах ChatGPT возросла на 175%, а упоминания «гремлинов» — на 52%.
Хотя одно упоминание «маленького гоблина» может показаться безобидным или даже милым, совокупный эффект создал заметную тенденцию. Как отметили разработчики в своём блоге, «в течение нескольких генераций моделей привычка стала трудно не заметить: гоблины просто множились».
Причина: сбой в обучении
Одержимость не была намеренной. Она стала непредвиденным следствием процесса обучения с подкреплением на основе человеческой обратной связи (RLHF), который используется для обучения моделей, какие ответы предпочтительнее.
- Сигнал вознаграждения : Во время обучения человеческие рецензенты оценивают ответы, чтобы модель научилась определять «хороший» ответ. В данном случае сигнал вознаграждения случайно стал благоприятствовать языку, содержащему упоминания гоблинов и похожих существ.
- «Гиковская» личность : Скачок был наиболее выражен в конкретном режиме ChatGPT, известном как «Гик» (Nerdy). Этот режим разработан, чтобы снижать пафос с помощью игривого языка и имитации дружественного интеллекта. Внутренние подсказки для этой личности, вероятно, совпали с случайным сигналом вознаграждения, что вызвало взрывной рост использования ключевых слов.
- Перекрёстное заражение : Даже пользователи, не выбравшие режим «Гик», сталкивались с этими метафорами. Это произошло потому, что обучение ИИ не изолировано полностью: как только стилистическая привычка получает вознаграждение в одной области, она может распространиться на другие части модели через контролируемое тонкую настройку и повторное использование данных предпочтений.
Решение: устранение стимула
OpenAI решила проблему, нацелившись на источник подкрепления. Компания приняла несколько корректирующих мер:
- Удаление личности : Режим «Гик» был отключен в марте с выходом GPT-5.4. Это одно действие привело к резкому снижению упоминаний гоблинов.
- Корректировка сигналов вознаграждения : OpenAI убрала конкретный сигнал вознаграждения, который благоприятствовал языку с гоблинами.
- Фильтрация данных : Компания улучшила фильтры обучающих данных, чтобы уменьшить вероятность появления упоминаний этих существ в будущих ответах.
Почему это важно
Этот случай подчёркивает важный аспект современной разработки ИИ: возникающие поведения. Даже когда инженеры явно не программируют ИИ быть эксцентричным или одержимым фантастическими существами, сложные алгоритмы обучения могут непреднамеренно усиливать незначительные паттерны до доминирующих черт.
«Как только стилистическая привычка получает вознаграждение, последующее обучение может распространить или усилить её в других местах».
Для пользователей это напоминание, что личности ИИ гибки и могут меняться в зависимости от корректировок на стороне сервера. Для разработчиков это подчёркивает важность мониторинга не только точности, но и неожиданных стилистических сдвигов, которые могут изменить пользовательский опыт.
Заключение
OpenAI успешно ограничила одержимость ChatGPT гоблинами, убрав конкретные стимулы обучения, которые её подпитывали. Хотя чат-бот может вернуться к своему обычному прямому стилю, этот эпизод остаётся интересным кейсом, демонстрирующим, как тонкие петли обратной связи могут формировать искусственный интеллект.
