Le phénomène : quand l’IA devient décalée
Pour les utilisateurs des dernières versions de ChatGPT, un schéma particulier est apparu : l’intelligence artificielle a développé une affinité inhabituelle pour les créatures mythologiques, en particulier les gobelins et les gremlins. Il ne s’agissait pas d’un choix stylistique subtil, mais d’un pic de comportement mesurable qui a incité OpenAI à enquêter et à corriger le code sous-jacent.
Le problème est devenu important avec la sortie de GPT-5.1 et des modèles ultérieurs. Les données d’OpenAI révèlent qu’après ce lancement, la fréquence du mot « gobelin » dans les réponses ChatGPT a bondi de 175 %, tandis que les références aux « gremlins » ont grimpé de 52 %.
Même si la simple mention d’un « petit gobelin » peut sembler inoffensive, voire charmante, isolément, l’effet cumulatif a créé une tendance notable. Comme l’a noté OpenAI dans un article de blog franc, “à travers les générations de modèles, cependant, cette habitude est devenue difficile à ignorer : les gobelins ont continué à se multiplier.”
La cause profonde : un problème dans la formation
Cette obsession n’était pas intentionnelle. Au lieu de cela, cela découle d’une conséquence involontaire de l’apprentissage par renforcement à partir de la rétroaction humaine (RLHF), le processus utilisé pour enseigner aux modèles d’IA quelles réponses sont préférées.
- Le signal de récompense : pendant la formation, les évaluateurs humains évaluent les réponses pour aider le modèle à comprendre ce qui constitue une « bonne » réponse. Dans ce cas, un signal de récompense spécifique privilégiait par inadvertance un langage incluant des références aux gobelins et créatures similaires.
- La personnalité “Nerdy” : le pic a été plus prononcé chez un personnage spécifique de ChatGPT connu sous le nom de “Nerdy”. Ce mode est conçu pour saper la prétention grâce à un langage ludique et un faux sentiment d’intelligence amicale. Les invites internes pour cette personnalité se sont probablement alignées sur le signal de récompense accidentel, provoquant une montée en flèche de l’utilisation des mots clés.
- Contamination croisée : même les utilisateurs qui n’ont pas sélectionné le personnage “Nerdy” ont rencontré ces métaphores. Cela s’est produit parce que la formation en IA n’est pas entièrement cloisonnée ; Une fois qu’un tic stylistique est récompensé dans un domaine, il peut se propager à d’autres parties du modèle grâce à un réglage fin supervisé et à la réutilisation des données de préférence.
La solution : supprimer l’incitation
OpenAI a résolu le problème en ciblant la source du renforcement. L’entreprise a mis en place plusieurs mesures correctives :
- Retrait de Persona : l’option de personnalité “Nerdy” a été retirée en mars avec la sortie de GPT-5.4. Cette seule action a provoqué une baisse spectaculaire des références liées aux gobelins.
- Ajustement des signaux de récompense : OpenAI a supprimé le signal de récompense spécifique qui favorisait le langage centré sur les gobelins.
- Filtrage des données : la société a affiné ses filtres de données d’entraînement pour rendre les références à ces créatures moins susceptibles d’apparaître dans les sorties futures.
Pourquoi c’est important
Cet incident met en évidence un aspect critique du développement de l’IA moderne : les comportements émergents. Même lorsque les ingénieurs ne programment pas explicitement une IA pour qu’elle soit originale ou obsédée par des créatures fantastiques, des algorithmes d’entraînement complexes peuvent par inadvertance amplifier des modèles mineurs en traits dominants.
“Une fois qu’un tic de style est récompensé, un entraînement ultérieur peut le diffuser ou le renforcer ailleurs.”
Pour les utilisateurs, cela rappelle que les personnalités de l’IA sont fluides et sujettes à changement en fonction des ajustements du backend. Pour les développeurs, cela souligne l’importance de surveiller non seulement la précision, mais aussi les dérives stylistiques inattendues qui peuvent altérer l’expérience utilisateur.
Conclusion
OpenAI a réussi à réduire l’obsession gobeline de ChatGPT en supprimant les incitations spécifiques à la formation qui l’alimentaient. Bien que le chatbot puisse revenir à son style simple et habituel, l’épisode reste une étude de cas fascinante sur la manière dont de subtiles boucles de rétroaction peuvent façonner l’intelligence artificielle.
