El fenómeno: cuando la IA se vuelve peculiar
Para los usuarios de las últimas versiones de ChatGPT, ha surgido un patrón peculiar: la inteligencia artificial ha desarrollado una afinidad inusual por las criaturas mitológicas, específicamente los duendes y los gremlins. Esta no fue una elección de estilo sutil, sino un aumento mensurable en el comportamiento que llevó a OpenAI a investigar y corregir el código subyacente.
El problema se volvió prominente con el lanzamiento de GPT-5.1 y modelos posteriores. Los datos de OpenAI revelan que después de este lanzamiento, la frecuencia de la palabra “duende” en las respuestas de ChatGPT aumentó un 175%, mientras que las referencias a “gremlins” aumentaron un 52%.
Si bien una sola mención de un “pequeño duende” puede parecer inofensiva o incluso encantadora de forma aislada, el efecto acumulativo creó una tendencia notable. Como señaló OpenAI en una sincera publicación de blog: “Sin embargo, a lo largo de las generaciones de modelos, el hábito se volvió difícil de pasar por alto: los duendes seguían multiplicándose”.
La causa raíz: un problema técnico en el entrenamiento
La obsesión no fue intencionada. En cambio, surgió de una consecuencia no deseada del Aprendizaje reforzado a partir de la retroalimentación humana (RLHF), el proceso utilizado para enseñar a los modelos de IA qué respuestas prefieren.
- La señal de recompensa : durante el entrenamiento, los revisores humanos califican las respuestas para ayudar al modelo a aprender qué constituye una “buena” respuesta. En este caso, una señal de recompensa específica favoreció inadvertidamente un lenguaje que incluía referencias a duendes y criaturas similares.
- La personalidad “nerd” : el aumento fue más pronunciado en una persona específica de ChatGPT conocida como “Nerdy”. Este modo está diseñado para socavar la pretensión a través de un lenguaje juguetón y una falsa sensación de inteligencia amigable. Las indicaciones internas de esta personalidad probablemente se alinearon con la señal de recompensa accidental, lo que provocó que el uso de palabras clave se disparara.
- Contaminación cruzada : incluso los usuarios que no seleccionaron la personalidad “nerd” encontraron estas metáforas. Esto ocurrió porque el entrenamiento de IA no está completamente aislado; Una vez que un tic estilístico es recompensado en un área, puede extenderse a otras partes del modelo mediante ajustes supervisados y reutilización de datos de preferencias.
La solución: eliminar el incentivo
OpenAI abordó el problema apuntando a la fuente del refuerzo. La empresa implementó varias medidas correctivas:
- Retirar la Persona : La opción de personalidad “Nerdy” se retiró en marzo con el lanzamiento de GPT-5.4. Esta única acción provocó una caída dramática en las referencias relacionadas con los duendes.
- Ajuste de las señales de recompensa : OpenAI eliminó la señal de recompensa específica que favorecía el lenguaje centrado en los duendes.
- Filtrado de datos : la empresa refinó sus filtros de datos de entrenamiento para que sea menos probable que aparezcan referencias a estas criaturas en futuras producciones.
Por qué esto es importante
Este incidente destaca un aspecto crítico del desarrollo moderno de la IA: comportamientos emergentes. Incluso cuando los ingenieros no programan explícitamente una IA para que sea peculiar u obsesionada con criaturas fantásticas, los complejos algoritmos de entrenamiento pueden amplificar inadvertidamente patrones menores hasta convertirlos en rasgos dominantes.
“Una vez que se recompensa un tic de estilo, el entrenamiento posterior puede difundirlo o reforzarlo en otros lugares”.
Para los usuarios, esto sirve como un recordatorio de que las personalidades de la IA son fluidas y están sujetas a cambios según los ajustes del backend. Para los desarrolladores, subraya la importancia de monitorear no solo la precisión, sino también las variaciones estilísticas inesperadas que pueden alterar la experiencia del usuario.
Conclusión
OpenAI ha logrado reducir la obsesión por los duendes de ChatGPT al eliminar los incentivos de capacitación específicos que la alimentaban. Si bien el chatbot puede volver a su estilo sencillo habitual, el episodio sigue siendo un estudio de caso fascinante sobre cómo los bucles de retroalimentación sutiles pueden dar forma a la inteligencia artificial.
































