OpenAI doma a obsessão inexplicável do ChatGPT por goblins

27

O fenômeno: quando a IA se torna peculiar

Para os usuários das versões mais recentes do ChatGPT, surgiu um padrão peculiar: a inteligência artificial desenvolveu uma afinidade incomum com criaturas mitológicas, especificamente goblins e gremlins. Esta não foi uma escolha estilística sutil, mas um aumento mensurável no comportamento que levou a OpenAI a investigar e corrigir o código subjacente.

O problema tornou-se proeminente com o lançamento do GPT-5.1 e modelos subsequentes. Dados da OpenAI revelam que após este lançamento, a frequência da palavra “goblin” nas respostas do ChatGPT aumentou em 175%, enquanto as referências a “gremlins” aumentaram em 52%.

Embora uma única menção a um “pequeno duende” possa parecer inofensiva ou até encantadora isoladamente, o efeito cumulativo criou uma tendência notável. Como a OpenAI observou em uma postagem sincera no blog: “Através das gerações de modelos, porém, o hábito tornou-se difícil de ignorar: os goblins continuaram se multiplicando”.

A causa raiz: uma falha no treinamento

A obsessão não foi intencional. Em vez disso, resultou de uma consequência não intencional do Aprendizagem por Reforço com Feedback Humano (RLHF), o processo usado para ensinar aos modelos de IA quais respostas são preferidas.

  1. O sinal de recompensa : durante o treinamento, os revisores humanos avaliam as respostas para ajudar o modelo a aprender o que constitui uma resposta “boa”. Nesse caso, um sinal de recompensa específico favorecia inadvertidamente uma linguagem que incluía referências a goblins e criaturas semelhantes.
  2. A personalidade “Nerdy” : O pico foi mais pronunciado em uma persona específica do ChatGPT conhecida como “Nerdy”. Este modo foi projetado para reduzir a pretensão por meio de uma linguagem divertida e um falso senso de inteligência amigável. As instruções internas para essa personalidade provavelmente se alinharam com o sinal de recompensa acidental, fazendo com que o uso de palavras-chave disparasse.
  3. Contaminação cruzada : Mesmo os usuários que não selecionaram a persona “Nerdy” encontraram essas metáforas. Isso ocorreu porque o treinamento em IA não é totalmente isolado; uma vez que um tique estilístico é recompensado em uma área, ele pode se espalhar para outras partes do modelo por meio de ajuste fino supervisionado e reutilização de dados de preferência.

A correção: removendo o incentivo

A OpenAI resolveu o problema visando a fonte do reforço. A empresa implementou diversas medidas corretivas:

  • Retirada da Persona : A opção de personalidade “Nerdy” foi descontinuada em março com o lançamento do GPT-5.4. Esta única ação causou uma queda dramática nas referências relacionadas aos goblins.
  • Ajustando os sinais de recompensa : a OpenAI removeu o sinal de recompensa específico que favorecia a linguagem centrada nos goblins.
  • Filtragem de dados : a empresa refinou seus filtros de dados de treinamento para tornar as referências a essas criaturas menos propensas a aparecer em resultados futuros.

Por que isso é importante

Este incidente destaca um aspecto crítico do desenvolvimento moderno da IA: comportamentos emergentes. Mesmo quando os engenheiros não programam explicitamente uma IA para ser peculiar ou obcecada por criaturas fantásticas, algoritmos de treino complexos podem inadvertidamente amplificar padrões menores em características dominantes.

“Uma vez que um tique de estilo é recompensado, o treinamento posterior pode espalhá-lo ou reforçá-lo em outro lugar.”

Para os usuários, isso serve como um lembrete de que as personalidades da IA ​​são fluidas e estão sujeitas a alterações com base em ajustes de back-end. Para os desenvolvedores, isso ressalta a importância de monitorar não apenas a precisão, mas também as variações estilísticas inesperadas que podem alterar a experiência do usuário.

Conclusão

A OpenAI reduziu com sucesso a obsessão dos goblins do ChatGPT, removendo os incentivos de treinamento específicos que a alimentavam. Embora o chatbot possa retornar ao seu estilo simples e habitual, o episódio continua sendo um estudo de caso fascinante sobre como os ciclos sutis de feedback podem moldar a inteligência artificial.