Violação de segurança: Anonymous Discord Group reivindica acesso ao modelo de IA de alto risco da Anthropic

7

Um grupo anônimo de usuários do Discord afirma ter contornado as medidas de segurança para acessar o Claude Mythos Preview, um modelo de IA inédito e altamente sensível da Anthropic. A violação é particularmente alarmante devido às capacidades específicas atribuídas a este modelo.

O que está em jogo: um modelo projetado para a guerra cibernética

A Anthropic categorizou Claude Mythos como uma ferramenta potencialmente de mudança de paradigma com implicações significativas de segurança. Segundo a empresa, o modelo é capaz de:
– Identificação de vulnerabilidades de dia zero (falhas anteriormente desconhecidas) nos principais sistemas operacionais.
– Explorar pontos fracos em todos os principais navegadores da web.

Por causa desses recursos, a Anthropic manteve o modelo sob estrita segurança por meio do Projeto Glasswing. Esta iniciativa apenas para convidados foi concebida para conceder acesso apenas a um grupo seleto de líderes tecnológicos, com o objetivo declarado de usar a IA para proteger software global crítico. No entanto, a violação denunciada sugere que a própria ferramenta destinada a redefinir a segurança cibernética pode ter sido comprometida por simples erros humanos e processuais.

Como a violação ocorreu: suposições e acesso interno

Ao contrário do que se poderia esperar de uma violação envolvendo uma IA tão poderosa, a intrusão não foi o resultado de uma exploração técnica sofisticada. Em vez disso, parece ter sido uma combinação de reconhecimento de padrões e assistência interna:

  1. Reconhecimento de padrões: Usando dados de uma violação recente na startup de IA Mercor, o grupo identificou as convenções de nomenclatura da Anthropic. Isso lhes permitiu adivinhar a localização online do modelo não lançado.
  2. Acesso interno: Uma vez identificado o local, o grupo utilizou acesso privilegiado fornecido por um membro que trabalhava para uma empresa terceirizada da Anthropic.

O grupo opera dentro de um canal privado do Discord dedicado à busca de informações sobre modelos de IA inéditos. Embora os membros afirmem que estão usando a ferramenta para tarefas benignas – como construir sites simples – eles também afirmaram que têm acesso a ainda mais modelos antrópicos inéditos.

A situação atual

A Anthropic confirmou à Bloomberg que está ciente das alegações e está atualmente conduzindo uma investigação. Embora o grupo tenha fornecido provas suficientes para fundamentar o seu acesso, atualmente não há indicação de que outras partes não autorizadas tenham violado o sistema.

Este incidente realça uma tensão crescente na indústria da IA: à medida que os modelos se tornam mais capazes de automatizar ataques cibernéticos, os protocolos de segurança que os protegem devem tornar-se exponencialmente mais robustos.

Conclusão

O acesso relatado a Claude Mythos expõe uma vulnerabilidade crítica na forma como as empresas de IA gerem modelos altamente sensíveis e de alto risco. Se um modelo capaz de remodelar a segurança cibernética puder ser acedido através de simples suposições e acesso de prestadores de serviços, levantar-se-ão questões urgentes sobre a segurança da próxima geração de inteligência artificial.