Violação de segurança: Anonymous Discord Group reivindica acesso ao modelo de IA de alto risco da Anthropic

18

Um grupo anônimo de usuários do Discord afirma ter contornado as medidas de segurança para acessar o Claude Mythos Preview, um modelo de IA inédito e altamente sensível da Anthropic. A violação é particularmente alarmante devido às capacidades específicas atribuídas a este modelo.

O que está em jogo: um modelo projetado para a guerra cibernética

A Anthropic categorizou Claude Mythos como uma ferramenta potencialmente de mudança de paradigma com implicações significativas de segurança. Segundo a empresa, o modelo é capaz de:
– Identificação de vulnerabilidades de dia zero (falhas anteriormente desconhecidas) nos principais sistemas operacionais.
– Explorar pontos fracos em todos os principais navegadores da web.

Por causa desses recursos, a Anthropic manteve o modelo sob estrita segurança por meio do Projeto Glasswing. Esta iniciativa apenas para convidados foi concebida para conceder acesso apenas a um grupo seleto de líderes tecnológicos, com o objetivo declarado de usar a IA para proteger software global crítico. No entanto, a violação denunciada sugere que a própria ferramenta destinada a redefinir a segurança cibernética pode ter sido comprometida por simples erros humanos e processuais.

Como a violação ocorreu: suposições e acesso interno

Ao contrário do que se poderia esperar de uma violação envolvendo uma IA tão poderosa, a intrusão não foi o resultado de uma exploração técnica sofisticada. Em vez disso, parece ter sido uma combinação de reconhecimento de padrões e assistência interna:

  1. Reconhecimento de padrões: Usando dados de uma violação recente na startup de IA Mercor, o grupo identificou as convenções de nomenclatura da Anthropic. Isso lhes permitiu adivinhar a localização online do modelo não lançado.
  2. Acesso interno: Uma vez identificado o local, o grupo utilizou acesso privilegiado fornecido por um membro que trabalhava para uma empresa terceirizada da Anthropic.

O grupo opera dentro de um canal privado do Discord dedicado à busca de informações sobre modelos de IA inéditos. Embora os membros afirmem que estão usando a ferramenta para tarefas benignas – como construir sites simples – eles também afirmaram que têm acesso a ainda mais modelos antrópicos inéditos.

A situação atual

A Anthropic confirmou à Bloomberg que está ciente das alegações e está atualmente conduzindo uma investigação. Embora o grupo tenha fornecido provas suficientes para fundamentar o seu acesso, atualmente não há indicação de que outras partes não autorizadas tenham violado o sistema.

Este incidente realça uma tensão crescente na indústria da IA: à medida que os modelos se tornam mais capazes de automatizar ataques cibernéticos, os protocolos de segurança que os protegem devem tornar-se exponencialmente mais robustos.

Conclusão

O acesso relatado a Claude Mythos expõe uma vulnerabilidade crítica na forma como as empresas de IA gerem modelos altamente sensíveis e de alto risco. Se um modelo capaz de remodelar a segurança cibernética puder ser acedido através de simples suposições e acesso de prestadores de serviços, levantar-se-ão questões urgentes sobre a segurança da próxima geração de inteligência artificial.