Violation de la sécurité : un groupe Discord anonyme revendique l’accès au modèle d’IA à haut risque d’Anthropic

6

Un groupe anonyme d’utilisateurs sur Discord affirme avoir contourné les mesures de sécurité pour accéder à Claude Mythos Preview, un modèle d’IA hautement sensible et inédit d’Anthropic. La brèche est particulièrement alarmante en raison des capacités spécifiques attribuées à ce modèle.

Les enjeux : un modèle conçu pour la cyberguerre

Anthropic a classé Claude Mythos comme un outil potentiellement révolutionnaire avec des implications importantes en matière de sécurité. Selon l’entreprise, le modèle est capable de :
– Identifier les vulnérabilités Zero Day (défauts jusqu’alors inconnus) dans les principaux systèmes d’exploitation.
– Exploiter les faiblesses de tous les principaux navigateurs Web.

En raison de ces capacités, Anthropic a gardé le modèle sous clé dans le cadre du Projet Glasswing. Cette initiative sur invitation uniquement a été conçue pour accorder l’accès uniquement à un groupe sélectionné de leaders technologiques, dans le but déclaré d’utiliser l’IA pour sécuriser les logiciels mondiaux critiques. Cependant, la violation signalée suggère que l’outil même destiné à redéfinir la cybersécurité pourrait avoir été compromis par de simples erreurs humaines et procédurales.

Comment la violation s’est produite : conjectures et accès privilégié

Contrairement à ce que l’on pourrait attendre d’une faille impliquant une IA aussi puissante, l’intrusion n’est pas le résultat d’un exploit technique sophistiqué. Au lieu de cela, il semble qu’il s’agisse d’une combinaison de reconnaissance de formes et d’assistance interne :

  1. Reconnaissance de modèles : À l’aide des données d’une récente violation de la startup d’IA Mercor, le groupe a identifié les conventions de dénomination d’Anthropic. Cela leur a permis de deviner l’emplacement en ligne du modèle inédit.
  2. Accès interne : Une fois l’emplacement identifié, le groupe a utilisé un accès privilégié fourni par un membre qui travaillait pour un entrepreneur tiers pour Anthropic.

Le groupe opère au sein d’une chaîne Discord privée dédiée à la recherche d’informations sur les modèles d’IA inédits. Alors que les membres affirment qu’ils utilisent l’outil pour des tâches bénignes, telles que la création de sites Web simples, ils ont également affirmé avoir accès à encore plus de modèles Anthropic inédits.

La situation actuelle

Anthropic a confirmé à Bloomberg qu’elle était au courant de ces allégations et qu’elle menait actuellement une enquête. Bien que le groupe ait fourni suffisamment de preuves pour justifier son accès, rien n’indique actuellement que d’autres parties non autorisées aient violé le système.

Cet incident met en évidence une tension croissante dans l’industrie de l’IA : à mesure que les modèles deviennent plus capables d’automatiser les cyberattaques, les protocoles de sécurité qui les protègent doivent devenir exponentiellement plus robustes.

Conclusion

L’accès signalé à Claude Mythos expose une vulnérabilité critique dans la façon dont les sociétés d’IA gèrent des modèles hautement sensibles et à haut risque. Si un modèle capable de remodeler la cybersécurité est accessible via de simples conjectures et un accès par un entrepreneur, cela soulève des questions urgentes sur la sécurité de la prochaine génération d’intelligence artificielle.