Violazione della sicurezza: il gruppo anonimo Discord rivendica l’accesso al modello di intelligenza artificiale ad alto rischio di Anthropic

11

Un gruppo anonimo di utenti su Discord afferma di aver aggirato le misure di sicurezza per accedere a Claude Mythos Preview, un modello AI altamente sensibile e inedito di Anthropic. La violazione è particolarmente allarmante a causa delle capacità specifiche attribuite a questo modello.

La posta in gioco: un modello progettato per la guerra informatica

Anthropic ha classificato Claude Mythos come uno strumento potenzialmente rivoluzionario con significative implicazioni sulla sicurezza. Secondo l’azienda, il modello è in grado di:
– Identificazione delle vulnerabilità zero-day (difetti precedentemente sconosciuti) nei principali sistemi operativi.
– Sfruttare i punti deboli di tutti i principali browser Web.

Grazie a queste capacità, Anthropic ha mantenuto il modello sotto stretto controllo attraverso il Progetto Glasswing. Questa iniziativa solo su invito è stata progettata per garantire l’accesso solo a un gruppo selezionato di leader tecnologici, con l’obiettivo dichiarato di utilizzare l’intelligenza artificiale per proteggere software globale critico. Tuttavia, la violazione segnalata suggerisce che lo stesso strumento destinato a ridefinire la sicurezza informatica potrebbe essere stato compromesso da semplici errori umani e procedurali.

Come si è verificata la violazione: congetture e accesso privilegiato

Contrariamente a quanto ci si potrebbe aspettare da una violazione che coinvolge un’intelligenza artificiale così potente, l’intrusione non è stata il risultato di un sofisticato exploit tecnico. Sembra invece che si tratti di una combinazione di riconoscimento di modelli e assistenza interna:

  1. Riconoscimento di modelli: utilizzando i dati di una recente violazione presso la startup di intelligenza artificiale Mercor, il gruppo ha identificato le convenzioni di denominazione di Anthropic. Ciò ha permesso loro di indovinare la collocazione online del modello inedito.
  2. Accesso interno: Una volta identificata la posizione, il gruppo ha utilizzato l’accesso privilegiato fornito da un membro che lavorava per un appaltatore terzo per Anthropic.

Il gruppo opera all’interno di un canale Discord privato dedicato alla ricerca di informazioni riguardanti modelli di IA inediti. Sebbene i membri affermino di utilizzare lo strumento per attività benigne, come la creazione di semplici siti Web, hanno anche affermato di avere accesso a modelli antropici ancora più inediti.

La situazione attuale

Anthropic ha confermato a Bloomberg di essere a conoscenza delle affermazioni e sta attualmente conducendo un’indagine. Sebbene il gruppo abbia fornito prove sufficienti a sostegno del proprio accesso, al momento non vi è alcuna indicazione che altre parti non autorizzate abbiano violato il sistema.

Questo incidente evidenzia una crescente tensione nel settore dell’intelligenza artificiale: man mano che i modelli diventano sempre più capaci di automatizzare gli attacchi informatici, i protocolli di sicurezza che li proteggono devono diventare esponenzialmente più robusti.

Conclusione

L’accesso segnalato a Claude Mythos espone una vulnerabilità critica nel modo in cui le aziende di intelligenza artificiale gestiscono modelli altamente sensibili e ad alto rischio. Se è possibile accedere a un modello in grado di rimodellare la sicurezza informatica attraverso semplici congetture e accesso da parte di appaltatori, ciò solleva domande urgenti sulla sicurezza della prossima generazione di intelligenza artificiale.