Eine anonyme Gruppe von Benutzern auf Discord behauptet, Sicherheitsmaßnahmen umgangen zu haben, um auf Claude Mythos Preview zuzugreifen, ein hochsensibles, unveröffentlichtes KI-Modell von Anthropic. Der Verstoß ist besonders alarmierend, da diesem Modell spezifische Fähigkeiten zugeschrieben werden.
Der Einsatz: Ein Modell für Cyber-Kriegsführung
Anthropic hat Claude Mythos als potenziell paradigmenwechselndes Tool mit erheblichen Auswirkungen auf die Sicherheit eingestuft. Nach Angaben des Unternehmens ist das Modell in der Lage:
– Identifizierung von Zero-Day-Schwachstellen (bisher unbekannte Schwachstellen) in wichtigen Betriebssystemen.
– Ausnutzung von Schwachstellen in allen gängigen Webbrowsern.
Aufgrund dieser Fähigkeiten hat Anthropic das Modell im Rahmen des Project Glasswing streng unter Verschluss gehalten. Diese nur auf Einladung zugängliche Initiative wurde entwickelt, um nur einer ausgewählten Gruppe von Technologieführern Zugang zu gewähren, mit dem erklärten Ziel, die KI zur Sicherung kritischer globaler Software zu nutzen. Der gemeldete Verstoß deutet jedoch darauf hin, dass genau das Tool, das die Cybersicherheit neu definieren soll, möglicherweise durch einfache menschliche Fehler und Verfahrensfehler kompromittiert wurde.
Wie es zu dem Verstoß kam: Vermutungen und Insider-Zugriff
Im Gegensatz zu dem, was man von einem Verstoß mit solch einer leistungsstarken KI erwarten könnte, war der Einbruch nicht das Ergebnis einer raffinierten technischen Ausnutzung. Stattdessen scheint es sich um eine Kombination aus Mustererkennung und Insiderhilfe gehandelt zu haben:
- Mustererkennung: Anhand von Daten aus einem kürzlichen Verstoß beim KI-Startup Mercor identifizierte die Gruppe die Namenskonventionen von Anthropic. Dadurch konnten sie den Online-Standort des unveröffentlichten Modells erraten.
- Insider-Zugang: Nachdem der Standort identifiziert worden war, nutzte die Gruppe den privilegierten Zugang, der von einem Mitglied bereitgestellt wurde, das für einen Drittanbieter von Anthropic arbeitete.
Die Gruppe betreibt einen privaten Discord-Kanal, der sich der Suche nach Informationen zu unveröffentlichten KI-Modellen widmet. Während die Mitglieder behaupten, dass sie das Tool für harmlose Aufgaben nutzen – etwa zum Erstellen einfacher Websites –, haben sie auch behauptet, dass sie Zugriff auf noch mehr unveröffentlichte Anthropic-Modelle haben.
Die aktuelle Situation
Anthropic hat gegenüber Bloomberg bestätigt, dass man sich der Behauptungen bewusst ist und derzeit eine Untersuchung durchführt. Obwohl die Gruppe genügend Beweise zur Untermauerung ihres Zugriffs vorgelegt hat, gibt es derzeit keine Hinweise darauf, dass andere unbefugte Parteien in das System eingedrungen sind.
Dieser Vorfall verdeutlicht die wachsenden Spannungen in der KI-Branche: Da Modelle immer besser in der Lage sind, Cyberangriffe zu automatisieren, müssen die Sicherheitsprotokolle, die sie schützen, exponentiell robuster werden.
Fazit
Der gemeldete Zugriff auf Claude Mythos deckt eine kritische Schwachstelle in der Art und Weise auf, wie KI-Unternehmen hochsensible Modelle mit hohem Risiko verwalten. Wenn ein Modell, das die Cybersicherheit neu gestalten kann, durch einfaches Rätselraten und den Zugriff von Auftragnehmern zugänglich ist, wirft dies dringende Fragen zur Sicherheit der nächsten Generation künstlicher Intelligenz auf.
