Beveiligingsinbreuk: Anonymous Discord Group claimt toegang tot het risicovolle AI-model van Anthropic

20

Een anonieme groep gebruikers op Discord beweert beveiligingsmaatregelen te hebben omzeild om toegang te krijgen tot Claude Mythos Preview, een zeer gevoelig, nog niet uitgebracht AI-model van Anthropic. De inbreuk is bijzonder alarmerend vanwege de specifieke mogelijkheden die aan dit model worden toegeschreven.

The Stakes: een model ontworpen voor cyberoorlogvoering

Anthropic heeft Claude Mythos gecategoriseerd als een potentieel paradigma-verschuivend instrument met aanzienlijke veiligheidsimplicaties. Volgens het bedrijf is het model in staat om:
– Identificeren van zero-day-kwetsbaarheden (voorheen onbekende fouten) in belangrijke besturingssystemen.
– Het benutten van zwakke punten in elke grote webbrowser.

Vanwege deze mogelijkheden heeft Anthropic het model strikt achter slot en grendel gehouden via Project Glasswing. Dit initiatief dat alleen op uitnodiging toegankelijk is, is ontworpen om alleen toegang te verlenen aan een selecte groep technologieleiders, met als doel de AI te gebruiken om kritieke wereldwijde software te beveiligen. De gerapporteerde inbreuk suggereert echter dat juist het instrument dat bedoeld is om cyberbeveiliging te herdefiniëren, mogelijk is aangetast door eenvoudige menselijke en procedurele fouten.

Hoe de inbreuk plaatsvond: giswerk en toegang door insiders

In tegenstelling tot wat je zou verwachten van een inbreuk waarbij zo’n krachtige AI betrokken was, was de inbreuk niet het resultaat van een geavanceerde technische exploit. In plaats daarvan lijkt het een combinatie te zijn geweest van patroonherkenning en hulp van insiders:

  1. Patroonherkenning: Met behulp van gegevens van een recente inbreuk bij de AI-startup Mercor heeft de groep de naamgevingsconventies van Anthropic geïdentificeerd. Hierdoor konden ze de online locatie van het nog niet uitgebrachte model raden.
  2. Toegang met voorkennis: Nadat de locatie was geïdentificeerd, maakte de groep gebruik van bevoorrechte toegang die werd verleend door een lid dat voor een externe contractant voor Anthropic werkte.

De groep opereert binnen een privé Discord-kanaal dat zich toelegt op het zoeken naar informatie over niet-uitgebrachte AI-modellen. Hoewel leden beweren dat ze de tool voor goedaardige taken gebruiken, zoals het bouwen van eenvoudige websites, hebben ze ook beweerd dat ze toegang hebben tot nog meer niet-uitgebrachte Antropische modellen.

De huidige situatie

Anthropic heeft tegenover Bloomberg bevestigd dat het op de hoogte is van de claims en momenteel een onderzoek voert. Hoewel de groep voldoende bewijs heeft geleverd om hun toegang te onderbouwen, zijn er momenteel geen aanwijzingen dat andere ongeautoriseerde partijen het systeem hebben geschonden.

Dit incident benadrukt een groeiende spanning in de AI-industrie: naarmate modellen steeds beter in staat zijn cyberaanvallen te automatiseren, moeten de beveiligingsprotocollen die deze aanvallen beschermen exponentieel robuuster worden.

Conclusie

De gerapporteerde toegang tot Claude Mythos legt een kritieke kwetsbaarheid bloot in de manier waarop AI-bedrijven zeer gevoelige modellen met een hoog risico beheren. Als een model dat in staat is de cyberbeveiliging opnieuw vorm te geven toegankelijk kan worden gemaakt via eenvoudig giswerk en toegang door aannemers, roept dit urgente vragen op over de veiligheid van de volgende generatie kunstmatige intelligentie.