Anonimowa grupa użytkowników na Discordzie twierdzi, że udało im się ominąć zabezpieczenia i uzyskać dostęp do Claude Mythos Preview, bardzo wrażliwego, jeszcze nieopublikowanego modelu sztucznej inteligencji firmy Anthropic. Zdarzenie to jest szczególnie niepokojące ze względu na specyficzne możliwości, jakie posiada ten model.
Stawka jest wysoka: model stworzony na potrzeby wojny cybernetycznej
Firma Anthropic sklasyfikowała Claude Mythos jako narzędzie zmieniające zasady gry, mające poważne konsekwencje dla bezpieczeństwa. Według firmy model jest w stanie:
– Zidentyfikuj luki dnia zerowego (wcześniej nieznane luki) w głównych systemach operacyjnych.
– Wykorzystaj słabości wszystkich głównych przeglądarek internetowych.
Ze względu na te możliwości firma Anthropic trzymała model pod ścisłą kontrolą w ramach Projektu Glasswing. Inicjatywa dostępna wyłącznie na zaproszenie miała zapewnić dostęp wybranej grupie liderów technologicznych, których określonym celem było wykorzystanie sztucznej inteligencji do ochrony światowego oprogramowania o znaczeniu krytycznym. Jednak raporty o włamaniu wskazują, że narzędzie zaprojektowane w celu ponownego spojrzenia na cyberbezpieczeństwo mogło zostać naruszone w wyniku prostych błędów ludzkich i proceduralnych.
Jak doszło do włamania: domysły i dostęp do informacji poufnych
Wbrew temu, czego można by się spodziewać po włamaniu wykorzystującym tak potężną sztuczną inteligencję, włamanie nie było wynikiem wyrafinowanego ataku technicznego. Zamiast tego stało się połączeniem rozpoznawania wzorców i pomagania od wewnątrz:
- Rozpoznawanie wzorców: Wykorzystując dane z niedawnego wycieku podczas uruchamiania AI Mercor, zespół opracował system nazewnictwa używany przez Anthropic. To pozwoliło im odgadnąć lokalizację sieciową niewydanego jeszcze modelu.
- Dostęp dla osób niejawnych: po ustaleniu lokalizacji grupa skorzystała z uprzywilejowanego dostępu zapewnianego przez członka, który pracował dla zewnętrznego wykonawcy, Anthropic.
Grupa działa na prywatnym kanale Discord poświęconym wyszukiwaniu informacji o niepublikowanych jeszcze modelach AI. Chociaż członkowie twierdzą, że używają tego narzędzia do nieszkodliwych zadań, takich jak tworzenie prostych stron internetowych, twierdzą również, że mają dostęp do jeszcze bardziej tajnych modeli antropicznych.
Obecna sytuacja
Anthropic potwierdziła Bloombergowi, że jest świadoma tych zarzutów i obecnie prowadzi dochodzenie. Chociaż grupa przedstawiła wystarczające dowody na poparcie swojego dostępu, obecnie nic nie wskazuje na to, że system został naruszony przez inne osoby z zewnątrz.
Incydent uwydatnia rosnące napięcie w branży sztucznej inteligencji: w miarę jak modele stają się coraz bardziej zdolne do automatyzacji cyberataków, chroniące je protokoły bezpieczeństwa muszą stać się wykładniczo solidniejsze.
Wniosek
Doniesienia o dostępie do Claude Mythos ujawniają krytyczną lukę w sposobie, w jaki firmy zajmujące się sztuczną inteligencją obsługują bardzo wrażliwe i obarczone wysokim ryzykiem modele. Jeśli dostęp do modelu, który mógłby zmienić oblicze cyberbezpieczeństwa, można uzyskać poprzez proste zgadywanie i konta wykonawców, rodzi to palące pytania dotyczące bezpieczeństwa sztucznej inteligencji nowej generacji.
