Anthropic Mythos prześwietlił curl. Efekt? Jedna niskiej wagi podatność zamiast przełomu

Co znajdziesz w tym artykule?

1 Wprowadzenie do problemu / definicja
2 W skrócie
3 Kontekst / historia
4 Analiza techniczna
5 Konsekwencje / ryzyko
6 Rekomendacje
7 Podsumowanie
8 Źródła

Wprowadzenie do problemu / definicja

Wykorzystanie modeli sztucznej inteligencji do analizy bezpieczeństwa kodu źródłowego staje się coraz ważniejszym elementem nowoczesnego AppSec. Najnowszy przykład dotyczy modelu Anthropic Mythos, promowanego jako narzędzie wyjątkowo skuteczne w wykrywaniu luk. Test przeprowadzony na projekcie curl pokazał jednak, że rzeczywista skuteczność AI w dojrzałych środowiskach programistycznych może być znacznie bardziej ograniczona, niż sugerują marketingowe zapowiedzi.

W praktyce model wskazał pięć rzekomo potwierdzonych problemów bezpieczeństwa. Po ręcznej analizie okazało się jednak, że tylko jedno zgłoszenie można uznać za faktyczną podatność, i to o niskiej ważności. Pozostałe przypadki sklasyfikowano jako fałszywe alarmy lub błędy niemające charakteru security.

W skrócie

Anthropic Mythos przeanalizował kod źródłowy projektu curl.
Model zgłosił pięć rzekomo potwierdzonych podatności.
Po weryfikacji trzy zgłoszenia uznano za false positive.
Jedno zgłoszenie okazało się zwykłym błędem jakościowym, a nie luką bezpieczeństwa.
Tylko jedno znalezisko zakwalifikowano jako rzeczywistą podatność o niskiej wadze.
Szczegóły mają zostać ujawnione wraz z wydaniem curl 8.21.0 planowanym na koniec czerwca 2026 roku.

Kontekst / historia

W kwietniu 2026 roku Anthropic wzbudził duże zainteresowanie branży cyberbezpieczeństwa, prezentując Mythos jako model AI zdolny do bardzo skutecznego odnajdywania luk w kodzie. Tego typu narracja naturalnie przyciągnęła uwagę, ponieważ sugerowała możliwość istotnego przyspieszenia zarówno obronnych, jak i ofensywnych zastosowań AI w analizie bezpieczeństwa.

Jednym z projektów wykorzystanych do oceny modelu był curl, czyli jeden z najpowszechniej stosowanych komponentów open source w infrastrukturze sieciowej i aplikacyjnej. To bardzo istotny kontekst, ponieważ kod curl od lat przechodzi intensywny fuzzing, analizę statyczną, przeglądy bezpieczeństwa oraz zewnętrzne audyty. Innymi słowy, nie jest to łatwy cel dla nowych narzędzi wykrywających błędy.

Dodatkowo maintainerzy projektu podkreślili, że repozytorium było już wcześniej analizowane przez inne narzędzia AI. W rezultacie wiele prostszych do wykrycia problemów mogło zostać usuniętych jeszcze przed uruchomieniem Mythos. To oznacza, że model trafił na kod o stosunkowo wysokiej dojrzałości bezpieczeństwa.

Analiza techniczna

Analiza objęła około 176–178 tysięcy linii kodu w języku C w głównych komponentach projektu. Mythos wskazał pięć przypadków opisanych jako potwierdzone podatności, jednak ręczna walidacja znacząco zmieniła końcową ocenę tych wyników.

Trzy zgłoszenia uznano za false positive, ponieważ odnosiły się do zachowań już znanych, udokumentowanych lub niebędących realnym naruszeniem bezpieczeństwa. Czwarte zgłoszenie sklasyfikowano jako zwykły bug, który może wymagać poprawki jakościowej, ale nie spełnia kryteriów luki bezpieczeństwa. Ostatecznie tylko jedno znalezisko zostało zaakceptowane jako autentyczna podatność.

Najważniejszy wniosek z technicznego punktu widzenia dotyczy nie samej liczby wykrytych problemów, lecz potrzeby eksperckiej walidacji. Narzędzia AI potrafią generować użyteczne hipotezy o potencjalnych podatnościach, ale nadal mają trudność z właściwą interpretacją kontekstu implementacyjnego, rozróżnieniem błędów logicznych od wektorów ataku oraz oceną rzeczywistego wpływu na bezpieczeństwo.

W przypadku curl nie doszło do odkrycia przełomowej klasy błędów ani krytycznych problemów memory safety w najbardziej wrażliwych obszarach projektu. Jednocześnie analiza dostarczyła materiału, który może wspierać dalsze utwardzanie kodu i poprawę jakości procesu secure SDLC.

Konsekwencje / ryzyko

Dla użytkowników curl bezpośrednie ryzyko związane z tym konkretnym przypadkiem wydaje się ograniczone. Jedyna potwierdzona luka ma niski priorytet, a jej szczegóły mają zostać ujawnione przy okazji kolejnego wydania projektu.

Znacznie ważniejsze są jednak konsekwencje strategiczne dla całej branży. Przypadek ten pokazuje, że marketing dotyczący AI security może wyprzedzać rzeczywiste wyniki techniczne. Potwierdza też, że nawet zaawansowane modele nadal generują fałszywe alarmy, co zwiększa koszt pracy zespołów AppSec, maintainerów open source i ekspertów odpowiedzialnych za triage.

Jednocześnie nie należy ignorować wartości takich narzędzi. Nawet jeśli większość wygenerowanych zgłoszeń wymaga odrzucenia, sama zdolność do szybkiego tworzenia listy kandydatów na podatności może skracać czas potrzebny na analizę dużych baz kodu. Dla obrońców oznacza to konieczność lepszego przygotowania procesów walidacji, a dla atakujących potencjalnie szybsze filtrowanie ścieżek prowadzących do realnych błędów.

Rekomendacje

Organizacje rozwijające lub utrzymujące oprogramowanie powinny traktować AI jako uzupełnienie istniejących praktyk bezpieczeństwa, a nie ich zamiennik. Dotyczy to zwłaszcza projektów o dużym znaczeniu operacyjnym, w których jakość walidacji ma równie duże znaczenie jak sama detekcja problemów.

Wykorzystywać AI do generowania hipotez i priorytetyzacji analizy, ale nie rezygnować z ręcznej weryfikacji.
Łączyć wyniki AI z klasycznymi metodami, takimi jak SAST, DAST, fuzzing, code review i testy regresyjne.
Utrzymywać formalny proces triage dla zgłoszeń pochodzących z narzędzi AI.
Regularnie analizować starszy kod i rzadziej używane ścieżki wykonania, gdzie tradycyjne testy mogą mieć mniejsze pokrycie.
Monitorować wydania bezpieczeństwa zależności, takich jak curl, i szybko wdrażać poprawki po publikacji advisory.
Przygotować zespoły DevSecOps i blue team na wzrost liczby zgłoszeń generowanych przez zewnętrznych badaczy korzystających z AI.

Podsumowanie

Przypadek Mythos i curl jest ważnym testem dojrzałości AI w cyberbezpieczeństwie. Nie potwierdził narracji o modelu zdolnym do masowego odkrywania krytycznych luk w jednym z najlepiej audytowanych projektów open source. Pokazał jednak, że AI może realnie wspierać analizę kodu i przyspieszać identyfikację potencjalnych problemów, nawet jeśli nie zastępuje ekspertów.

Dla rynku oznacza to jeden kluczowy wniosek: skuteczność modeli AI należy oceniać pragmatycznie, z uwzględnieniem jakości procesu walidacji oraz dojrzałości analizowanego oprogramowania. W dobrze utrzymanych projektach efekty mogą być umiarkowane, ale w mniej dojrzałych repozytoriach potencjał takich narzędzi nadal pozostaje bardzo duży.

Źródła

Security Affairs — https://securityaffairs.com/192029/hacking/the-worlds-most-dangerous-ai-anthropics-mythos-found-only-one-flaw-in-curl.html
Daniel Stenberg: Mythos finds a curl vulnerability — https://daniel.haxx.se/blog/2026/05/11/mythos-finds-a-curl-vulnerability/
Security Affairs — Anthropic Claude Opus AI model discovers 22 Firefox bugs — https://securityaffairs.com/189131/ai/anthropic-claude-opus-ai-model-discovers-22-firefox-bugs.html