Mythos pod lupą: AI do wykrywania podatności imponuje w analizie kodu, ale nie dominuje we wszystkich zadaniach

Co znajdziesz w tym artykule?

1 Wprowadzenie do problemu / definicja
2 W skrócie
3 Kontekst / historia
4 Analiza techniczna
5 Konsekwencje / ryzyko
6 Rekomendacje
7 Podsumowanie
8 Źródła

Wprowadzenie do problemu / definicja

Modele AI coraz częściej wspierają zespoły bezpieczeństwa aplikacji w przeglądzie kodu, analizie binarnej, triage podatności oraz testach ofensywnych. Przypadek Mythos pokazuje jednak, że wysoka skuteczność w wykrywaniu błędów bezpieczeństwa nie oznacza automatycznie równie dobrej jakości w walidacji exploitów, ocenie realnego ryzyka i podejmowaniu decyzji wymagających dojrzałego osądu technicznego.

To istotne rozróżnienie dla zespołów AppSec, red teamów oraz dostawców narzędzi security AI. W praktyce model może znakomicie wskazywać podejrzane miejsca w kodzie, ale jednocześnie nie zawsze równie trafnie odpowiadać na pytanie, czy wykryty problem rzeczywiście da się wykorzystać i jaki ma wpływ na organizację.

W skrócie

Mythos osiąga bardzo dobre wyniki w wykrywaniu podatności, zwłaszcza podczas audytu kodu źródłowego.
Model dobrze radzi sobie również w analizie aplikacji natywnych, reverse engineeringu oraz pracy na materiałach niskopoziomowych.
Słabiej wypada tam, gdzie potrzebna jest precyzyjna walidacja exploitów i ocena praktycznej istotności znalezisk.
Znaczenie mają jakość promptów, sposób orkiestracji procesu oraz koszt użycia modelu.
Największą wartość Mythos daje jako akcelerator pracy analityków, a nie pełny substytut ekspertów bezpieczeństwa.

Kontekst / historia

Zainteresowanie modelem Mythos wzrosło po deklaracjach, że potrafi wykrywać więcej podatności niż wcześniejsze systemy AI stosowane w cyberbezpieczeństwie. Dla branży był to kolejny sygnał, że narzędzia oparte na dużych modelach językowych coraz śmielej wchodzą w obszary wcześniej zarezerwowane dla doświadczonych analityków, inżynierów bezpieczeństwa i specjalistów od reverse engineeringu.

Niezależne benchmarki potwierdziły główną tezę o wysokiej skuteczności modelu w discovery, czyli wyszukiwaniu kandydatów na podatności. Jednocześnie testy pokazały, że wyniki zależą od scenariusza użycia, rodzaju analizowanego materiału, jakości kontekstu oraz sposobu zadawania poleceń. Szczególnie ważna okazała się różnica między samą analizą kodu a analizą łączącą kod z obserwacją zachowania aplikacji lub środowiska uruchomieniowego.

Analiza techniczna

Najmocniejszą stroną Mythos pozostaje analiza kodu źródłowego oraz zadań, w których model może korelować wiele sygnałów technicznych jednocześnie. Dotyczy to między innymi błędów walidacji danych wejściowych, problemów z przepływem danych, luk pamięciowych i nieoczywistych interakcji pomiędzy komponentami aplikacji.

W testach technicznych szczególnie dobrze wypadły następujące obszary:

audyt kodu źródłowego pod kątem podatności,
analiza kodu natywnego,
reverse engineering,
triage wyników własnych i zewnętrznych modeli,
praca na mniej typowych kontekstach, takich jak firmware czy systemy wbudowane.

Takie wyniki sugerują, że Mythos dobrze radzi sobie tam, gdzie klasyczne skanery statyczne generują zbyt wiele szumu albo nie rozumieją pełnego kontekstu działania programu. Zdolność do semantycznej analizy kodu daje mu przewagę w zadaniach, które wymagają czegoś więcej niż dopasowania do gotowych reguł.

Gorzej sytuacja wygląda przy walidacji exploitów oraz przy zadaniach wymagających rygorystycznego, operacyjnego rozumowania. Model może być zbyt konserwatywny i odrzucać prawdziwe trafienia, gdy materiał dowodowy nie spełnia jego wewnętrznych kryteriów. Zdarza się też odwrotny problem, czyli zawyżanie praktycznego znaczenia wykrytych słabości, co utrudnia właściwą priorytetyzację prac naprawczych.

W praktyce oznacza to, że Mythos może bardzo dobrze generować listę obiecujących kandydatów na podatności, ale nie zawsze równie wiarygodnie oceniać ich eksploatowalność, złożoność ataku oraz realny wpływ biznesowy. To różnica kluczowa z punktu widzenia codziennego działania zespołów bezpieczeństwa.

Istotnym wnioskiem z testów jest również silna zależność od jakości promptów. Model osiąga najlepsze rezultaty wtedy, gdy otrzymuje precyzyjne polecenia i dobrze uporządkowany kontekst. Oznacza to, że nawet zaawansowane AI w security nadal wymaga starannej orkiestracji, dodatkowych narzędzi pomocniczych i doświadczonego operatora.

Nie bez znaczenia pozostaje także ekonomika użycia. Jeśli koszt działania modelu jest wysoki, przewaga technologiczna może nie zawsze przekładać się na najlepszy stosunek ceny do efektu. W części scenariuszy tańsze modele mogą być bardziej opłacalne, zwłaszcza gdy organizacja nie potrzebuje absolutnie najwyższej skuteczności w każdym przebiegu analizy.

Konsekwencje / ryzyko

Dla zespołów bezpieczeństwa najważniejszy wniosek jest prosty: Mythos nie powinien być traktowany jako samodzielny zamiennik analityka bezpieczeństwa, exploit developera czy specjalisty od analizy binarnej. To przede wszystkim bardzo mocny akcelerator wybranych etapów pracy.

Najważniejsze ryzyka operacyjne obejmują:

nadmierne zaufanie do wyników modelu bez weryfikacji ręcznej,
błędną priorytetyzację podatności z powodu przeszacowania ich znaczenia,
pomijanie realnych problemów, gdy model jest zbyt restrykcyjny,
wzrost kosztów analizy przy nieoptymalnym wykorzystaniu,
fałszywe poczucie pełnego pokrycia bezpieczeństwa.

Z perspektywy obrony oznacza to konieczność rozdzielenia trzech etapów: wykrycia kandydata na podatność, technicznej walidacji oraz oceny wpływu biznesowego. Mythos wydaje się szczególnie mocny w pierwszym obszarze, ale mniej przewidywalny w dwóch kolejnych.

W szerszym ujęciu wzrost skuteczności takich modeli zwiększa możliwości zarówno legalnych zespołów bezpieczeństwa, jak i podmiotów ofensywnych. To z kolei wywiera presję na szybsze łatanie luk, bardziej dojrzały secure SDLC i lepszą automatyzację procesów triage po stronie obronnej.

Rekomendacje

Organizacje planujące wdrożenie podobnych modeli powinny przyjąć podejście warstwowe. AI warto wykorzystywać przede wszystkim do zwiększania pokrycia analizy i przyspieszania identyfikacji potencjalnych problemów, a nie do autonomicznego podejmowania ostatecznych decyzji o krytyczności podatności.

Dobrym kierunkiem jest podział procesu na osobne etapy:

wykrywanie kandydatów na podatności,
reprodukcję i walidację techniczną,
ocenę wpływu,
rekomendację remediacji.

Warto także oceniać skuteczność modelu w konkretnych zastosowaniach, a nie tylko na poziomie ogólnych deklaracji. Inne wymagania stawia audyt backendu, inne analiza firmware, a jeszcze inne testowanie aplikacji webowych działających w środowisku produkcyjnym lub zbliżonym do produkcyjnego.

Kluczowe jest również mierzenie kosztów jednostkowych, takich jak liczba potwierdzonych znalezisk, czas walidacji, poziom false positive i koszt przypadający na jedną rzeczywiście potwierdzoną podatność. Bez takich danych łatwo uznać model za przełomowy technicznie, choć niekoniecznie uzasadniony biznesowo.

Zespoły powinny też inwestować w jakość promptów, standaryzację danych wejściowych oraz integrację modelu z dodatkowymi narzędziami, takimi jak sandboxy, debuggery, fuzzery, telemetry runtime i systemy zarządzania podatnościami. W praktyce przewagę buduje nie tylko sam model, ale cały proces, w którym jest osadzony.

Podsumowanie

Mythos potwierdza, że AI w cyberbezpieczeństwie osiąga nowy poziom dojrzałości, szczególnie w wykrywaniu podatności, analizie kodu natywnego i reverse engineeringu. Jednocześnie wyniki testów pokazują, że wysoka skuteczność w discovery nie przekłada się automatycznie na równie dobrą walidację exploitów, stabilny osąd i najlepszą relację kosztu do efektu.

Dla rynku to ważny sygnał: przyszłość security AI nie będzie należeć wyłącznie do modeli najpotężniejszych, ale do tych, które da się skutecznie połączyć z procesem walidacji, wiedzą ekspertów i realiami operacyjnymi organizacji. Ostatecznie wygrywa nie tylko model, lecz cały system pracy zbudowany wokół niego.

Źródła

SecurityWeek, https://www.securityweek.com/mythos-proves-potent-in-vulnerability-discovery-less-convincing-elsewhere/
XBOW – Mythos for Offensive Security: XBOW’s Evaluation, https://xbow.com/blog/mythos-offensive-security-xbow-evaluation
Anthropic – Claude Mythos Preview, https://red.anthropic.com/2026/mythos-preview/