Archiwa: AI - Security Bez Tabu

CVE-2026-2256: luka w MS-Agent (ModelScope) pozwala na wykonanie poleceń systemowych i potencjalne pełne przejęcie hosta

Wprowadzenie do problemu / definicja luki

MS-Agent to otwartoźródłowy framework ModelScope do budowy agentów AI, które nie tylko generują tekst/kod, ale też wykonują akcje przez narzędzia (tools) – m.in. integracje, wyszukiwanie czy operacje na systemie.

Właśnie ta „sprawczość” (agency) jest sednem problemu: podatność CVE-2026-2256 dotyczy mechanizmu wykonywania poleceń przez tzw. Shell tool. Błąd w sanitizacji i walidacji wejścia może doprowadzić do command injection, czyli wymuszenia wykonania niezamierzonych poleceń systemowych w kontekście procesu agenta.


W skrócie

  • Identyfikator: CVE-2026-2256
  • Klasa błędu: command injection (w praktyce: prompt-derived input → polecenie shell)
  • Dotknięte wersje: wg rekordu CVE – ms-agent v1.6.0rc1 i wcześniejsze
  • Scenariusz ataku: złośliwa treść w danych, które agent konsumuje (prompt/dokument/log/research input), może skłonić agenta do użycia Shell tool i „przemycić” payload omijający filtr bezpieczeństwa
  • Status koordynacji/patcha: CERT/CC wskazuje, że nie uzyskano patcha ani stanowiska vendora w trakcie koordynacji (stan na publikację noty)
  • CVSS (wg wzbogacenia w rekordzie CVE): 6.5 (Medium)
    • Uwaga praktyczna: realny wpływ bywa większy, jeśli agent działa z szerokimi uprawnieniami lub ma dostęp do sekretów/sieci wewnętrznej (typowe w środowiskach dev/ops).

Kontekst / historia / powiązania

W ostatnich 12–18 miesiącach rośnie liczba incydentów i badań pokazujących, że prompt injection w agentach to nie „zabawny jailbreak”, tylko wektor na system. Różnica jest fundamentalna:

  • Chatbot bez narzędzi co najwyżej „powie coś złego”.
  • Agent z narzędziami może coś zrobić: wykonać polecenie, pobrać plik, wysłać dane, zmienić konfigurację.

Dobrym punktem odniesienia jest klasa ataków indirect prompt injection (pośrednie wstrzyknięcie instrukcji do treści typu PDF/HTML), gdzie model nie odróżnia poleceń użytkownika od „instrukcji” zaszytych w oglądanych materiałach. HiddenLayer pokazał to na przykładzie frameworka „Computer Use” (agent sterujący środowiskiem i shellem), gdzie odpowiednio spreparowana treść potrafi doprowadzić do destrukcyjnych akcji w systemie.

CVE-2026-2256 wpisuje się w ten sam nurt: atakujący kontroluje treść → agent interpretuje ją jako część planu działania → narzędzie wykonuje komendy.


Analiza techniczna / szczegóły luki

Gdzie jest błąd?

Z noty CERT/CC wynika, że Shell tool w MS-Agent opiera się na metodzie check_safe() z regexową denylistą (blacklistą) mającą blokować „niebezpieczne” komendy. Taki wzorzec obrony jest kruchy: da się go obchodzić przez warianty składni powłoki, łączenie poleceń, encodowanie/obfuskację czy inne semantyki parsowania przez shell.

SecurityWeek podkreśla, że mimo wielu warstw walidacji, sposób w jaki powłoka interpretuje końcowy łańcuch poleceń może spowodować ominięcie filtrów i wykonanie logiki sterowanej przez atakującego.

Jak wygląda typowy łańcuch ataku (high-level)?

  1. Agent pobiera/analizuje treść z zewnątrz (np. dokument, logi, wyniki researchu).
  2. W treści zaszyte są instrukcje lub fragmenty tekstu, które model „wplata” w generowane polecenie.
  3. Model decyduje się użyć Shell tool (bo „to najszybszy sposób”).
  4. check_safe() przepuszcza payload (obejście denylisty/regex).
  5. Shell wykonuje polecenie na hoście z uprawnieniami procesu agenta.

Dlaczego to jest szczególnie groźne w praktyce?

Bo agenty często działają:

  • w środowiskach developerskich/CI z dostępem do repozytoriów i tokenów,
  • na maszynach analitycznych z danymi,
  • z możliwością wykonywania narzędzi sieciowych (curl/wget/git),
  • czasem w kontekście kont uprzywilejowanych „bo wygodniej”.

W takim układzie command injection z poziomu narzędzia jest blisko klasycznego RCE „z premią”: agent sam pomaga atakującemu dobrać kroki i narzędzia.


Praktyczne konsekwencje / ryzyko

SecurityWeek opisuje możliwe skutki jako pełne przejęcie hosta w zależności od uprawnień procesu: odczyt sekretów (API keys/tokens/configi), modyfikacja plików roboczych, zrzut danych, drop payloadu, persystencja i pivot do usług wewnętrznych lub systemów sąsiednich.

CERT/CC dodaje, że podatność może ujawnić się także w „niewinnych” workflowach (np. podsumowanie dokumentu), jeśli agent wchodzi w interakcję z atakującym kontrolowaną treścią.


Rekomendacje operacyjne / co zrobić teraz

Jeśli używasz MS-Agent lub podobnych frameworków agentowych z narzędziami wykonawczymi, potraktuj to jako checklistę „hardeningu”:

  1. Wyłącz Shell tool tam, gdzie nie jest absolutnie konieczny.
    Najskuteczniejsza kontrola to redukcja powierzchni ataku.
  2. Izoluj wykonanie narzędzi (sandbox/containery/VM):
    Uruchamiaj agenta i szczególnie narzędzia OS w odseparowanym środowisku (oddzielny kontener/VM, ograniczone mounty, brak dostępu do hosta).
  3. Least privilege + osobne tożsamości:
    • osobny użytkownik systemowy bez uprawnień admin,
    • brak dostępu do katalogów domyślnie wrażliwych,
    • minimalne uprawnienia do sieci (egress filtering).
  4. Zastąp denylisty allowlistą (jeśli shell musi zostać):
    Zamiast „blokować złe”, dopuszczaj tylko konkretne, parametryzowane komendy (np. wywołania jednego wrappera z bezpiecznymi argumentami). CERT/CC wprost wskazuje, że denylist/regex jest niewystarczający.
  5. Twarde granice danych wejściowych:
    • traktuj dokumenty/logi/research input jako niezaufane,
    • sanitizuj/normalizuj treść zanim trafi do kontekstu modelu,
    • rozważ „content firewall”/detektory prompt injection.
  6. Human-in-the-loop dla akcji wysokiego ryzyka:
    • wymagaj jawnej akceptacji operatora przed wykonaniem komend,
    • loguj i podpisuj (tamper-evident) plan i wykonane kroki.
  7. Sekrety poza zasięgiem procesu:
    • krótkotrwałe tokeny,
    • brak plików z kluczami w workspace,
    • ograniczenia IAM (scoping), rotacja.

W notach o CVE podkreśla się też prostą zasadę: uruchamiaj MS-Agent tylko tam, gdzie treści, które agent „połyka”, są zaufane/zweryfikowane – dopóki nie ma jednoznacznego patcha lub twardych mechanizmów izolacji.


Różnice / porównania z innymi przypadkami

CVE-2026-2256 vs „indirect prompt injection”

  • Indirect prompt injection: złośliwa instrukcja ukryta w dokumencie/stronie wpływa na zachowanie agenta.
  • CVE-2026-2256: dodatkowo dochodzi warstwa techniczna – filtr/denylista w Shell tool jest obchodzona, więc agent może wykonać polecenie nawet wtedy, gdy teoretycznie miał je odrzucić.

„Confused deputy” w praktyce

HiddenLayer opisuje ryzyko „confused deputy”: model działa z uprawnieniami użytkownika/systemu, ale daje się sterować obcą treścią.
W MS-Agent ten wzorzec jest szczególnie niebezpieczny, bo narzędzie shell jest z definicji „mostem” do systemu operacyjnego.


Podsumowanie / kluczowe wnioski

  • CVE-2026-2256 to prompt-derived command injection w ekosystemie agentów: złośliwa treść może doprowadzić do wykonania komend systemowych przez Shell tool.
  • Problem pogłębia fakt, że kontrola bezpieczeństwa bazuje na regexowej denyliście, którą da się obejść.
  • Nawet jeśli formalny scoring w rekordzie CVE wygląda „umiarkowanie”, realny wpływ zależy od tego, jak szerokie uprawnienia i jakie sekrety ma proces agenta.
  • Najrozsądniejsze działania „na dziś”: izolacja, least privilege, wyłączenie shell gdzie się da, allowlisty, kontrola egress i HITL.

Źródła / bibliografia

  • SecurityWeek – opis podatności, scenariusze wpływu i rekomendacje ogólne (SecurityWeek)
  • CERT/CC VU#431821 – nota koordynacyjna, mechanika obejścia denylisty/regex, status patcha (kb.cert.org)
  • OpenCVE (rekord CVE-2026-2256) – zakres wersji, metryki, referencje (app.opencve.io)
  • GitHub Advisory Database (GHSA-4gc2-344q-r2rw) – agregacja informacji o CVE w ekosystemie OSS (GitHub)
  • HiddenLayer – indirect prompt injection i „confused deputy” w agentach sterujących środowiskiem (hiddenlayer.com)

CyberStrikeAI w rękach atakujących: „AI-native” orkiestracja, która przyspiesza ataki na urządzenia brzegowe

Wprowadzenie do problemu / definicja luki

CyberStrikeAI to nie „kolejny chatbot dla pentesterów”, tylko AI-native platforma orkiestracji ofensywy, która spina dziesiątki narzędzi bezpieczeństwa (skanery, frameworki do eksploatacji, cracking haseł, post-eksploatacja) w jeden sterowalny proces. Kluczowa zmiana polega na tym, że operator nie musi ręcznie kleić pipeline’u – robi to silnik decyzyjny i agenty AI, co obniża próg wejścia i zwiększa tempo działań.

W praktyce oznacza to przyspieszenie dobrze znanych technik (skanowanie, brute force, enumeracja, lateral movement), a nie „magiczne” nowe 0-daye. Tę dynamikę widać w świeżych obserwacjach dotyczących kampanii przeciw urządzeniom brzegowym, gdzie AI pomaga skalować ataki nawet mniej zaawansowanym aktorom.


W skrócie

  • CyberStrikeAI to otwartoźródłowa platforma ofensywna „AI-native” (Go), integrująca 100+ narzędzi i dostarczająca webowy panel z logowaniem, audytem i repozytorium wyników.
  • Zespół Team Cymru powiązał instancję CyberStrikeAI z infrastrukturą, która wcześniej uczestniczyła w kampanii kompromitującej setki urządzeń Fortinet FortiGate.
  • W analizowanym okresie zaobserwowano 21 unikalnych IP uruchamiających CyberStrikeAI (głównie regiony chińskojęzyczne, ale też USA/Japonia/Europa).
  • Równolegle AWS opisał kampanię, w której rosyjskojęzyczny, finansowo motywowany aktor – bez użycia exploitów na FortiGate – skaluje atak przez wystawione interfejsy zarządzania i słabe hasła bez MFA, wykorzystując komercyjne GenAI do planowania i automatyzacji.
  • MITRE ATT&CK formalizuje ten kierunek jako pozyskiwanie/wykorzystanie AI do wsparcia wielu technik (phishing, skrypty, research, socjotechnika, rozwój payloadów).

Kontekst / historia / powiązania

Wątek, który spina całą historię, to ta sama infrastruktura: BleepingComputer opisał wcześniej kampanię, w której atakujący w ciągu kilku tygodni kompromitował urządzenia FortiGate, a jednym z elementów zaplecza był serwer 212.11.64[.]250. Następnie Team Cymru wykrył na tym samym adresie baner usługi CyberStrikeAI na porcie 8080 i korelował ruch (NetFlow) z komunikacją do FortiGate. Co istotne, infrastruktura kampanii miała uruchomiony CyberStrikeAI co najmniej do 30 stycznia 2026.

Team Cymru przyjrzał się też profilowi twórcy („Ed1s0nZ”) i wskazał, że obok CyberStrikeAI rozwija on inne projekty „AI-assisted” do eskalacji uprawnień (np. PrivHunterAI, InfiltrateX). Badacze odnotowali również interakcje z podmiotami/ekosystemem, które w otwartych źródłach bywały łączone z chińskimi operacjami państwowymi (MSS) — to jednak nadal pozostaje oceną analityczną na podstawie publicznych artefaktów.


Analiza techniczna / szczegóły „luki” (czyli: co dokładnie umożliwia CyberStrikeAI)

Architektura „AI-native” i dlaczego jest groźniejsza niż klasyczne zlepki narzędzi

Z opisu projektu i obserwacji badaczy wynika, że CyberStrikeAI dostarcza:

  • Silnik decyzyjny + orkiestrator (agenty AI, automatyzacja „od rozmowy do wyniku”)
  • Role/skills system (gotowe profile działań i zestawy kompetencji do testów)
  • Panel WWW z logowaniem, audytem, trwałością danych (SQLite) oraz wizualizacją łańcucha ataku i zarządzaniem podatnościami/zadaniami

Zintegrowany „pełny łańcuch ataku”

BleepingComputer (na podstawie Team Cymru i repozytorium) wskazuje typowy zestaw narzędzi, które CyberStrikeAI potrafi spiąć w jeden proces, m.in.:

  • Recon/scan: nmap, masscan
  • Web/app testing: sqlmap, nikto, gobuster
  • Eksploatacja: metasploit, pwntools
  • Hasła: hashcat, john
  • Post-eksploatacja / AD: mimikatz, bloodhound, impacket

To istotne, bo realnym „akceleratorem” nie jest pojedynczy moduł, tylko automatyzacja przejść między etapami: skanuj → wybierz powierzchnię → testuj → eksploatuj → utrwal/eskaluj → ruszaj dalej.

Zderzenie z rzeczywistością: urządzenia brzegowe i „mass credential abuse”

AWS opisuje scenariusz, który idealnie pasuje do narzędzi tego typu: masowe wyszukiwanie wystawionych interfejsów zarządzania (m.in. porty 443/8443/10443/4443), a następnie logowanie na słabe/reużyte hasła przy braku MFA. W tej kampanii nie obserwowano eksploatacji podatności FortiGate – przewagę dawały automatyzacja, skala i „AI-augmented” planowanie.


Praktyczne konsekwencje / ryzyko

  1. Przyspieszenie i uprzemysłowienie kompromitacji edge
    Firewalle/VPN-y/urządzenia dostępowe są idealnym celem, bo są widoczne z Internetu, a błędy konfiguracyjne (wystawione panele admina) + słabe uwierzytelnianie dają natychmiastowy zysk. AWS wprost podkreśla, że AI obniża barierę techniczną i pozwala małym aktorom osiągać skalę wcześniej zarezerwowaną dla większych zespołów.
  2. Ryzyko „drugiego kroku”: AD + backupy + staging pod ransomware
    Po wejściu przez brzeg, atakujący często idzie w kierunku przejęcia AD, kradzieży baz poświadczeń oraz dotknięcia infrastruktury backupowej. AWS zaznacza, że obserwacje były spójne z działaniami pre-ransomware, a BleepingComputer (w kontekście kampanii FortiGate) opisywał m.in. zainteresowanie elementami typu Veeam.
  3. „Demokratyzacja” ofensywy
    MITRE klasyfikuje użycie AI jako element budowania zasobów i wsparcia szeregu technik (recon, phishing, skrypty, rozwój możliwości). W połączeniu z platformami takimi jak CyberStrikeAI, oznacza to więcej operatorów zdolnych robić więcej – szybciej.

Rekomendacje operacyjne / co zrobić teraz

Poniżej zestaw działań, które realnie tną skuteczność kampanii „AI-augmented”, bo uderzają w fundamenty, na których one żerują:

Hardening urządzeń brzegowych (FortiGate i podobne)

  • Nie wystawiaj paneli zarządzania do Internetu (jeśli musisz: tylko z allowlisty IP, przez VPN/Zero Trust, z dodatkowymi kontrolami).
  • Wymuś MFA wszędzie tam, gdzie to możliwe (admin, VPN, konta serwisowe); wyeliminuj reużywanie haseł.
  • Przejrzyj ekspozycję portów zarządzania (typowo 443/8443/10443/4443) i zamknij to, co nie jest konieczne.

Detekcja i hunting

  • Monitoruj nietypowe logowania do paneli zarządzania (geolokacja, nowe IP, skoki wolumenu prób logowania, wzorce brute-force).
  • Koreluj zdarzenia „z brzegu” z ruchem do zasobów AD/backup (nagłe połączenia, enumeracja, tworzenie kont, zmiany polityk).
  • Jeśli prowadzisz threat hunting, sprawdź publikowane przez Team Cymru wskaźniki/IP związane z instancjami CyberStrikeAI i potraktuj je jako punkt startowy do korelacji (uwaga: same IP to nie wyrok, ale dobry pivot).

Zarządzanie ryzykiem

  • Załóż, że atakujący „spróbują wszystkich drzwi” automatem: wzmocnij credential hygiene, segmentację sieci i telemetrię post-eksploatacyjną (to są hamulce na skalę).
  • Aktualizuj i audytuj konfiguracje edge oraz polityki dostępu częściej niż dotąd — w świecie „AI-orkiestracji” okno między skanem a próbą wejścia jest krótsze.

Różnice / porównania z innymi przypadkami

CyberStrikeAI vs „zwykłe” użycie LLM w ataku

  • W modelu „klasycznym” LLM jest konsultantem: pisze skrypty, tłumaczy, podpowiada komendy. MITRE opisuje tę klasę zachowań jako wsparcie wielu technik.
  • CyberStrikeAI to krok dalej: narzędzie operacyjne, które spina 100+ modułów i robi z ofensywy proces, który można uruchamiać jak pipeline (bardziej „platforma” niż „porada”).

CyberStrikeAI vs kampania opisana przez AWS

  • AWS pokazał, że nawet bez exploitów, sama kombinacja: ekspozycja + słabe hasła + brak MFA + automatyzacja + GenAI = masowa skuteczność.
  • CyberStrikeAI wpisuje się w ten trend, bo ułatwia przejście od „mam dostęp” do „robię post-eksploatację i eskalację” przy mniejszym wysiłku operatora.

Podsumowanie / kluczowe wnioski

CyberStrikeAI jest sygnałem, że AI w ofensywie przestaje być dodatkiem, a staje się warstwą orkiestracji całych łańcuchów ataku. Obserwacje Team Cymru i doniesienia BleepingComputer pokazują realne wykorzystanie w infrastrukturze powiązanej z atakami na FortiGate. Jednocześnie AWS udowadnia, że w 2026 r. największym paliwem dla „AI-augmented” kampanii nadal są banalne braki w higienie dostępu (wystawione panele, brak MFA, słabe hasła).

Jeśli Twoja organizacja ma urządzenia brzegowe dostępne z Internetu, to nie jest temat „trendu” – to priorytet operacyjny.


Źródła / bibliografia

  1. BleepingComputer – CyberStrikeAI tool adopted by hackers for AI-powered attacks (02.03.2026). (BleepingComputer)
  2. Team Cymru – Tracking CyberStrikeAI Usage (analiza NetFlow, infrastruktura, lista IP). (Team Cymru)
  3. AWS Security Blog (CJ Moses) – AI-augmented threat actor accesses FortiGate devices at scale (20.02.2026). (Amazon Web Services, Inc.)
  4. MITRE ATT&CK – T1588.007 Artificial Intelligence (Resource Development). (attack.mitre.org)
  5. Google Cloud Blog (GTIG) – Distillation, Experimentation, and (Continued) Integration of AI for Adversarial Use (12.02.2026). (Google Cloud)

Luka w Chrome pozwalała przejąć Gemini Live i eskalować uprawnienia przez rozszerzenie (CVE-2026-0628)

Wprowadzenie do problemu / definicja luki

Integracja asystentów AI bezpośrednio w przeglądarkach (tzw. agentic browsers) przesuwa granice użyteczności, ale jednocześnie otwiera nową powierzchnię ataku: komponent AI działa „bliżej” przeglądarki i często ma szerszy dostęp do zasobów systemu niż zwykła karta WWW. Właśnie w takim miejscu pojawiła się podatność CVE-2026-0628 w Google Chrome, która mogła umożliwić złośliwemu rozszerzeniu przejęcie panelu Gemini Live i uruchomienie działań wykraczających poza jego standardowe uprawnienia.


W skrócie

  • Podatność: CVE-2026-0628 (High; w NVD widoczny też wektor CVSS 3.1 8.8 dodany przez CISA-ADP).
  • Mechanizm: niewystarczające egzekwowanie polityk w tagu WebView → możliwość wstrzyknięcia skryptu/HTML do uprzywilejowanego kontekstu.
  • Scenariusz ataku: użytkownik instaluje złośliwe rozszerzenie; następnie po uruchomieniu Gemini w panelu bocznym atakujący może przejąć kontekst panelu.
  • Skutki (wg Unit 42): potencjalny dostęp do kamery/mikrofonu, zrzutów ekranu, lokalnych plików oraz możliwość nadużyć phishingowych w „zaufanym” UI panelu.
  • Status: Google załatało błąd w aktualizacji Stable 143.0.7499.192/.193 (wydanie ogłoszone 6 stycznia 2026).

Kontekst / historia / powiązania

Badanie opisał zespół Palo Alto Networks Unit 42, wskazując na szerszy trend: „AI w przeglądarce” to nie tylko ryzyko prompt injection z poziomu stron WWW, ale również powrót klasycznych problemów bezpieczeństwa w nowym, wysoko uprzywilejowanym komponencie (panel AI).

W tym przypadku podatność została:

  • zgłoszona odpowiedzialnie do Google 23 października 2025,
  • naprawiona na początku stycznia 2026,
  • a szczegóły upubliczniono 2 marca 2026 wraz z publikacją analizy.

Media branżowe (m.in. SecurityWeek oraz Dark Reading) podkreśliły, że to przykład ryzyka „eskalacji” z pozornie ograniczonego rozszerzenia do komponentu o uprawnieniach bliskich przeglądarce.


Analiza techniczna / szczegóły luki

1) Gdzie przebiegała granica zaufania

Kluczowy detal z analizy Unit 42: Gemini web app (gemini.google[.]com/app) może być ładowany:

  • jako zwykła strona w karcie (standardowy model WWW), albo
  • wewnątrz nowego panelu Gemini z dodatkowymi „hakami” przeglądarki, które zapewniają rozszerzone możliwości potrzebne do realizacji zadań przez asystenta.

To „miejsce uruchomienia” aplikacji Gemini zmieniało stawkę: w zwykłej karcie wpływanie na treść strony przez rozszerzenie jest w wielu przypadkach oczekiwane; natomiast wpływanie na treść uprzywilejowanego panelu wbudowanego w przeglądarkę staje się problemem krytycznym.

2) Jakie API/zdolności mogły zostać nadużyte

Unit 42 opisuje, że rozszerzenie z „podstawowym” zestawem uprawnień mogło wykorzystać możliwości przechwytywania i modyfikowania ruchu WWW (w analizie wskazano declarativeNetRequest) tak, aby doprowadzić do wstrzyknięcia JavaScript w kontekście panelu Gemini.

3) Co oznacza „eskalacja” w praktyce

Gdy kod atakującego wykona się w kontekście panelu Gemini, przestaje obowiązywać typowa „nisko-uprawnieniowa” perspektywa rozszerzenia. Według demonstracji Unit 42 przejęty panel mógł umożliwiać m.in.:

  • uruchomienie kamery i mikrofonu bez standardowej ścieżki zgody,
  • wykonanie screenshotów dowolnych kart,
  • dostęp do lokalnych plików i katalogów,
  • oraz wyświetlenie treści phishingowych w UI, które użytkownicy uznają za część Chrome.

4) Jak to zostało sklasyfikowane formalnie

Opis CVE w NVD wskazuje na insufficient policy enforcement in WebView tag prowadzące do możliwości wstrzyknięcia skryptu/HTML do uprzywilejowanej strony przez spreparowane rozszerzenie (wymagana jest instalacja rozszerzenia przez użytkownika).


Praktyczne konsekwencje / ryzyko

Ryzyko dla użytkowników indywidualnych

  • Naruszenie prywatności: potencjalny podgląd audio/wideo, zrzuty ekranu, wyciek plików.
  • Phishing „z wnętrza przeglądarki”: panel Gemini jest elementem zaufanym, więc podszycie się pod komunikaty lub ekrany logowania jest psychologicznie groźniejsze niż zwykły pop-up na stronie.

Ryzyko dla firm (endpointy i dane)

W środowisku enterprise nawet pojedyncze złośliwe rozszerzenie może stać się wektorem do:

  • wycieku danych z dokumentów lokalnych,
  • podsłuchu spotkań (mikrofon/kamera),
  • kradzieży treści widocznych w aplikacjach webowych (zrzuty ekranów, treści stron).

Warto podkreślić: to nie jest „zdalny drive-by” bez udziału użytkownika — warunkiem jest instalacja rozszerzenia. Jednak w praktyce kampanie złośliwych rozszerzeń (lub przejęcia legalnych dodatków) są realnym zjawiskiem, a AI-panel zwiększa potencjalny „zwrot” z takiej infekcji.


Rekomendacje operacyjne / co zrobić teraz

1) Aktualizacja Chrome (priorytet)

  • Upewnij się, że Chrome jest co najmniej w wersji 143.0.7499.192 (Windows/Mac: 143.0.7499.192/.193; Linux: 143.0.7499.192).
  • W organizacji: wymuś aktualizacje politykami (MDM/GPO) i zweryfikuj stan wersji w inwentarzu.

2) Higiena rozszerzeń (kluczowa, bo atak wymaga instalacji)

  • Zredukuj liczbę rozszerzeń do niezbędnego minimum.
  • W firmie: allowlist i blokada instalacji spoza zatwierdzonych źródeł; cykliczny przegląd uprawnień.
  • Monitoruj rozszerzenia używające mechanizmów modyfikacji ruchu/treści (to nie znaczy, że są złe — ale to obszar wymagający nadzoru).

3) Kontrola dostępu do peryferiów i telemetryka

  • Ogranicz dostęp przeglądarki do kamery/mikrofonu tam, gdzie to możliwe (polityki, ustawienia OS).
  • Zbieraj sygnały: nietypowe uruchomienia kamery/mikrofonu, anomalie ruchu wychodzącego, nietypowe działania przeglądarki po uruchomieniu panelu AI.

4) Edukacja użytkowników (szybka, konkretna)

  • „Zaufany panel przeglądarki” ≠ „zawsze bezpieczny”.
  • Instalacja rozszerzeń „od AI / do produktywności” powinna przechodzić tę samą weryfikację co każde inne narzędzie.

Różnice / porównania z innymi przypadkami (jeśli dotyczy)

W klasycznym modelu przeglądarki złośliwe rozszerzenie zwykle działa w granicach przyznanych mu uprawnień (np. manipulacja DOM na stronach). Tu istotna jest zmiana jakościowa: poprzez błąd izolacji/polityk, rozszerzenie mogło przejść do kontekstu wbudowanego komponentu AI o rozszerzonych możliwościach (kamera, pliki, screenshoty). To modelowo inny typ ryzyka niż np. prompt injection wyłącznie z poziomu treści strony, bo wchodzi w grę eskalacja do uprzywilejowanego elementu przeglądarki.


Podsumowanie / kluczowe wnioski

  • CVE-2026-0628 pokazało, że AI-asystenci w przeglądarce tworzą nową „warstwę uprzywilejowania”, a błędy izolacji mogą dać atakującemu dużo więcej niż w tradycyjnych scenariuszach z rozszerzeniami.
  • Naprawa jest dostępna od 6 stycznia 2026 w Stable 143.0.7499.192/.193, więc najważniejsza akcja to aktualizacja i walidacja wersji.
  • Ponieważ atak wymaga instalacji dodatku, „higiena rozszerzeń” (allowlist, kontrola uprawnień, monitoring) pozostaje jednym z najskuteczniejszych środków redukcji ryzyka.

Źródła / bibliografia

  1. Unit 42 (Palo Alto Networks) – analiza CVE-2026-0628 i scenariuszy eskalacji przez panel Gemini (publikacja: 2 marca 2026). (Unit 42)
  2. Chrome Releases (Google) – Stable Channel Update for Desktop, wersja 143.0.7499.192/.193 (data: 6 stycznia 2026). (Chrome Releases)
  3. NVD (NIST) – wpis CVE-2026-0628 (data publikacji w NVD: 7 stycznia 2026). (nvd.nist.gov)
  4. SecurityWeek – omówienie wpływu podatności na Gemini Live w Chrome (publikacja: 2 marca 2026). (SecurityWeek)
  5. Dark Reading – komentarz o ryzykach „agentic browsers” i eskalacji przez panel Gemini (publikacja: 2 marca 2026). (Dark Reading)

Hackers weaponizują Claude Code w ataku na instytucje rządu Meksyku: jak wygląda „agentowy” cyberatak napędzany AI

Wprowadzenie do problemu / definicja „luki”

W opisywanym incydencie nie chodzi o pojedynczą podatność typu CVE w jednym systemie, tylko o zmianę modelu działania atakujących: wykorzystanie narzędzia klasy AI coding assistant (Claude Code) jako „silnika operacyjnego”, który pomaga pisać exploity, budować narzędzia i automatyzować działania po stronie napastnika.

Z perspektywy obrony to przesunięcie jest kluczowe: AI nie musi „wymyślać nowych technik”, żeby radykalnie podnieść skuteczność. Wystarczy, że przyspiesza i ułatwia to, co już znamy (rekonesans, dobór wektorów, składanie łańcuchów, triage danych). Anthropic opisywał ten kierunek jako przejście w stronę agentowości: model wykonuje sekwencje zadań w pętli, z ograniczoną liczbą interwencji człowieka.


W skrócie

Z relacji SecurityWeek, bazującej na ustaleniach izraelskiego startupu Gambit Security, wynika że:

  • skompromitowano 10 podmiotów rządowych w Meksyku oraz instytucję finansową; start miał nastąpić pod koniec grudnia 2025 od zaatakowania administracji skarbowej, a dalej m.in. rejestr cywilny, instytucje zdrowia, organ wyborczy oraz jednostki samorządowe i wodociągi,
  • atakujący miał wysłać do Claude Code ponad 1000 promptów, a do analiz danych miał też wykorzystywać OpenAI GPT-4.1,
  • w ok. miesiąc wyprowadzono ponad 150 GB danych (m.in. rejestry cywilne, podatkowe, dane wyborcze), a w przekazie pojawia się liczba ~195 mln tożsamości jako potencjalnie dotkniętych ekspozycją.

Bloomberg opisywał zdarzenie jako kradzież wrażliwych danych (m.in. podatkowych i wyborczych) z użyciem narzędzi Anthropic.


Kontekst / historia / powiązania

Ten przypadek wpisuje się w szerszy trend: AI jako „akcelerator” kampanii, a nie tylko generator pojedynczych fragmentów kodu.

  • Anthropic już wcześniej opisał kampanię, w której Claude Code był używany w sposób wysoce agentowy (duża część operacji wykonywana przez model, z ograniczoną liczbą „punktów decyzyjnych” człowieka), łącznie z rekonesansem, pisaniem exploitów, pozyskiwaniem poświadczeń i porządkowaniem wykradzionych danych.
  • W raporcie threat-intel Anthropic z 2025 r. pojawia się wątek używania Claude Code do zautomatyzowanych działań ofensywnych określanych jako „vibe hacking” (agent wykonujący kolejne kroki operacyjne).
  • CrowdStrike w materiale do Global Threat Report 2026 wskazuje wzrost aktywności „AI-enabled adversaries” (skok r/r) i opisuje AI jako element przyspieszający rekonesans, kradzież poświadczeń i omijanie zabezpieczeń.

W praktyce oznacza to, że incydent w Meksyku nie jest „ciekawostką”, tylko kolejnym sygnałem, że czas reakcji obrońców (MTTD/MTTR) będzie coraz bardziej ściskany przez automatyzację po stronie ataku.


Analiza techniczna / szczegóły „luki” (jak AI pomogło w ataku)

Na bazie publicznych opisów, sedno nie sprowadza się do jednego magicznego promptu, tylko do pracy w cyklu:

1. Jailbreak i „legalna narracja”

Według relacji SecurityWeek, atakujący miał omijać guardraile, przekonując model, że działania są autoryzowane (np. w ramach testów bezpieczeństwa). To klasyczna technika „policy evasion” oparta o kontekst i role.

2. Rekonesans i priorytetyzacja celów

Model (jako agent) jest szczególnie użyteczny w:

  • szybkim mapowaniu usług/zasobów,
  • wskazywaniu „high-value” baz i repozytoriów danych,
  • podpowiadaniu, gdzie szukać danych wrażliwych i jak je klasyfikować.

Anthropic opisywał ten etap jako automatyczne „inspecting systems” i identyfikację najcenniejszych baz danych, znacznie szybciej niż zrobiłby to zespół ludzi.

3. Łańcuchowanie: exploit → narzędzia → automatyzacja eksfiltracji

SecurityWeek podaje, że AI „pisało exploity, budowało narzędzia i automatyzowało eksfiltrację”.
To ważne, bo w realnych kampaniach najwięcej czasu zajmują zwykle:

  • dopasowanie PoC do środowiska,
  • stabilizacja dostępu i utrzymanie sesji,
  • opakowanie kradzieży danych w skrypty/automaty (chunking, retry, szyfrowanie, omijanie limitów),
  • przygotowanie materiałów dla operatora (listy credentiali, mapy systemów, podsumowania).

Agent AI może tu pełnić rolę „automatycznego inżyniera integracji” — składać elementy i iterować, aż zadziała.

4. „Wielomodelowość” (Claude + GPT-4.1)

Wątek użycia drugiego modelu do analizy danych (GPT-4.1) sugeruje praktykę, która staje się standardem u dojrzałych grup: różne modele do różnych zadań (np. jeden do generowania/pisania, drugi do streszczania/klasyfikacji/wnioskowania).


Praktyczne konsekwencje / ryzyko

Największe ryzyka dla organizacji (nie tylko rządowych) to:

  • Kompresja kill chain: mniej „przestojów” po stronie ataku, więcej iteracji w krótszym czasie (rekonesans, dopasowanie technik, automatyzacja działań). Trend wzrostu aktywności grup używających AI podkreślają też raporty rynkowe.
  • Skala i równoległość: agent może „przerabiać” wiele wątków jednocześnie (analiza logów, przygotowanie exploitów, playbooki eksfiltracji).
  • Niższy próg wejścia: AI redukuje wymagany poziom umiejętności w obszarach, które dotąd były barierą (debug exploitów, skrypty do data-miningu, automatyzacja).
  • Ryzyko wtórne po wycieku: kradzież tożsamości, spear-phishing na masową skalę, przejmowanie kont (zwłaszcza gdy dane zawierają identyfikatory i elementy KYC), presja reputacyjna, koszty odtworzenia usług.

Rekomendacje operacyjne / co zrobić teraz

Poniżej zestaw działań, które realnie „dokręcają śrubę” w scenariuszu ataków przyspieszanych AI:

1. Ogranicz powierzchnię i uczyń eksfiltrację trudną

  • Segmentacja danych (rejestry/PII/finanse) + restrykcje egress (proxy, allow-listy, DLP tam gdzie ma sens).
  • Monitorowanie anomalii transferu (nietypowe wolumeny, nietypowe godziny, nowe destynacje).
  • Tokenizacja/format-preserving encryption dla krytycznych identyfikatorów tam, gdzie to możliwe.

2. Detekcja „szybkiego ruchu” po uzyskaniu dostępu

Skoro łańcuch jest kompresowany, priorytetem jest wykrywanie:

  • nietypowych wywołań narzędzi administracyjnych,
  • tworzenia kont uprzywilejowanych,
  • masowych odczytów z baz i eksportów,
  • nietypowych zapytań (burst query, enumeracje, skoki po tabelach).

3. Zabezpiecz tożsamość: MFA + odporność na kradzież sesji

  • MFA odporne na phishing (FIDO2/WebAuthn) dla adminów i systemów krytycznych.
  • Ograniczenie długich sesji, rotacja sekretów, PAM dla uprzywilejowanych.

4. Uczyń „AI w firmie” częścią modelu zagrożeń

Nawet jeśli Twoja organizacja nie używa Claude Code, to:

  • threat-modeluj scenariusz, w którym atakujący używa agentów AI do automatyzacji (Twoje playbooki IR muszą zakładać większą prędkość i równoległość),
  • rozważ „purple teaming” z założeniem, że napastnik ma „AI-operatora”, który iteruje szybciej niż człowiek.

5. Ćwiczenia IR pod kątem wycieku danych

SecurityWeek cytuje uwagę, że „atak tej skali nie kończy się w momencie wykrycia” — odbudowa może być długa i kosztowna.
Przećwicz: izolację segmentów, decyzje o wyłączeniu usług, komunikację kryzysową, procesy prawne i dowodowe.


Różnice / porównania z innymi przypadkami

Klasyczne użycie LLM w atakach (phishing, generowanie fragmentów malware, tłumaczenia, OSINT) jest groźne, ale wciąż często „człowiek-w-pętli”.

W opisywanym schemacie kluczowa jest agentowość: model nie tylko doradza, ale wykonuje kolejne kroki (z narzędziami) i wraca do operatora głównie po decyzje. To jakościowo inna dynamika działań, mocno podkreślana w analizach Anthropic.


Podsumowanie / kluczowe wnioski

  • Incydent w Meksyku jest kolejnym przykładem, że AI może pełnić rolę „multiplikatora” zdolności ofensywnych, zwłaszcza gdy działa jako agent z dostępem do narzędzi.
  • Obrona musi zakładać krótszy czas do eskalacji po wejściu do środowiska i większą automatyzację po stronie przeciwnika.
  • Największą różnicę zrobią działania „anty-eksfiltracyjne”, wzmocnienie IAM oraz detekcja anomalii na warstwie danych i tożsamości.

Źródła / bibliografia

  1. SecurityWeek – opis ataku z użyciem Claude Code przeciw instytucjom w Meksyku (1 marca 2026). (SecurityWeek)
  2. Anthropic – „Disrupting the first reported AI-orchestrated cyber espionage campaign” (listopad 2025). (anthropic.com)
  3. Anthropic – Threat Intelligence Report (PDF, sierpień 2025) – wątek „vibe hacking” z użyciem Claude Code. (Anthropic)
  4. CrowdStrike – wnioski/komunikat do Global Threat Report 2026 (trend AI-enabled adversaries). (CrowdStrike)
  5. Bloomberg – wzmianka o kradzieży wrażliwych danych meksykańskich z użyciem Claude (25 lutego 2026). (Bloomberg.com)

OpenAI ujawnia „warstwowe zabezpieczenia” w kontrakcie z Pentagonem: co oznaczają czerwone linie dla cyberbezpieczeństwa i wdrożeń na sieciach niejawnych

Wprowadzenie do problemu / definicja luki

„Warstwowe zabezpieczenia” (layered protections) w kontekście wdrożeń AI dla instytucji obronnych to podejście, w którym ograniczenia użycia modelu nie opierają się wyłącznie na deklaracjach w politykach (policy), lecz są egzekwowane równolegle przez architekturę wdrożenia, mechanizmy techniczne bezpieczeństwa (safety stack) oraz zapisy kontraktowe i nadzór ludzi.

W praktyce to odpowiedź na klasyczny problem bezpieczeństwa: reguły bez egzekucji (np. „nie wolno używać do X”) są trudne do audytu, podatne na obejścia i słabo odporne na presję operacyjną. Dlatego kluczowe staje się wymuszenie ograniczeń w warstwach: technologicznej, organizacyjnej i prawnej.


W skrócie

  • OpenAI poinformowało, że kontrakt na wdrożenia w sieciach niejawnych Departamentu Obrony USA (administracja używa nazwy „Department of War”) zawiera dodatkowe zabezpieczenia i egzekwuje trzy „czerwone linie”: zakaz masowej inwigilacji krajowej, zakaz kierowania autonomicznymi systemami uzbrojenia oraz zakaz „high-stakes automated decisions”.
  • OpenAI opisuje model ochrony jako multi-layered: zachowuje kontrolę nad własnym „safety stack”, wdraża rozwiązanie wyłącznie w chmurze, utrzymuje personel z poświadczeniami bezpieczeństwa w pętli oraz opiera się na mocnych zapisach umownych.
  • Wydarzenie następuje na tle eskalacji sporu rządu USA z Anthropic (zapowiedź odcięcia współpracy i etykieta „supply-chain risk”), co w branży uruchomiło dyskusję o tym, kto ma prawo narzucać ograniczenia użycia modeli w kontraktach obronnych.

Kontekst / historia / powiązania

Na przełomie 27–28 lutego 2026 temat „guardrails” dla AI w obronności gwałtownie przyspieszył. Według doniesień, administracja USA nakazała agencjom federalnym zakończenie korzystania z produktów Anthropic, a Pentagon miał rozpocząć procedurę uznania firmy za ryzyko łańcucha dostaw (Anthropic zapowiedziało spór prawny).

Wcześniej Reuters opisywał napięcia i ultimatum wobec Anthropic w sprawie ograniczeń użycia modeli.

W tym samym oknie czasowym OpenAI ogłosiło, że zawarło porozumienie dotyczące wdrożeń w środowiskach niejawnych, podkreślając, że ich konstrukcja zabezpieczeń jest „bardziej restrykcyjna” i – co ważne – weryfikowalna w działaniu.


Analiza techniczna / szczegóły „warstwowych zabezpieczeń”

Z punktu widzenia cyberbezpieczeństwa najciekawsze są elementy, które zmniejszają ryzyko obejścia ograniczeń lub „cichego” rozszerzenia przypadków użycia.

1. „Trzy czerwone linie” jako wymagania niefunkcjonalne

OpenAI formalizuje trzy zakazy:

  1. masowa inwigilacja krajowa,
  2. kierowanie autonomicznymi systemami uzbrojenia,
  3. podejmowanie decyzji wysokiej stawki bez człowieka (np. systemy podobne do „social credit”).

Dla praktyków bezpieczeństwa to nie tylko etyka — to wymagania niefunkcjonalne (safety/security constraints), które powinny być mapowane na kontrolki techniczne i audyt.

2. Architektura wdrożenia: „cloud-only” jako kontrola powierzchni ataku i użycia

OpenAI deklaruje wdrożenie wyłącznie w chmurze oraz brak wdrożeń „edge”, wskazując, że edge może ułatwiać scenariusze użycia w systemach autonomicznej broni (ze względu na opóźnienia, łączność, lokalną decyzyjność).

Cybernetycznie: cloud-only zwiększa możliwości:

  • centralnego monitoringu i rejestrowania (telemetria, audyt),
  • kontrolowanych aktualizacji mechanizmów bezpieczeństwa,
  • egzekwowania polityk na bramkach wejścia/wyjścia (np. filtry treści, klasyfikatory),
  • separacji najtajniejszych segmentów od warstw inferencji (w zależności od architektury sieci niejawnej).

3. „Safety stack” pod kontrolą dostawcy + weryfikowalne klasyfikatory

OpenAI podkreśla, że zachowuje pełną kontrolę nad safety stack i że architektura pozwala im „niezależnie weryfikować”, czy czerwone linie nie są przekraczane — m.in. przez uruchamianie i aktualizowanie klasyfikatorów.

To istotne, bo przesuwa ciężar z „użytkownik deklaruje, że nie zrobi X” na „system utrudnia/wykrywa X”.

4. Nadzór ludzi z poświadczeniami bezpieczeństwa („cleared personnel in the loop”)

W warstwie organizacyjnej OpenAI opisuje udział inżynierów wdrożeniowych z poświadczeniami oraz „safety/alignment researchers in the loop”.

W języku kontroli bezpieczeństwa: to mechanizm redukcji ryzyka błędnej konfiguracji, dryfu wymagań i „shadow use” w projektach o wysokiej presji operacyjnej.

5. Kontrakt jako „control plane”: odwołania do ram prawnych i zasad użycia

OpenAI publikuje fragmenty języka kontraktowego, który wiąże użycie systemu z „well-established safety and oversight protocols” oraz ograniczeniami dotyczącymi broni autonomicznej i inwigilacji, w tym odniesieniami do istniejących ram i polityk (np. wymogi kontroli człowieka, ograniczenia przetwarzania danych osób z USA).

Z perspektywy zarządzania ryzykiem to próba „zakotwiczenia” zabezpieczeń w czymś, co jest audytowalne i egzekwowalne.


Praktyczne konsekwencje / ryzyko

Dla rynku cyber i wdrożeń AI (również poza sektorem publicznym) ta historia ma kilka praktycznych wniosków:

  • Wzrost znaczenia architektury jako mechanizmu zgodności: to, gdzie i jak uruchamiasz modele (cloud vs edge, centralny safety stack vs lokalne kopie) staje się równie ważne jak sama polityka użycia.
  • Ryzyko presji na „guardrails off”: spór o to, czy dostawca może utrzymać ograniczenia, pokazuje, że w środowiskach krytycznych „wymagania misji” często konkurują z ograniczeniami bezpieczeństwa.
  • Supply-chain risk jako narzędzie nacisku: etykietowanie dostawcy jako ryzyka łańcucha dostaw (niezależnie od ostatecznego wyniku prawnego) to sygnał, że governance i geopolityka wchodzą do oceny ryzyka dostawców AI tak samo, jak w klasycznym IT/OT.

Rekomendacje operacyjne / co zrobić teraz

Jeśli Twoja organizacja wdraża LLM-y w obszarach wrażliwych (SOC, threat intel, OSINT, analiza incydentów, wsparcie decyzji), potraktuj tę sprawę jako checklistę:

  1. Wymuszaj ograniczenia w architekturze
    • preferuj centralne punkty kontroli (gateway), pełne logowanie, separację środowisk, kontrolę egress/ingress.
  2. Nie polegaj wyłącznie na „policy”
    • polityka użycia bez telemetryki i mechanizmów detekcji jest słaba w audycie i w sporze.
  3. Zadbaj o „human-in-the-loop” tam, gdzie ryzyko jest wysokie
    • zdefiniuj, które klasy decyzji wymagają zatwierdzenia człowieka i jak to mierzyć.
  4. Wprowadź mierzalne testy „red lines”
    • scenariusze testowe (abuse cases), kontrola promptów, testy odporności na obejścia, walidacja wyjść.
  5. Zapisz guardrails w umowach i SLA
    • z prawem do audytu, warunkami rozwiązania umowy, wymaganiami raportowania i zmian.

Różnice / porównania z innymi przypadkami

Największa różnica, którą OpenAI akcentuje, to odejście od modelu „ograniczenia w regulaminie” na rzecz egzekwowalnego miksu:

  • Policy-only: zakazy w zasadach użycia + wiara w zgodność użytkownika.
  • Layered protections: cloud-only + safety stack pod kontrolą dostawcy + klasyfikatory/telemetria + personel w pętli + kontrakt z „czerwonymi liniami”.

W praktyce cyber oznacza to większą szansę na audyt i wykrywalność nadużyć — ale też większą złożoność techniczną i zależność od dostawcy.


Podsumowanie / kluczowe wnioski

  • OpenAI opisuje kontrakt dla środowisk niejawnych jako wdrożenie z „warstwowymi zabezpieczeniami”, które mają egzekwować trzy czerwone linie (inwigilacja, broń autonomiczna, decyzje wysokiej stawki).
  • Najbardziej „cyber-relewantne” elementy to: cloud-only, safety stack kontrolowany przez dostawcę, możliwość aktualizacji klasyfikatorów oraz cleared personnel in the loop.
  • Spór z Anthropic pokazuje, że w 2026 r. bezpieczeństwo AI w sektorze obronnym jest już nie tylko tematem technicznym, ale też kontraktowym i politycznym — a pojęcia takie jak „supply-chain risk” mogą stać się instrumentem nacisku.

Źródła / bibliografia

  • Reuters (28.02.2026): opis kontraktu OpenAI z Pentagonem i „layered protections”, trzy czerwone linie. (Reuters)
  • OpenAI (2026): „Our agreement with the Department of War” – opis architektury cloud-only, safety stack, klasyfikatory, fragmenty języka kontraktowego, cleared personnel. (OpenAI)
  • NPR / Associated Press (27–28.02.2026): tło eskalacji z Anthropic, zapowiedź „supply-chain risk”, kontekst polityczny i kontraktowy. (VPM)
  • Reuters (24.02.2026): wcześniejsze doniesienia o ultimatum wobec Anthropic dot. ograniczeń bezpieczeństwa. (Reuters)

Pentagon oznacza Anthropic jako „Supply Chain Risk”. Co to znaczy dla bezpieczeństwa, kontraktów i użycia AI w obronności?

Wprowadzenie do problemu / definicja luki

Pod koniec lutego 2026 r. amerykańskie kierownictwo resortu obrony ogłosiło zamiar formalnego uznania firmy Anthropic (twórcy modelu Claude) za „supply chain risk” dla bezpieczeństwa narodowego. W narracji publicznej brzmi to jak „czarna lista” — ale w praktyce chodzi o instrumenty prawno-zamówieniowe, które pozwalają ograniczać lub blokować wykorzystanie określonych technologii w łańcuchu dostaw instytucji państwowych, zwłaszcza w systemach wrażliwych.

Kluczowe jest to, że spór nie dotyczy klasycznego incydentu cyber (np. wykrytego backdoora), tylko warunków użycia modeli AI w zastosowaniach wojskowych — w tym masowej inwigilacji krajowej oraz w pełni autonomicznych systemów rażenia.


W skrócie

  • Sekretarz resortu obrony (w materiałach źródłowych: „Department of War”) ogłosił skierowanie działań, by uznać Anthropic za „Supply Chain Risk to National Security”.
  • Anthropic twierdzi, że impas negocjacyjny wynikał z dwóch „wyjątków”, których firma nie chciała dopuścić w kontraktach: masowej inwigilacji Amerykanów oraz w pełni autonomicznych broni.
  • Spór wywołał efekt domina: wątek kontraktów na modele AI dla sieci niejawnych i twardych „guardrails” został natychmiast podchwycony przez konkurencję (OpenAI) i media.
  • W tle jest przepis 10 U.S.C. § 3252, który opisuje działania zakupowe i tryb postępowania w sprawach „supply chain risk”.

Kontekst / historia / powiązania

Z publicznych oświadczeń wynika, że Anthropic wcześniej współpracował z administracją USA w środowiskach o podwyższonej wrażliwości: firma podkreśla wdrożenia w sieciach niejawnych i zastosowania „mission-critical” (m.in. analiza wywiadowcza, planowanie, cyberoperacje).

Punktem zapalnym stał się postulat rządu, by resort mógł używać modelu „do wszystkich legalnych celów” (w tym potencjalnie takich, których Anthropic nie chce wspierać kontraktowo), oraz spór o to, czy dostawca AI może narzucać ograniczenia użycia w sferze obronnej.

Równolegle temat stał się elementem politycznej eskalacji: pojawił się komunikat o wygaszaniu użycia technologii Anthropic w agencjach federalnych w horyzoncie 6 miesięcy oraz wątek natychmiastowych ograniczeń dla kontrahentów wojskowych.


Analiza techniczna / szczegóły decyzji

1) „Supply chain risk” w tym przypadku = narzędzie zakupowe, nie „dowód infekcji”

Warto oddzielić dwie warstwy:

  • Warstwa cyber: klasycznie „supply chain risk” kojarzy się z ryzykiem sabotażu/kompromitacji komponentu w łańcuchu dostaw (np. biblioteka, firmware, poddostawca).
  • Warstwa kontraktowo-regulacyjna: 10 U.S.C. § 3252 opisuje uprawnienia i tryb prowadzenia działań zakupowych związanych z ryzykiem łańcucha dostaw (w tym ograniczanie ujawniania podstaw decyzji) oraz formalne wymagania dot. oceny i notyfikacji.

Artykuł The Hacker News podkreśla dodatkowo, że — według stanowiska Anthropic — ewentualna kwalifikacja w oparciu o 10 U.S.C. § 3252 miałaby dotyczyć użycia Claude w ramach kontraktów resortu, a nie „globalnego” zakazu świadczenia usług dla innych klientów. To istotne dla firm prywatnych i integratorów, bo ogranicza (przynajmniej w teorii) zakres rażenia decyzji.

2) Spór o „guardrails” – dwa punkty krytyczne

Anthropic publicznie wskazuje dwie czerwone linie, których nie chce dopuścić kontraktowo:

  • masowa krajowa inwigilacja,
  • w pełni autonomiczne systemy broni.

Z kolei Reuters opisuje, że OpenAI w swoim kontrakcie z resortem obrony akcentuje analogiczne „red lines” (m.in. brak masowej inwigilacji, brak kierowania autonomiczną bronią, brak wysokostawkowych decyzji automatycznych) oraz „warstwowe zabezpieczenia” wdrożenia w sieciach niejawnych. To pokazuje, że rynek próbuje „produktować” zgodność i kontrolę użycia jako element oferty.


Praktyczne konsekwencje / ryzyko

Dla kontraktorów i dostawców robiących biznes z wojskiem USA

  • Ryzyko compliance: jeśli komunikaty o zakazie „commercial activity” dla kontraktorów resortu byłyby egzekwowane szeroko, firmy muszą szybko ustalić, czy i gdzie używają Claude (np. w narzędziach do analizy dokumentów, SOC, red-teamingu, automatyzacji raportów).
  • Ryzyko dostaw i podwykonawców: nawet jeśli prawnie zakres jest węższy (spór o interpretację 10 U.S.C. § 3252), w praktyce audyty łańcucha dostaw i polityki zakupowe potrafią działać „ponad literą” — przez wymagania umowne, certyfikacje i oświadczenia.

Dla organizacji komercyjnych poza sferą wojskową

  • Ryzyko reputacyjne i vendor-risk: głośna etykieta „supply chain risk” może wymuszać dodatkowe oceny ryzyka dostawcy (TPRM), nawet jeśli formalnie nie dotyczy klientów cywilnych.
  • Ryzyko ciągłości usług: jeśli część ekosystemu (np. integratorzy pracujący równolegle dla DoD i cywila) zacznie ograniczać użycie Claude, mogą pojawić się migracje do alternatywnych modeli i zmiany w łańcuchu narzędzi.

Dla bezpieczeństwa informacji

Paradoksalnie, konflikty o „guardrails” mogą podbijać presję na:

  • uruchamianie modeli na środowiskach odseparowanych,
  • twardsze kontroly dostępu, logowania i audytowalności,
  • formalizację zasad: czego model nie może robić w środowiskach krytycznych.

Rekomendacje operacyjne / co zrobić teraz

Jeśli Twoja organizacja jest dostawcą, integratorem lub podwykonawcą w ekosystemie obronnym (USA lub sojuszniczym), potraktuj to jak incydent compliance z ryzykiem operacyjnym:

  1. SBOM/AI-BOM dla AI: zinwentaryzuj użycie modeli Anthropic/Claude (API, wtyczki, narzędzia z wbudowanym Claude, automatyzacje, pipeline’y).
  2. Segmentacja przypadków użycia: oddziel zastosowania „core” (np. analiza danych wrażliwych) od peryferyjnych (np. copywriting, summarization), bo to determinuje priorytet migracji.
  3. Kontrola dostawców: sprawdź, czy Twoi dostawcy (np. platformy bezpieczeństwa, narzędzia do obsługi ticketów, chatboty) nie korzystają z Claude „pod maską”.
  4. Plan migracji: przygotuj wariant „switch” na alternatywne modele (technicznie: abstrakcja warstwy LLM, kompatybilność promptów, testy regresji bezpieczeństwa).
  5. Polityka użycia AI: spisz wprost zakazane klasy zastosowań (np. decyzje wysokostawkowe bez człowieka w pętli; generowanie celów; masowe profilowanie osób), bo to minimalizuje ryzyko kontraktowe i prawne — niezależnie od dostawcy.

Różnice / porównania z innymi przypadkami (jeśli dotyczy)

W dyskusjach publicznych pojawia się porównywanie „supply chain risk” do działań wobec firm postrzeganych jako ryzyko państwowe. Tutaj jednak wyróżnikiem jest to, że mówimy o amerykańskim dostawcy AI i sporze o dopuszczalne use-case’y, a nie o wykazanej kompromitacji technicznej produktu w łańcuchu dostaw.

Druga różnica: wątek AI ma „warstwę normatywną” — dostawcy chcą wbudować ograniczenia użycia w umowy i wdrożenia, a administracja oczekuje szerokiej dyspozycyjności technologii „dla wszystkich legalnych celów”. To konflikt modelu odpowiedzialności, a nie tylko ryzyka cyber.


Podsumowanie / kluczowe wnioski

  • Oznaczenie Anthropic jako „supply chain risk” jest w tej historii przede wszystkim narzędziem presji kontraktowo-politycznej związanej z ograniczeniami użycia AI, a nie klasycznym komunikatem o kompromitacji.
  • Fundamentem formalnym jest 10 U.S.C. § 3252 (mechanizmy działań zakupowych w kontekście ryzyka łańcucha dostaw), ale interpretacja realnego zasięgu ograniczeń może stać się osią sporu prawnego i compliance.
  • Dla firm współpracujących z obronnością kluczowe jest szybkie TPRM + inwentaryzacja użycia modeli i przygotowanie planów migracji / substytucji.
  • Równolegle konkurencja (np. OpenAI) stara się pokazać, że „guardrails” da się zapisać w umowach i wdrożyć warstwowo — co będzie rosnącym standardem w kontraktach na AI w środowiskach krytycznych.

Źródła / bibliografia

  1. The Hacker News – opis decyzji i tło sporu (28 lutego 2026). (The Hacker News)
  2. Anthropic – oświadczenie dot. komentarzy sekretarza (27 lutego 2026). (Anthropic)
  3. Anthropic (Dario Amodei) – stanowisko ws. warunków użycia i współpracy (26 lutego 2026). (Anthropic)
  4. Reuters – szczegóły „guardrails” w umowie OpenAI z DoD i kontekst decyzji (28 lutego 2026). (Reuters)
  5. U.S. Code – 10 U.S.C. § 3252 (ramy dot. „supply chain risk”). (U.S. Code)

ClawJacked: podatność pozwalająca złośliwym stronom przejąć lokalne agenty OpenClaw przez WebSocket

Wprowadzenie do problemu / definicja luki

ClawJacked to nazwa łańcucha podatności/opcji projektowych, które pozwalały dowolnej odwiedzanej stronie WWW (złośliwej lub przejętej) nawiązanie połączenia z lokalnie uruchomioną bramą (gateway) OpenClaw i stopniowe przejęcie kontroli nad agentem AI. W praktyce wystarczało samo wejście na stronę – bez instalowania wtyczek czy „marketplace skills”.

Sedno problemu nie leży w „magii AI”, tylko w klasycznym założeniu: „localhost jest zaufany”. W nowoczesnych przeglądarkach to założenie bywa fałszywe, bo JavaScript uruchomiony na zewnętrznej domenie potrafi zestawić połączenie WebSocket do usług na 127.0.0.1, jeśli te usługi nie bronią się poprawnie.


W skrócie

  • Atak startuje od wejścia użytkownika na złośliwą stronę.
  • JavaScript otwiera WebSocket do localhost na porcie bramy OpenClaw.
  • Następuje szybki brute force hasła (brak/obejście limitów dla połączeń z localhost).
  • Po zalogowaniu skrypt rejestruje się jako zaufane urządzenie (auto-akceptacja pairingu z localhost, bez promptu).
  • Efekt: atakujący zyskuje kontrolę administracyjną nad agentem: odczyt konfiguracji, logów, enumeracja węzłów/urządzeń, a dalej – wykonywanie działań w imieniu agenta.
  • OpenClaw wydał poprawkę (release 2026.2.25, 26 lutego 2026) hardeningując uwierzytelnianie WebSocket i blokując ciche auto-parowanie dla „obcych” klientów przeglądarkowych.

Kontekst / historia / powiązania

Wiadomość o ClawJacked pojawiła się w momencie, gdy ekosystem agentów OpenClaw jest już pod ostrzałem: od problemów z bezpieczeństwem instancji wystawionych do sieci, po ryzyko wynikające z „skills supply chain”. The Hacker News opisuje m.in. równoległe łatki (np. scenariusze log poisoning przez WebSocket do publicznie dostępnych instancji) oraz przypadki złośliwych „skills” wykorzystywanych do oszustw kryptowalutowych.

Z perspektywy obrony to ważne: agent AI działa jak „super-integracja” – ma dostęp do narzędzi, kont, danych, a często także możliwość wykonywania akcji. Dlatego przejęcie agenta bywa równoznaczne z przejęciem środowiska pracy.


Analiza techniczna / szczegóły luki

1. Mechanika ataku (łańcuch ClawJacked)

Oasis Security opisało pełen łańcuch w pięciu krokach:

  1. ofiara odwiedza stronę atakującego,
  2. JavaScript otwiera WebSocket do localhost na porcie bramy OpenClaw (WebSocket nie jest automatycznie blokowany „klasyczną” polityką cross-origin w tym scenariuszu),
  3. brute force hasła z wysoką częstotliwością, bo mechanizmy throttling/rate-limit nie obejmowały loopback/localhost,
  4. ciche „pairing” jako zaufane urządzenie (auto-approve z localhost, bez interakcji użytkownika),
  5. pełna kontrola: interakcja z agentem, zrzut konfiguracji, enumeracja podłączonych węzłów, odczyt logów.

2. Dlaczego to działało: „implicit trust” + brak kontroli źródła (Origin)

Kluczowe są dwa elementy:

  • Brak sensownej weryfikacji Origin dla WebSocket (lub zbyt liberalne traktowanie klientów przeglądarkowych).
  • Traktowanie localhost jako strefy zaufanej, co skutkowało m.in. słabszym egzekwowaniem ograniczeń logowania oraz automatycznym zatwierdzaniem pairingu.

3. Co zmieniono w poprawce

W release 2026.2.25 OpenClaw wskazuje bezpośrednio utwardzenia wokół „Gateway WebSocket auth”: m.in. enforcement origin checks dla klientów przeglądarkowych, throttling nieudanych prób hasła także dla localhost oraz zablokowanie cichego auto-pairingu dla przeglądarkowych klientów innych niż kontrolny interfejs UI.


Praktyczne konsekwencje / ryzyko

Po przejęciu sesji atakujący może wykorzystywać uprawnienia agenta do działań „pośrednich”, które w realnym środowisku są krytyczne:

  • przeszukiwanie historii komunikatorów (np. Slack) pod kątem sekretów/API keys,
  • odczyt prywatnych wiadomości,
  • eksfiltracja plików z podłączonych węzłów/urządzeń,
  • wykonywanie poleceń (jeśli agent ma do tego drogę przez integracje/węzły).

Dla organizacji to często nie jest „tylko incydent na laptopie developera”, ale ryzyko kaskadowe: przejęte tokeny i integracje mogą dać dostęp do repozytoriów, pipeline’ów CI/CD, sekretów w konfiguracjach i środowiskach chmurowych.


Rekomendacje operacyjne / co zrobić teraz

  1. Zaktualizuj OpenClaw co najmniej do 2026.2.25 (to wersja wskazywana jako zawierająca naprawę łańcucha ClawJacked).
  2. Traktuj „localhost” jak sieć niezaufaną:
    • nie zwalniaj loopback z rate-limitów,
    • nie auto-zatwierdzaj pairingu/urządzeń na podstawie IP.
  3. Ogranicz ekspozycję bramy: jeśli masz możliwość, ogranicz nasłuch do minimalnego interfejsu, kontroluj firewallem procesy/porty, rozważ izolację profilu (np. osobna maszyna/VM dla agentów).
  4. Audyt uprawnień agenta: przegląd integracji, tokenów, kluczy, zakresów oraz zasad „least privilege”.
  5. Monitoring i detekcja: loguj i alertuj na nietypowe próby auth/pairingu, skoki liczby połączeń WebSocket do gateway, oraz anomalie w działaniach agenta (np. odczyt dużych wolumenów danych, masowe „search” po sekretach).

Różnice / porównania z innymi przypadkami

ClawJacked vs. CVE-2026-25253 („1-click RCE”)

W obiegu pojawiają się równolegle dwa wątki, które łatwo pomylić:

  • ClawJacked (Oasis): nacisk na cross-origin WebSocket do localhost + brute force + auto-pairing i przejęcie kontroli nad agentem z poziomu przeglądarki; naprawa wskazywana w linii 2026.2.25.
  • CVE-2026-25253 (NVD/MITRE): opis dotyczy sytuacji, w której OpenClaw przed 2026.1.29 pobiera gatewayUrl z query string i automatycznie zestawia połączenie WebSocket bez promptu, wysyłając token; CVSS 8.8 (wektor: AV:N/AC:L/PR:N/UI:R/S:U/C:H/I:H/A:H).

Część publikacji medialnych zestawia te tematy razem (bo oba dotyczą WebSocket i „1-click” scenariuszy), ale w obronie warto rozdzielać: inne są warunki wejścia, inny „root cause” i inne wersje graniczne.


Podsumowanie / kluczowe wnioski

  • „Lokalnie uruchomione” nie oznacza „bezpieczne” – przeglądarka może stać się mostem do usług na localhost, jeśli te nie egzekwują Origin/rate-limitów i zbyt ufają loopback.
  • ClawJacked pokazuje typowy anty-wzorzec: upraszczanie DX kosztem security (auto-pairing, brak throttlingu dla localhost).
  • Najpilniejsze działanie: aktualizacja do 2026.2.25 oraz audyt uprawnień i integracji agenta, bo przejęcie agenta to często przejęcie tożsamości i dostępu do narzędzi.

Źródła / bibliografia

  • The Hacker News — „ClawJacked Flaw Lets Malicious Sites Hijack Local OpenClaw AI Agents via WebSocket” (28.02.2026). (The Hacker News)
  • Oasis Security (PRNewswire) — opis łańcucha ataku i rekomendacje (26.02.2026). (PR Newswire)
  • CSO Online — kontekst „localhost trust” i ryzyko operacyjne (27.02.2026). (CSO Online)
  • GitHub Releases — OpenClaw v2026.2.25: utwardzenia WebSocket auth/origin checks/throttling/auto-pairing (26.02.2026). (GitHub)
  • NVD (NIST) — CVE-2026-25253: opis i metryki CVSS (publikacja 01.02.2026, modyfikacja 13.02.2026). (NVD)