Archiwa: LLM - Strona 3 z 9 - Security Bez Tabu

AI jako „tradecraft”: jak cyberprzestępcy i APT operacjonalizują sztuczną inteligencję

Wprowadzenie do problemu / definicja luki

Microsoft w najnowszej analizie opisuje przejście od „AI jako ciekawostki” do AI jako elementu rzemiosła operacyjnego (tradecraft) – czyli wpięcia modeli i narzędzi AI w codzienny łańcuch działań atakującego: od rekonesansu, przez socjotechnikę i budowę infrastruktury, po rozwój malware i działania po kompromitacji. Kluczowa obserwacja: AI bywa używana zarówno jako akcelerator (przyspiesza znane TTP), jak i jako broń (umożliwia nowe wektory, np. omijanie zabezpieczeń modeli czy półautonomiczne „agentowe” workflow).


W skrócie

  • Atakujący używają AI do redukcji tarcia (mniej umiejętności → podobny efekt), zwiększenia skali (więcej prób/operacji) i podniesienia wiarygodności (lepszy język, deepfake, dopasowane persony).
  • Microsoft opisuje realne nadużycia m.in. w kampaniach północnokoreańskich „remote IT workers”, gdzie AI wspiera fabrykację tożsamości, rozmowy rekrutacyjne, utrzymanie zatrudnienia i nadużycie legalnego dostępu.
  • Widać sygnały przejścia w kierunku agentic AI (działania celowe w czasie, z użyciem narzędzi), choć na razie ograniczane przez niezawodność i ryzyko operacyjne.

Kontekst / historia / powiązania

Wątek „AI w rękach przeciwnika” nie jest już wyłącznie domeną phishingu. Raport Google Threat Intelligence Group opisuje, że państwowe grupy APT traktują LLM-y jako narzędzie do researchu, targetingu i szybkiego generowania treści socjotechnicznych (często w wielu językach), co skraca cykl przygotowania kampanii.
Z drugiej strony Cloudflare wskazuje, że GenAI pomaga automatyzować działania o wysokiej przepustowości (m.in. rozpoznanie, tworzenie deepfake, przyspieszenie prac nad exploitami) i obniża próg wejścia dla mniej doświadczonych aktorów.
W tle mamy też rosnącą potrzebę „mapowania” zagrożeń na poziomie taksonomii: MITRE ATLAS porządkuje TTP wymierzone w systemy AI/ML (od manipulacji wejściem po eksfiltrację i nadużycia pipeline’ów).


Analiza techniczna / szczegóły

Poniżej najważniejsze obszary, w których Microsoft obserwuje operacyjne użycie AI.

1) Omijanie zabezpieczeń modeli (jailbreak / nadużycia promptów)

Atakujący testują techniki „role-based jailbreak”: wymuszanie na modelu przyjęcia zaufanej roli („odpowiedz jak analityk bezpieczeństwa”) albo budowanie kontekstu legalności, aby uzyskać bardziej wrażliwe instrukcje. Microsoft opisuje też łańcuchowanie poleceń i podszywanie się pod „system/developer prompts”.

2) Rekonesans i research podatności

LLM-y są wykorzystywane jako asystent do analizy publicznych podatności i ścieżek eksploatacji. Microsoft podaje przykład obserwacji (we współpracy z OpenAI), gdzie aktor „Emerald Sleet” używał LLM do researchu CVE (m.in. CVE-2022-30190/MSDT).

3) Budowa zasobów: persony, infrastruktura, domeny

W scenariuszu „remote IT workers” (Jasper Sleet) AI wspiera:

  • generowanie list imion/nazwisk i formatów adresów e-mail dopasowanych kulturowo,
  • analizę ogłoszeń o pracę i ekstrakcję wymaganych umiejętności,
  • dopasowanie CV/persony do konkretnej roli.

Po stronie infrastruktury Microsoft opisuje m.in. automatyzację tworzenia domen look-alike (z użyciem podejść GAN) oraz projektowanie/konfigurację tuneli, reverse proxy, VPN, z naciskiem na skalowanie i odporność.

4) Socjotechnika i „high-trust” impersonation

AI wzmacnia phishing i podszycia poprzez generowanie treści, ale też media: Microsoft wskazuje użycie Faceswap do podmiany twarzy w dokumentach i zdjęciach do CV oraz oprogramowania do zmiany głosu w rozmowach rekrutacyjnych.

5) Rozwój malware i „ślady” kodu tworzonego z AI

W aktywności Coral Sleet Microsoft zauważa szybki wzrost możliwości dzięki AI-asystowanemu iteracyjnemu programowaniu: generowanie, poprawianie i reimplementacja komponentów malware, a nawet end-to-end workflow (lure → fałszywe strony → infrastruktura → testy → wdrożenie).

Ciekawy element obrony: Microsoft wymienia heurystyki „AI-assisted code”, np. emoji jako markery (✅/❌), konwersacyjne komentarze inline oraz „przegadane” nazewnictwo funkcji/zmiennych czy nadmierną modularność.

6) Post-compromise: analiza środowiska, selekcja danych, wymuszenia

Po kompromitacji AI działa jako przyspieszacz: streszcza logi/konfiguracje, pomaga rozpoznać „co tu jest cenne” (DC, bazy, konta uprzywilejowane), a także wspiera etap eksfiltracji i monetyzacji (kategoryzacja danych, przygotowanie komunikacji wymuszeniowej).

7) Trend: agentic AI (jeszcze nie masowo)

Microsoft widzi pierwsze sygnały użycia agentów (planowanie kroków, używanie narzędzi, adaptacja bez ciągłego promptowania), ale podkreśla, że skala jest nadal ograniczona przez niezawodność i ryzyko.


Praktyczne konsekwencje / ryzyko

  1. Większa przepustowość ataków: krótszy czas przygotowania kampanii i szybsze iteracje „co działa”.
  2. Wyższa wiarygodność: lepszy język, dopasowanie kulturowe, deepfake wideo/voice → mniej „czerwonych flag” dla człowieka.
  3. „Insider risk” przez legalny dostęp: wątek remote IT workers przesuwa ciężar obrony z klasycznego „włamania” na wykrywanie nadużyć zaufanych kont i długotrwałej, niskoszumowej aktywności.
  4. Nowa powierzchnia ataku w aplikacjach AI: prompt injection/jailbreak i ryzyka łańcucha danych (training/inference) – to obszar, który wymaga osobnych kontroli i monitoringu.

Rekomendacje operacyjne / co zrobić teraz

A) Jeśli obawiasz się „AI-wzmocnionej” socjotechniki i przejęć kont

  • Egzekwuj MFA wszędzie, bez wyjątków; monitoruj anomalie logowań (np. „impossible travel”).
  • Przenieś detekcję z „języka maila” na sygnały behawioralne i infrastrukturę dostarczenia (linki, wzorce wysyłki, kontekst).

B) Jeśli ryzykiem są „remote IT workers” i nadużycie legalnego dostępu

  • Traktuj to jak scenariusz insider threat: telemetryka użycia danych, nietypowe dostępy, długotrwałe „low and slow”.
  • W procesach HR/IT: wideo-weryfikacja, kontrola spójności tożsamości, analiza artefaktów deepfake (spójność temporalna, okluzje, synchronizacja audio-wideo). Microsoft sugeruje też użycie narzędzi do analizy obrazów, np. FaceForensics++.

C) Jeśli budujesz lub wdrażasz aplikacje oparte o LLM

  • Wprowadź ochronę przed atakami na prompty (np. detekcja prompt injection / indirect attacks) oraz kontrolę „groundedness”, aby ograniczać halucynacje i odpowiedzi „oderwane” od źródeł.
  • Zabezpieczaj dane używane do trenowania i działania AI zgodnie z dobrymi praktykami ochrony danych (integralność, kontrola dostępu, minimalizacja).
  • Użyj MITRE ATLAS jako „checklisty TTP” do threat modelingu systemów AI/ML (mapowanie technik ataku → kontrolki → testy).

Różnice / porównania z innymi przypadkami (jeśli dotyczy)

  • Microsoft mocno akcentuje „AI wpięte w łańcuch operacji” i daje przykłady z działań realnych aktorów (Jasper Sleet, Coral Sleet) – od rekrutacji po malware i nadużycia po kompromitacji.
  • Google GTIG kładzie nacisk na to, że grupy państwowe wykorzystują LLM-y jako narzędzie do researchu, targetingu i tworzenia treści socjotechnicznych szybciej i na większą skalę.
  • Cloudflare opisuje „industrializację” zagrożeń: automatyzację, deepfake, przyspieszenie działań ofensywnych i spadek progu wejścia dla mniej doświadczonych aktorów.

Podsumowanie / kluczowe wnioski

  1. AI nie musi tworzyć „nowych cudownych ataków”, żeby zmienić sytuację obrońców – wystarczy, że przyspiesza i skaluje stare, sprawdzone TTP.
  2. Najbardziej niedoceniane ryzyko to nadużycie zaufanego dostępu (insider-like) i wzrost jakości podszyć (voice/deepfake/persony).
  3. Organizacje powinny równolegle: (a) utwardzać tożsamości i kanały komunikacji, (b) wdrażać zabezpieczenia specyficzne dla aplikacji LLM (prompt injection, groundedness), (c) modelować zagrożenia dla AI w oparciu o ATLAS i dobre praktyki ochrony danych.

Źródła / bibliografia

  1. Microsoft Security Blog – AI as tradecraft: How threat actors operationalize AI (06.03.2026) (microsoft.com)
  2. Google Cloud / GTIG – Distillation, Experimentation, and Integration… (12.02.2026) (Google Cloud)
  3. Cloudflare – Introducing the 2026 Cloudflare Threat Report (ok. 03.2026) (The Cloudflare Blog)
  4. CISA – AI Data Security: Best Practices… (22.05.2025) (CISA)
  5. MITRE – ATLAS (Adversarial Threat Landscape for AI Systems) (MITRE ATLAS)

Złośliwe rozszerzenia „AI assistant” kradną historię rozmów z LLM: jak działa kampania i jak się bronić

Wprowadzenie do problemu / definicja luki

Rynek narzędzi „AI sidebar / AI assistant” w przeglądarce rośnie błyskawicznie, a wraz z nim rośnie pokusa nadużyć. Najnowsze ustalenia Microsoft Defender pokazują kampanię złośliwych rozszerzeń Chromium (Chrome/Edge), które podszywają się pod legalne asystenty AI i masowo zbierają treści rozmów z LLM oraz historię przeglądania. Kluczowe ryzyko nie polega tu na „efektownym exploicie”, tylko na tym, że użytkownicy sami instalują dodatek, często w środowisku firmowym, a potem wklejają do okna czatu wrażliwe dane (kod, procedury, koncepcje produktowe, dane klientów).


W skrócie

  • Microsoft opisuje kampanię z ~900 tys. instalacji oraz sygnały aktywności w ponad 20 tys. tenantów enterprise.
  • Rozszerzenia zbierały pełne URL-e (w tym wewnętrzne) oraz fragmenty rozmów z platform takich jak ChatGPT i DeepSeek.
  • Dane były cyklicznie wysyłane metodą HTTPS POST do domen m.in. deepaichats[.]com, chatsaigpt[.]com (oraz wskazywanych wildcardów).
  • W kampanii pojawiają się konkretne ID rozszerzeń wykorzystywane w huntingu i detekcji.

Kontekst / historia / powiązania

To nie jest odosobniony przypadek. Już pod koniec 2025 r. OX Security opisało niemal identyczny motyw: fałszywe rozszerzenia podszywające się pod legalny produkt (AITOPIA), które eksportowały rozmowy z ChatGPT/DeepSeek oraz listę odwiedzanych kart, a jedna z próbek miała nawet wyróżnienie w sklepie.

Równolegle w 2026 r. badacze (m.in. opisywani przez Malwarebytes) zwracali uwagę na inną klasę zagrożeń: rozszerzenia kradnące tokeny sesji ChatGPT, co umożliwia przejęcie konta i dostęp do historii/metadanych.

W tle rośnie jeszcze jedno zjawisko: „agentic” funkcje w przeglądarkach i asystentach webowych rozszerzają powierzchnię ataku (np. wątki o eskalacji uprawnień w komponentach asystenta i nadużyciach przez rozszerzenia).


Analiza techniczna / szczegóły

1. Łańcuch ataku (wg Microsoft)

Microsoft opisuje „klasyczny” łańcuch dla złośliwego rozszerzenia, gdzie największą rolę gra socjotechnika i architektura uprawnień Chromium:

  • Recon: wybór popularnej niszy „AI assistant”, analiza legalnych dodatków (np. AITOPIA) i skopiowanie brandingu oraz zachowań instalacyjnych.
  • Delivery: dystrybucja przez Chrome Web Store, z naturalnym „przenikaniem” także do Edge (obsługa dodatków Chrome).
  • Exploitation (w sensie operacyjnym): po instalacji dodatek wykorzystuje model uprawnień rozszerzeń i zaczyna zbierać dane bez kolejnych kliknięć.
  • C2/Exfil: okresowe wysyłki HTTPS POST na infrastrukturę atakujących (deepaichats[.]com, chatsaigpt[.]com itd.).

2. Co dokładnie było zbierane

Według Microsoft złośliwe rozszerzenie:

  • logowało niemal wszystkie odwiedzane URL-e (w tym zasoby intranetowe),
  • przechwytywało wycinki wiadomości czatu (prompty i odpowiedzi) z narzędzi LLM,
  • zapisywało dane lokalnie jako Base64-encoded JSON, a potem wysyłało je na zewnątrz,
  • dołączało m.in. kontekst nawigacji, nazwy modeli, oraz trwały UUID (identyfikator sesji/instalacji).

3. „Zgoda” jako mechanizm kamuflażu

Ciekawy element opisu Microsoft to mechanika „konsentu”: użytkownik mógł początkowo wyłączyć zbieranie danych, ale aktualizacje miały automatycznie przywracać telemetrię (re-enable), co w praktyce tworzyło trwały kanał wycieku przy minimalnej widoczności dla ofiary.

4. Twarde artefakty: domeny i identyfikatory

Microsoft podaje znane endpointy/domeny do monitoringu oraz ID rozszerzeń używane w przykładowych zapytaniach huntingowych:

  • Domeny/C2 do obserwacji: chatsaigpt.com, deepaichats.com, chataigpt.pro, chatgptsidebar.pro (oraz wildcards).
  • Przykładowe ID: fnmihdojmnkclgjpcoonokmkhjpjechg, inhcgfpbfdjbjogdfjbclgolkmhnooop.

Praktyczne konsekwencje / ryzyko

Dla organizacji to jest przede wszystkim problem DLP i tajemnicy przedsiębiorstwa:

  • Wycieki kodu i IP: prompty często zawierają fragmenty repo, logi, konfiguracje, architekturę.
  • Mapowanie środowiska: pełne URL-e (w tym wewnętrzne) ujawniają nazwy systemów, ścieżki aplikacji, czasem identyfikatory zasobów lub tenantów.
  • Ryzyko zgodności: jeśli w promptach/odpowiedziach lądują dane osobowe lub kontraktowe, organizacja może „nieświadomie” uruchomić incydent naruszenia.
  • Trwałość: rozszerzenie „żyje” tak długo, jak przeglądarka i profil użytkownika — bez klasycznych wskaźników infekcji endpointu.

Rekomendacje operacyjne / co zrobić teraz

1. Szybkie działania (0–24h)

  1. Audyt rozszerzeń w przeglądarkach firmowych (Chrome/Edge) + identyfikacja dodatków AI/sidebar. Microsoft rekomenduje użycie funkcji oceny rozszerzeń w Defender VM.
  2. Blokada ruchu do wskazanych domen (proxy/SWG/DNS/EDR Network Protection) i przegląd logów POST/HTTPS.
  3. Weryfikacja instalacji po ID: polowanie po ExtensionId i ścieżkach katalogów profilu przeglądarki (Windows).
  4. Komunikat do użytkowników: natychmiastowe usunięcie niezweryfikowanych „AI assistant” + krótkie zasady użycia LLM (czego nie wklejać do promptów).

2. Detekcja i hunting (praktycznie)

Microsoft publikuje gotowe przykłady zapytań (Microsoft Defender XDR), m.in.:

  • wykrywanie uruchomień przeglądarki z parametrami zawierającymi znane ID,
  • wykrywanie połączeń do domen kampanii,
  • enumeracja instalacji w tabeli DeviceTvmBrowserExtensions,
  • wykrywanie artefaktów na dysku w folderach profilu Chrome/Edge.

Jeśli nie korzystasz z Defender XDR, przełóż to 1:1 na:

  • reguły w SIEM (DNS/Proxy/Firewall) na domeny,
  • IOC w EDR dla ścieżek katalogów rozszerzeń,
  • polityki Browser Management (allowlist/denylist rozszerzeń).

3. Kontrole długoterminowe (policy + technologia)

  • Allowlist rozszerzeń (preferowane) zamiast „każdy może instalować wszystko”.
  • Microsoft Defender SmartScreen + Network Protection (Microsoft wskazuje je jako warstwę blokowania).
  • Purview / kontrola przepływu danych dla aplikacji GenAI: w praktyce chodzi o to, by prompt i odpowiedź były traktowane jak kanał danych (klasyfikacja, DLP, zasady).
  • Zasady użycia AI: minimalny standard to „prompt hygiene”, etykietowanie danych, zakaz wklejania sekretów i fragmentów kluczy/tokenów.

Różnice / porównania z innymi przypadkami

Warto rozróżnić dwa popularne modele ataku na „AI w przeglądarce”:

  1. Telemetria/Podsłuch (ten przypadek)
  • celem jest ciągłe zbieranie: URL-e + treści czatów, często „po cichu”, długoterminowo, z UUID.
  1. Kradzież tokenów sesji / przejęcie konta
  • rozszerzenie kradnie token uwierzytelnienia (np. do ChatGPT), co daje możliwość przejęcia tożsamości i wglądu w historię konta. Takie kampanie opisywano m.in. w kontekście zestawu złośliwych dodatków dla Chrome/Edge.

Oba scenariusze kończą się podobnie (wyciek treści), ale różnią się tym, gdzie powstaje szkoda: lokalnie w przeglądarce (podsłuch) vs „po stronie usługi/konta” (token).


Podsumowanie / kluczowe wnioski

  • „AI assistant” w formie rozszerzenia to dziś jeden z najłatwiejszych kanałów wycieku danych: wystarczy instalacja i szerokie uprawnienia.
  • Skala jest realna: Microsoft mówi o ~900 tys. instalacji i aktywności w >20 tys. tenantów, co wskazuje na istotny wymiar enterprise.
  • Najlepsza obrona to połączenie allowlisty rozszerzeń, monitoringu domen/C2, i zasad użycia LLM (prompt hygiene + DLP).

Źródła / bibliografia

  1. Microsoft Security Blog (Microsoft Defender Security Research Team) – „Malicious AI Assistant Extensions Harvest LLM Chat Histories” (05.03.2026). (Microsoft)
  2. OX Security – „900K Users Compromised: Chrome Extensions Steal ChatGPT and DeepSeek Conversations” (30.12.2025). (OX Security)
  3. Malwarebytes – „Malicious Chrome extensions can spy on your ChatGPT chats” (28.01.2026). (Malwarebytes)
  4. TechRadar (na podstawie LayerX/BleepingComputer) – kampanie fałszywych rozszerzeń GenAI i masowe eksfiltracje treści (luty 2026). (TechRadar)
  5. ITPro – przykład ryzyk związanych z asystentami w przeglądarce i nadużyciami przez rozszerzenia (CVE-2026-0628 / Gemini Live). (IT Pro)

CyberStrikeAI w rękach atakujących: „AI-native” orkiestracja, która przyspiesza ataki na urządzenia brzegowe

Wprowadzenie do problemu / definicja luki

CyberStrikeAI to nie „kolejny chatbot dla pentesterów”, tylko AI-native platforma orkiestracji ofensywy, która spina dziesiątki narzędzi bezpieczeństwa (skanery, frameworki do eksploatacji, cracking haseł, post-eksploatacja) w jeden sterowalny proces. Kluczowa zmiana polega na tym, że operator nie musi ręcznie kleić pipeline’u – robi to silnik decyzyjny i agenty AI, co obniża próg wejścia i zwiększa tempo działań.

W praktyce oznacza to przyspieszenie dobrze znanych technik (skanowanie, brute force, enumeracja, lateral movement), a nie „magiczne” nowe 0-daye. Tę dynamikę widać w świeżych obserwacjach dotyczących kampanii przeciw urządzeniom brzegowym, gdzie AI pomaga skalować ataki nawet mniej zaawansowanym aktorom.


W skrócie

  • CyberStrikeAI to otwartoźródłowa platforma ofensywna „AI-native” (Go), integrująca 100+ narzędzi i dostarczająca webowy panel z logowaniem, audytem i repozytorium wyników.
  • Zespół Team Cymru powiązał instancję CyberStrikeAI z infrastrukturą, która wcześniej uczestniczyła w kampanii kompromitującej setki urządzeń Fortinet FortiGate.
  • W analizowanym okresie zaobserwowano 21 unikalnych IP uruchamiających CyberStrikeAI (głównie regiony chińskojęzyczne, ale też USA/Japonia/Europa).
  • Równolegle AWS opisał kampanię, w której rosyjskojęzyczny, finansowo motywowany aktor – bez użycia exploitów na FortiGate – skaluje atak przez wystawione interfejsy zarządzania i słabe hasła bez MFA, wykorzystując komercyjne GenAI do planowania i automatyzacji.
  • MITRE ATT&CK formalizuje ten kierunek jako pozyskiwanie/wykorzystanie AI do wsparcia wielu technik (phishing, skrypty, research, socjotechnika, rozwój payloadów).

Kontekst / historia / powiązania

Wątek, który spina całą historię, to ta sama infrastruktura: BleepingComputer opisał wcześniej kampanię, w której atakujący w ciągu kilku tygodni kompromitował urządzenia FortiGate, a jednym z elementów zaplecza był serwer 212.11.64[.]250. Następnie Team Cymru wykrył na tym samym adresie baner usługi CyberStrikeAI na porcie 8080 i korelował ruch (NetFlow) z komunikacją do FortiGate. Co istotne, infrastruktura kampanii miała uruchomiony CyberStrikeAI co najmniej do 30 stycznia 2026.

Team Cymru przyjrzał się też profilowi twórcy („Ed1s0nZ”) i wskazał, że obok CyberStrikeAI rozwija on inne projekty „AI-assisted” do eskalacji uprawnień (np. PrivHunterAI, InfiltrateX). Badacze odnotowali również interakcje z podmiotami/ekosystemem, które w otwartych źródłach bywały łączone z chińskimi operacjami państwowymi (MSS) — to jednak nadal pozostaje oceną analityczną na podstawie publicznych artefaktów.


Analiza techniczna / szczegóły „luki” (czyli: co dokładnie umożliwia CyberStrikeAI)

Architektura „AI-native” i dlaczego jest groźniejsza niż klasyczne zlepki narzędzi

Z opisu projektu i obserwacji badaczy wynika, że CyberStrikeAI dostarcza:

  • Silnik decyzyjny + orkiestrator (agenty AI, automatyzacja „od rozmowy do wyniku”)
  • Role/skills system (gotowe profile działań i zestawy kompetencji do testów)
  • Panel WWW z logowaniem, audytem, trwałością danych (SQLite) oraz wizualizacją łańcucha ataku i zarządzaniem podatnościami/zadaniami

Zintegrowany „pełny łańcuch ataku”

BleepingComputer (na podstawie Team Cymru i repozytorium) wskazuje typowy zestaw narzędzi, które CyberStrikeAI potrafi spiąć w jeden proces, m.in.:

  • Recon/scan: nmap, masscan
  • Web/app testing: sqlmap, nikto, gobuster
  • Eksploatacja: metasploit, pwntools
  • Hasła: hashcat, john
  • Post-eksploatacja / AD: mimikatz, bloodhound, impacket

To istotne, bo realnym „akceleratorem” nie jest pojedynczy moduł, tylko automatyzacja przejść między etapami: skanuj → wybierz powierzchnię → testuj → eksploatuj → utrwal/eskaluj → ruszaj dalej.

Zderzenie z rzeczywistością: urządzenia brzegowe i „mass credential abuse”

AWS opisuje scenariusz, który idealnie pasuje do narzędzi tego typu: masowe wyszukiwanie wystawionych interfejsów zarządzania (m.in. porty 443/8443/10443/4443), a następnie logowanie na słabe/reużyte hasła przy braku MFA. W tej kampanii nie obserwowano eksploatacji podatności FortiGate – przewagę dawały automatyzacja, skala i „AI-augmented” planowanie.


Praktyczne konsekwencje / ryzyko

  1. Przyspieszenie i uprzemysłowienie kompromitacji edge
    Firewalle/VPN-y/urządzenia dostępowe są idealnym celem, bo są widoczne z Internetu, a błędy konfiguracyjne (wystawione panele admina) + słabe uwierzytelnianie dają natychmiastowy zysk. AWS wprost podkreśla, że AI obniża barierę techniczną i pozwala małym aktorom osiągać skalę wcześniej zarezerwowaną dla większych zespołów.
  2. Ryzyko „drugiego kroku”: AD + backupy + staging pod ransomware
    Po wejściu przez brzeg, atakujący często idzie w kierunku przejęcia AD, kradzieży baz poświadczeń oraz dotknięcia infrastruktury backupowej. AWS zaznacza, że obserwacje były spójne z działaniami pre-ransomware, a BleepingComputer (w kontekście kampanii FortiGate) opisywał m.in. zainteresowanie elementami typu Veeam.
  3. „Demokratyzacja” ofensywy
    MITRE klasyfikuje użycie AI jako element budowania zasobów i wsparcia szeregu technik (recon, phishing, skrypty, rozwój możliwości). W połączeniu z platformami takimi jak CyberStrikeAI, oznacza to więcej operatorów zdolnych robić więcej – szybciej.

Rekomendacje operacyjne / co zrobić teraz

Poniżej zestaw działań, które realnie tną skuteczność kampanii „AI-augmented”, bo uderzają w fundamenty, na których one żerują:

Hardening urządzeń brzegowych (FortiGate i podobne)

  • Nie wystawiaj paneli zarządzania do Internetu (jeśli musisz: tylko z allowlisty IP, przez VPN/Zero Trust, z dodatkowymi kontrolami).
  • Wymuś MFA wszędzie tam, gdzie to możliwe (admin, VPN, konta serwisowe); wyeliminuj reużywanie haseł.
  • Przejrzyj ekspozycję portów zarządzania (typowo 443/8443/10443/4443) i zamknij to, co nie jest konieczne.

Detekcja i hunting

  • Monitoruj nietypowe logowania do paneli zarządzania (geolokacja, nowe IP, skoki wolumenu prób logowania, wzorce brute-force).
  • Koreluj zdarzenia „z brzegu” z ruchem do zasobów AD/backup (nagłe połączenia, enumeracja, tworzenie kont, zmiany polityk).
  • Jeśli prowadzisz threat hunting, sprawdź publikowane przez Team Cymru wskaźniki/IP związane z instancjami CyberStrikeAI i potraktuj je jako punkt startowy do korelacji (uwaga: same IP to nie wyrok, ale dobry pivot).

Zarządzanie ryzykiem

  • Załóż, że atakujący „spróbują wszystkich drzwi” automatem: wzmocnij credential hygiene, segmentację sieci i telemetrię post-eksploatacyjną (to są hamulce na skalę).
  • Aktualizuj i audytuj konfiguracje edge oraz polityki dostępu częściej niż dotąd — w świecie „AI-orkiestracji” okno między skanem a próbą wejścia jest krótsze.

Różnice / porównania z innymi przypadkami

CyberStrikeAI vs „zwykłe” użycie LLM w ataku

  • W modelu „klasycznym” LLM jest konsultantem: pisze skrypty, tłumaczy, podpowiada komendy. MITRE opisuje tę klasę zachowań jako wsparcie wielu technik.
  • CyberStrikeAI to krok dalej: narzędzie operacyjne, które spina 100+ modułów i robi z ofensywy proces, który można uruchamiać jak pipeline (bardziej „platforma” niż „porada”).

CyberStrikeAI vs kampania opisana przez AWS

  • AWS pokazał, że nawet bez exploitów, sama kombinacja: ekspozycja + słabe hasła + brak MFA + automatyzacja + GenAI = masowa skuteczność.
  • CyberStrikeAI wpisuje się w ten trend, bo ułatwia przejście od „mam dostęp” do „robię post-eksploatację i eskalację” przy mniejszym wysiłku operatora.

Podsumowanie / kluczowe wnioski

CyberStrikeAI jest sygnałem, że AI w ofensywie przestaje być dodatkiem, a staje się warstwą orkiestracji całych łańcuchów ataku. Obserwacje Team Cymru i doniesienia BleepingComputer pokazują realne wykorzystanie w infrastrukturze powiązanej z atakami na FortiGate. Jednocześnie AWS udowadnia, że w 2026 r. największym paliwem dla „AI-augmented” kampanii nadal są banalne braki w higienie dostępu (wystawione panele, brak MFA, słabe hasła).

Jeśli Twoja organizacja ma urządzenia brzegowe dostępne z Internetu, to nie jest temat „trendu” – to priorytet operacyjny.


Źródła / bibliografia

  1. BleepingComputer – CyberStrikeAI tool adopted by hackers for AI-powered attacks (02.03.2026). (BleepingComputer)
  2. Team Cymru – Tracking CyberStrikeAI Usage (analiza NetFlow, infrastruktura, lista IP). (Team Cymru)
  3. AWS Security Blog (CJ Moses) – AI-augmented threat actor accesses FortiGate devices at scale (20.02.2026). (Amazon Web Services, Inc.)
  4. MITRE ATT&CK – T1588.007 Artificial Intelligence (Resource Development). (attack.mitre.org)
  5. Google Cloud Blog (GTIG) – Distillation, Experimentation, and (Continued) Integration of AI for Adversarial Use (12.02.2026). (Google Cloud)

Hackers weaponizują Claude Code w ataku na instytucje rządu Meksyku: jak wygląda „agentowy” cyberatak napędzany AI

Wprowadzenie do problemu / definicja „luki”

W opisywanym incydencie nie chodzi o pojedynczą podatność typu CVE w jednym systemie, tylko o zmianę modelu działania atakujących: wykorzystanie narzędzia klasy AI coding assistant (Claude Code) jako „silnika operacyjnego”, który pomaga pisać exploity, budować narzędzia i automatyzować działania po stronie napastnika.

Z perspektywy obrony to przesunięcie jest kluczowe: AI nie musi „wymyślać nowych technik”, żeby radykalnie podnieść skuteczność. Wystarczy, że przyspiesza i ułatwia to, co już znamy (rekonesans, dobór wektorów, składanie łańcuchów, triage danych). Anthropic opisywał ten kierunek jako przejście w stronę agentowości: model wykonuje sekwencje zadań w pętli, z ograniczoną liczbą interwencji człowieka.


W skrócie

Z relacji SecurityWeek, bazującej na ustaleniach izraelskiego startupu Gambit Security, wynika że:

  • skompromitowano 10 podmiotów rządowych w Meksyku oraz instytucję finansową; start miał nastąpić pod koniec grudnia 2025 od zaatakowania administracji skarbowej, a dalej m.in. rejestr cywilny, instytucje zdrowia, organ wyborczy oraz jednostki samorządowe i wodociągi,
  • atakujący miał wysłać do Claude Code ponad 1000 promptów, a do analiz danych miał też wykorzystywać OpenAI GPT-4.1,
  • w ok. miesiąc wyprowadzono ponad 150 GB danych (m.in. rejestry cywilne, podatkowe, dane wyborcze), a w przekazie pojawia się liczba ~195 mln tożsamości jako potencjalnie dotkniętych ekspozycją.

Bloomberg opisywał zdarzenie jako kradzież wrażliwych danych (m.in. podatkowych i wyborczych) z użyciem narzędzi Anthropic.


Kontekst / historia / powiązania

Ten przypadek wpisuje się w szerszy trend: AI jako „akcelerator” kampanii, a nie tylko generator pojedynczych fragmentów kodu.

  • Anthropic już wcześniej opisał kampanię, w której Claude Code był używany w sposób wysoce agentowy (duża część operacji wykonywana przez model, z ograniczoną liczbą „punktów decyzyjnych” człowieka), łącznie z rekonesansem, pisaniem exploitów, pozyskiwaniem poświadczeń i porządkowaniem wykradzionych danych.
  • W raporcie threat-intel Anthropic z 2025 r. pojawia się wątek używania Claude Code do zautomatyzowanych działań ofensywnych określanych jako „vibe hacking” (agent wykonujący kolejne kroki operacyjne).
  • CrowdStrike w materiale do Global Threat Report 2026 wskazuje wzrost aktywności „AI-enabled adversaries” (skok r/r) i opisuje AI jako element przyspieszający rekonesans, kradzież poświadczeń i omijanie zabezpieczeń.

W praktyce oznacza to, że incydent w Meksyku nie jest „ciekawostką”, tylko kolejnym sygnałem, że czas reakcji obrońców (MTTD/MTTR) będzie coraz bardziej ściskany przez automatyzację po stronie ataku.


Analiza techniczna / szczegóły „luki” (jak AI pomogło w ataku)

Na bazie publicznych opisów, sedno nie sprowadza się do jednego magicznego promptu, tylko do pracy w cyklu:

1. Jailbreak i „legalna narracja”

Według relacji SecurityWeek, atakujący miał omijać guardraile, przekonując model, że działania są autoryzowane (np. w ramach testów bezpieczeństwa). To klasyczna technika „policy evasion” oparta o kontekst i role.

2. Rekonesans i priorytetyzacja celów

Model (jako agent) jest szczególnie użyteczny w:

  • szybkim mapowaniu usług/zasobów,
  • wskazywaniu „high-value” baz i repozytoriów danych,
  • podpowiadaniu, gdzie szukać danych wrażliwych i jak je klasyfikować.

Anthropic opisywał ten etap jako automatyczne „inspecting systems” i identyfikację najcenniejszych baz danych, znacznie szybciej niż zrobiłby to zespół ludzi.

3. Łańcuchowanie: exploit → narzędzia → automatyzacja eksfiltracji

SecurityWeek podaje, że AI „pisało exploity, budowało narzędzia i automatyzowało eksfiltrację”.
To ważne, bo w realnych kampaniach najwięcej czasu zajmują zwykle:

  • dopasowanie PoC do środowiska,
  • stabilizacja dostępu i utrzymanie sesji,
  • opakowanie kradzieży danych w skrypty/automaty (chunking, retry, szyfrowanie, omijanie limitów),
  • przygotowanie materiałów dla operatora (listy credentiali, mapy systemów, podsumowania).

Agent AI może tu pełnić rolę „automatycznego inżyniera integracji” — składać elementy i iterować, aż zadziała.

4. „Wielomodelowość” (Claude + GPT-4.1)

Wątek użycia drugiego modelu do analizy danych (GPT-4.1) sugeruje praktykę, która staje się standardem u dojrzałych grup: różne modele do różnych zadań (np. jeden do generowania/pisania, drugi do streszczania/klasyfikacji/wnioskowania).


Praktyczne konsekwencje / ryzyko

Największe ryzyka dla organizacji (nie tylko rządowych) to:

  • Kompresja kill chain: mniej „przestojów” po stronie ataku, więcej iteracji w krótszym czasie (rekonesans, dopasowanie technik, automatyzacja działań). Trend wzrostu aktywności grup używających AI podkreślają też raporty rynkowe.
  • Skala i równoległość: agent może „przerabiać” wiele wątków jednocześnie (analiza logów, przygotowanie exploitów, playbooki eksfiltracji).
  • Niższy próg wejścia: AI redukuje wymagany poziom umiejętności w obszarach, które dotąd były barierą (debug exploitów, skrypty do data-miningu, automatyzacja).
  • Ryzyko wtórne po wycieku: kradzież tożsamości, spear-phishing na masową skalę, przejmowanie kont (zwłaszcza gdy dane zawierają identyfikatory i elementy KYC), presja reputacyjna, koszty odtworzenia usług.

Rekomendacje operacyjne / co zrobić teraz

Poniżej zestaw działań, które realnie „dokręcają śrubę” w scenariuszu ataków przyspieszanych AI:

1. Ogranicz powierzchnię i uczyń eksfiltrację trudną

  • Segmentacja danych (rejestry/PII/finanse) + restrykcje egress (proxy, allow-listy, DLP tam gdzie ma sens).
  • Monitorowanie anomalii transferu (nietypowe wolumeny, nietypowe godziny, nowe destynacje).
  • Tokenizacja/format-preserving encryption dla krytycznych identyfikatorów tam, gdzie to możliwe.

2. Detekcja „szybkiego ruchu” po uzyskaniu dostępu

Skoro łańcuch jest kompresowany, priorytetem jest wykrywanie:

  • nietypowych wywołań narzędzi administracyjnych,
  • tworzenia kont uprzywilejowanych,
  • masowych odczytów z baz i eksportów,
  • nietypowych zapytań (burst query, enumeracje, skoki po tabelach).

3. Zabezpiecz tożsamość: MFA + odporność na kradzież sesji

  • MFA odporne na phishing (FIDO2/WebAuthn) dla adminów i systemów krytycznych.
  • Ograniczenie długich sesji, rotacja sekretów, PAM dla uprzywilejowanych.

4. Uczyń „AI w firmie” częścią modelu zagrożeń

Nawet jeśli Twoja organizacja nie używa Claude Code, to:

  • threat-modeluj scenariusz, w którym atakujący używa agentów AI do automatyzacji (Twoje playbooki IR muszą zakładać większą prędkość i równoległość),
  • rozważ „purple teaming” z założeniem, że napastnik ma „AI-operatora”, który iteruje szybciej niż człowiek.

5. Ćwiczenia IR pod kątem wycieku danych

SecurityWeek cytuje uwagę, że „atak tej skali nie kończy się w momencie wykrycia” — odbudowa może być długa i kosztowna.
Przećwicz: izolację segmentów, decyzje o wyłączeniu usług, komunikację kryzysową, procesy prawne i dowodowe.


Różnice / porównania z innymi przypadkami

Klasyczne użycie LLM w atakach (phishing, generowanie fragmentów malware, tłumaczenia, OSINT) jest groźne, ale wciąż często „człowiek-w-pętli”.

W opisywanym schemacie kluczowa jest agentowość: model nie tylko doradza, ale wykonuje kolejne kroki (z narzędziami) i wraca do operatora głównie po decyzje. To jakościowo inna dynamika działań, mocno podkreślana w analizach Anthropic.


Podsumowanie / kluczowe wnioski

  • Incydent w Meksyku jest kolejnym przykładem, że AI może pełnić rolę „multiplikatora” zdolności ofensywnych, zwłaszcza gdy działa jako agent z dostępem do narzędzi.
  • Obrona musi zakładać krótszy czas do eskalacji po wejściu do środowiska i większą automatyzację po stronie przeciwnika.
  • Największą różnicę zrobią działania „anty-eksfiltracyjne”, wzmocnienie IAM oraz detekcja anomalii na warstwie danych i tożsamości.

Źródła / bibliografia

  1. SecurityWeek – opis ataku z użyciem Claude Code przeciw instytucjom w Meksyku (1 marca 2026). (SecurityWeek)
  2. Anthropic – „Disrupting the first reported AI-orchestrated cyber espionage campaign” (listopad 2025). (anthropic.com)
  3. Anthropic – Threat Intelligence Report (PDF, sierpień 2025) – wątek „vibe hacking” z użyciem Claude Code. (Anthropic)
  4. CrowdStrike – wnioski/komunikat do Global Threat Report 2026 (trend AI-enabled adversaries). (CrowdStrike)
  5. Bloomberg – wzmianka o kradzieży wrażliwych danych meksykańskich z użyciem Claude (25 lutego 2026). (Bloomberg.com)

OpenAI ujawnia „warstwowe zabezpieczenia” w kontrakcie z Pentagonem: co oznaczają czerwone linie dla cyberbezpieczeństwa i wdrożeń na sieciach niejawnych

Wprowadzenie do problemu / definicja luki

„Warstwowe zabezpieczenia” (layered protections) w kontekście wdrożeń AI dla instytucji obronnych to podejście, w którym ograniczenia użycia modelu nie opierają się wyłącznie na deklaracjach w politykach (policy), lecz są egzekwowane równolegle przez architekturę wdrożenia, mechanizmy techniczne bezpieczeństwa (safety stack) oraz zapisy kontraktowe i nadzór ludzi.

W praktyce to odpowiedź na klasyczny problem bezpieczeństwa: reguły bez egzekucji (np. „nie wolno używać do X”) są trudne do audytu, podatne na obejścia i słabo odporne na presję operacyjną. Dlatego kluczowe staje się wymuszenie ograniczeń w warstwach: technologicznej, organizacyjnej i prawnej.


W skrócie

  • OpenAI poinformowało, że kontrakt na wdrożenia w sieciach niejawnych Departamentu Obrony USA (administracja używa nazwy „Department of War”) zawiera dodatkowe zabezpieczenia i egzekwuje trzy „czerwone linie”: zakaz masowej inwigilacji krajowej, zakaz kierowania autonomicznymi systemami uzbrojenia oraz zakaz „high-stakes automated decisions”.
  • OpenAI opisuje model ochrony jako multi-layered: zachowuje kontrolę nad własnym „safety stack”, wdraża rozwiązanie wyłącznie w chmurze, utrzymuje personel z poświadczeniami bezpieczeństwa w pętli oraz opiera się na mocnych zapisach umownych.
  • Wydarzenie następuje na tle eskalacji sporu rządu USA z Anthropic (zapowiedź odcięcia współpracy i etykieta „supply-chain risk”), co w branży uruchomiło dyskusję o tym, kto ma prawo narzucać ograniczenia użycia modeli w kontraktach obronnych.

Kontekst / historia / powiązania

Na przełomie 27–28 lutego 2026 temat „guardrails” dla AI w obronności gwałtownie przyspieszył. Według doniesień, administracja USA nakazała agencjom federalnym zakończenie korzystania z produktów Anthropic, a Pentagon miał rozpocząć procedurę uznania firmy za ryzyko łańcucha dostaw (Anthropic zapowiedziało spór prawny).

Wcześniej Reuters opisywał napięcia i ultimatum wobec Anthropic w sprawie ograniczeń użycia modeli.

W tym samym oknie czasowym OpenAI ogłosiło, że zawarło porozumienie dotyczące wdrożeń w środowiskach niejawnych, podkreślając, że ich konstrukcja zabezpieczeń jest „bardziej restrykcyjna” i – co ważne – weryfikowalna w działaniu.


Analiza techniczna / szczegóły „warstwowych zabezpieczeń”

Z punktu widzenia cyberbezpieczeństwa najciekawsze są elementy, które zmniejszają ryzyko obejścia ograniczeń lub „cichego” rozszerzenia przypadków użycia.

1. „Trzy czerwone linie” jako wymagania niefunkcjonalne

OpenAI formalizuje trzy zakazy:

  1. masowa inwigilacja krajowa,
  2. kierowanie autonomicznymi systemami uzbrojenia,
  3. podejmowanie decyzji wysokiej stawki bez człowieka (np. systemy podobne do „social credit”).

Dla praktyków bezpieczeństwa to nie tylko etyka — to wymagania niefunkcjonalne (safety/security constraints), które powinny być mapowane na kontrolki techniczne i audyt.

2. Architektura wdrożenia: „cloud-only” jako kontrola powierzchni ataku i użycia

OpenAI deklaruje wdrożenie wyłącznie w chmurze oraz brak wdrożeń „edge”, wskazując, że edge może ułatwiać scenariusze użycia w systemach autonomicznej broni (ze względu na opóźnienia, łączność, lokalną decyzyjność).

Cybernetycznie: cloud-only zwiększa możliwości:

  • centralnego monitoringu i rejestrowania (telemetria, audyt),
  • kontrolowanych aktualizacji mechanizmów bezpieczeństwa,
  • egzekwowania polityk na bramkach wejścia/wyjścia (np. filtry treści, klasyfikatory),
  • separacji najtajniejszych segmentów od warstw inferencji (w zależności od architektury sieci niejawnej).

3. „Safety stack” pod kontrolą dostawcy + weryfikowalne klasyfikatory

OpenAI podkreśla, że zachowuje pełną kontrolę nad safety stack i że architektura pozwala im „niezależnie weryfikować”, czy czerwone linie nie są przekraczane — m.in. przez uruchamianie i aktualizowanie klasyfikatorów.

To istotne, bo przesuwa ciężar z „użytkownik deklaruje, że nie zrobi X” na „system utrudnia/wykrywa X”.

4. Nadzór ludzi z poświadczeniami bezpieczeństwa („cleared personnel in the loop”)

W warstwie organizacyjnej OpenAI opisuje udział inżynierów wdrożeniowych z poświadczeniami oraz „safety/alignment researchers in the loop”.

W języku kontroli bezpieczeństwa: to mechanizm redukcji ryzyka błędnej konfiguracji, dryfu wymagań i „shadow use” w projektach o wysokiej presji operacyjnej.

5. Kontrakt jako „control plane”: odwołania do ram prawnych i zasad użycia

OpenAI publikuje fragmenty języka kontraktowego, który wiąże użycie systemu z „well-established safety and oversight protocols” oraz ograniczeniami dotyczącymi broni autonomicznej i inwigilacji, w tym odniesieniami do istniejących ram i polityk (np. wymogi kontroli człowieka, ograniczenia przetwarzania danych osób z USA).

Z perspektywy zarządzania ryzykiem to próba „zakotwiczenia” zabezpieczeń w czymś, co jest audytowalne i egzekwowalne.


Praktyczne konsekwencje / ryzyko

Dla rynku cyber i wdrożeń AI (również poza sektorem publicznym) ta historia ma kilka praktycznych wniosków:

  • Wzrost znaczenia architektury jako mechanizmu zgodności: to, gdzie i jak uruchamiasz modele (cloud vs edge, centralny safety stack vs lokalne kopie) staje się równie ważne jak sama polityka użycia.
  • Ryzyko presji na „guardrails off”: spór o to, czy dostawca może utrzymać ograniczenia, pokazuje, że w środowiskach krytycznych „wymagania misji” często konkurują z ograniczeniami bezpieczeństwa.
  • Supply-chain risk jako narzędzie nacisku: etykietowanie dostawcy jako ryzyka łańcucha dostaw (niezależnie od ostatecznego wyniku prawnego) to sygnał, że governance i geopolityka wchodzą do oceny ryzyka dostawców AI tak samo, jak w klasycznym IT/OT.

Rekomendacje operacyjne / co zrobić teraz

Jeśli Twoja organizacja wdraża LLM-y w obszarach wrażliwych (SOC, threat intel, OSINT, analiza incydentów, wsparcie decyzji), potraktuj tę sprawę jako checklistę:

  1. Wymuszaj ograniczenia w architekturze
    • preferuj centralne punkty kontroli (gateway), pełne logowanie, separację środowisk, kontrolę egress/ingress.
  2. Nie polegaj wyłącznie na „policy”
    • polityka użycia bez telemetryki i mechanizmów detekcji jest słaba w audycie i w sporze.
  3. Zadbaj o „human-in-the-loop” tam, gdzie ryzyko jest wysokie
    • zdefiniuj, które klasy decyzji wymagają zatwierdzenia człowieka i jak to mierzyć.
  4. Wprowadź mierzalne testy „red lines”
    • scenariusze testowe (abuse cases), kontrola promptów, testy odporności na obejścia, walidacja wyjść.
  5. Zapisz guardrails w umowach i SLA
    • z prawem do audytu, warunkami rozwiązania umowy, wymaganiami raportowania i zmian.

Różnice / porównania z innymi przypadkami

Największa różnica, którą OpenAI akcentuje, to odejście od modelu „ograniczenia w regulaminie” na rzecz egzekwowalnego miksu:

  • Policy-only: zakazy w zasadach użycia + wiara w zgodność użytkownika.
  • Layered protections: cloud-only + safety stack pod kontrolą dostawcy + klasyfikatory/telemetria + personel w pętli + kontrakt z „czerwonymi liniami”.

W praktyce cyber oznacza to większą szansę na audyt i wykrywalność nadużyć — ale też większą złożoność techniczną i zależność od dostawcy.


Podsumowanie / kluczowe wnioski

  • OpenAI opisuje kontrakt dla środowisk niejawnych jako wdrożenie z „warstwowymi zabezpieczeniami”, które mają egzekwować trzy czerwone linie (inwigilacja, broń autonomiczna, decyzje wysokiej stawki).
  • Najbardziej „cyber-relewantne” elementy to: cloud-only, safety stack kontrolowany przez dostawcę, możliwość aktualizacji klasyfikatorów oraz cleared personnel in the loop.
  • Spór z Anthropic pokazuje, że w 2026 r. bezpieczeństwo AI w sektorze obronnym jest już nie tylko tematem technicznym, ale też kontraktowym i politycznym — a pojęcia takie jak „supply-chain risk” mogą stać się instrumentem nacisku.

Źródła / bibliografia

  • Reuters (28.02.2026): opis kontraktu OpenAI z Pentagonem i „layered protections”, trzy czerwone linie. (Reuters)
  • OpenAI (2026): „Our agreement with the Department of War” – opis architektury cloud-only, safety stack, klasyfikatory, fragmenty języka kontraktowego, cleared personnel. (OpenAI)
  • NPR / Associated Press (27–28.02.2026): tło eskalacji z Anthropic, zapowiedź „supply-chain risk”, kontekst polityczny i kontraktowy. (VPM)
  • Reuters (24.02.2026): wcześniejsze doniesienia o ultimatum wobec Anthropic dot. ograniczeń bezpieczeństwa. (Reuters)

Pentagon oznacza Anthropic jako „Supply Chain Risk”. Co to znaczy dla bezpieczeństwa, kontraktów i użycia AI w obronności?

Wprowadzenie do problemu / definicja luki

Pod koniec lutego 2026 r. amerykańskie kierownictwo resortu obrony ogłosiło zamiar formalnego uznania firmy Anthropic (twórcy modelu Claude) za „supply chain risk” dla bezpieczeństwa narodowego. W narracji publicznej brzmi to jak „czarna lista” — ale w praktyce chodzi o instrumenty prawno-zamówieniowe, które pozwalają ograniczać lub blokować wykorzystanie określonych technologii w łańcuchu dostaw instytucji państwowych, zwłaszcza w systemach wrażliwych.

Kluczowe jest to, że spór nie dotyczy klasycznego incydentu cyber (np. wykrytego backdoora), tylko warunków użycia modeli AI w zastosowaniach wojskowych — w tym masowej inwigilacji krajowej oraz w pełni autonomicznych systemów rażenia.


W skrócie

  • Sekretarz resortu obrony (w materiałach źródłowych: „Department of War”) ogłosił skierowanie działań, by uznać Anthropic za „Supply Chain Risk to National Security”.
  • Anthropic twierdzi, że impas negocjacyjny wynikał z dwóch „wyjątków”, których firma nie chciała dopuścić w kontraktach: masowej inwigilacji Amerykanów oraz w pełni autonomicznych broni.
  • Spór wywołał efekt domina: wątek kontraktów na modele AI dla sieci niejawnych i twardych „guardrails” został natychmiast podchwycony przez konkurencję (OpenAI) i media.
  • W tle jest przepis 10 U.S.C. § 3252, który opisuje działania zakupowe i tryb postępowania w sprawach „supply chain risk”.

Kontekst / historia / powiązania

Z publicznych oświadczeń wynika, że Anthropic wcześniej współpracował z administracją USA w środowiskach o podwyższonej wrażliwości: firma podkreśla wdrożenia w sieciach niejawnych i zastosowania „mission-critical” (m.in. analiza wywiadowcza, planowanie, cyberoperacje).

Punktem zapalnym stał się postulat rządu, by resort mógł używać modelu „do wszystkich legalnych celów” (w tym potencjalnie takich, których Anthropic nie chce wspierać kontraktowo), oraz spór o to, czy dostawca AI może narzucać ograniczenia użycia w sferze obronnej.

Równolegle temat stał się elementem politycznej eskalacji: pojawił się komunikat o wygaszaniu użycia technologii Anthropic w agencjach federalnych w horyzoncie 6 miesięcy oraz wątek natychmiastowych ograniczeń dla kontrahentów wojskowych.


Analiza techniczna / szczegóły decyzji

1) „Supply chain risk” w tym przypadku = narzędzie zakupowe, nie „dowód infekcji”

Warto oddzielić dwie warstwy:

  • Warstwa cyber: klasycznie „supply chain risk” kojarzy się z ryzykiem sabotażu/kompromitacji komponentu w łańcuchu dostaw (np. biblioteka, firmware, poddostawca).
  • Warstwa kontraktowo-regulacyjna: 10 U.S.C. § 3252 opisuje uprawnienia i tryb prowadzenia działań zakupowych związanych z ryzykiem łańcucha dostaw (w tym ograniczanie ujawniania podstaw decyzji) oraz formalne wymagania dot. oceny i notyfikacji.

Artykuł The Hacker News podkreśla dodatkowo, że — według stanowiska Anthropic — ewentualna kwalifikacja w oparciu o 10 U.S.C. § 3252 miałaby dotyczyć użycia Claude w ramach kontraktów resortu, a nie „globalnego” zakazu świadczenia usług dla innych klientów. To istotne dla firm prywatnych i integratorów, bo ogranicza (przynajmniej w teorii) zakres rażenia decyzji.

2) Spór o „guardrails” – dwa punkty krytyczne

Anthropic publicznie wskazuje dwie czerwone linie, których nie chce dopuścić kontraktowo:

  • masowa krajowa inwigilacja,
  • w pełni autonomiczne systemy broni.

Z kolei Reuters opisuje, że OpenAI w swoim kontrakcie z resortem obrony akcentuje analogiczne „red lines” (m.in. brak masowej inwigilacji, brak kierowania autonomiczną bronią, brak wysokostawkowych decyzji automatycznych) oraz „warstwowe zabezpieczenia” wdrożenia w sieciach niejawnych. To pokazuje, że rynek próbuje „produktować” zgodność i kontrolę użycia jako element oferty.


Praktyczne konsekwencje / ryzyko

Dla kontraktorów i dostawców robiących biznes z wojskiem USA

  • Ryzyko compliance: jeśli komunikaty o zakazie „commercial activity” dla kontraktorów resortu byłyby egzekwowane szeroko, firmy muszą szybko ustalić, czy i gdzie używają Claude (np. w narzędziach do analizy dokumentów, SOC, red-teamingu, automatyzacji raportów).
  • Ryzyko dostaw i podwykonawców: nawet jeśli prawnie zakres jest węższy (spór o interpretację 10 U.S.C. § 3252), w praktyce audyty łańcucha dostaw i polityki zakupowe potrafią działać „ponad literą” — przez wymagania umowne, certyfikacje i oświadczenia.

Dla organizacji komercyjnych poza sferą wojskową

  • Ryzyko reputacyjne i vendor-risk: głośna etykieta „supply chain risk” może wymuszać dodatkowe oceny ryzyka dostawcy (TPRM), nawet jeśli formalnie nie dotyczy klientów cywilnych.
  • Ryzyko ciągłości usług: jeśli część ekosystemu (np. integratorzy pracujący równolegle dla DoD i cywila) zacznie ograniczać użycie Claude, mogą pojawić się migracje do alternatywnych modeli i zmiany w łańcuchu narzędzi.

Dla bezpieczeństwa informacji

Paradoksalnie, konflikty o „guardrails” mogą podbijać presję na:

  • uruchamianie modeli na środowiskach odseparowanych,
  • twardsze kontroly dostępu, logowania i audytowalności,
  • formalizację zasad: czego model nie może robić w środowiskach krytycznych.

Rekomendacje operacyjne / co zrobić teraz

Jeśli Twoja organizacja jest dostawcą, integratorem lub podwykonawcą w ekosystemie obronnym (USA lub sojuszniczym), potraktuj to jak incydent compliance z ryzykiem operacyjnym:

  1. SBOM/AI-BOM dla AI: zinwentaryzuj użycie modeli Anthropic/Claude (API, wtyczki, narzędzia z wbudowanym Claude, automatyzacje, pipeline’y).
  2. Segmentacja przypadków użycia: oddziel zastosowania „core” (np. analiza danych wrażliwych) od peryferyjnych (np. copywriting, summarization), bo to determinuje priorytet migracji.
  3. Kontrola dostawców: sprawdź, czy Twoi dostawcy (np. platformy bezpieczeństwa, narzędzia do obsługi ticketów, chatboty) nie korzystają z Claude „pod maską”.
  4. Plan migracji: przygotuj wariant „switch” na alternatywne modele (technicznie: abstrakcja warstwy LLM, kompatybilność promptów, testy regresji bezpieczeństwa).
  5. Polityka użycia AI: spisz wprost zakazane klasy zastosowań (np. decyzje wysokostawkowe bez człowieka w pętli; generowanie celów; masowe profilowanie osób), bo to minimalizuje ryzyko kontraktowe i prawne — niezależnie od dostawcy.

Różnice / porównania z innymi przypadkami (jeśli dotyczy)

W dyskusjach publicznych pojawia się porównywanie „supply chain risk” do działań wobec firm postrzeganych jako ryzyko państwowe. Tutaj jednak wyróżnikiem jest to, że mówimy o amerykańskim dostawcy AI i sporze o dopuszczalne use-case’y, a nie o wykazanej kompromitacji technicznej produktu w łańcuchu dostaw.

Druga różnica: wątek AI ma „warstwę normatywną” — dostawcy chcą wbudować ograniczenia użycia w umowy i wdrożenia, a administracja oczekuje szerokiej dyspozycyjności technologii „dla wszystkich legalnych celów”. To konflikt modelu odpowiedzialności, a nie tylko ryzyka cyber.


Podsumowanie / kluczowe wnioski

  • Oznaczenie Anthropic jako „supply chain risk” jest w tej historii przede wszystkim narzędziem presji kontraktowo-politycznej związanej z ograniczeniami użycia AI, a nie klasycznym komunikatem o kompromitacji.
  • Fundamentem formalnym jest 10 U.S.C. § 3252 (mechanizmy działań zakupowych w kontekście ryzyka łańcucha dostaw), ale interpretacja realnego zasięgu ograniczeń może stać się osią sporu prawnego i compliance.
  • Dla firm współpracujących z obronnością kluczowe jest szybkie TPRM + inwentaryzacja użycia modeli i przygotowanie planów migracji / substytucji.
  • Równolegle konkurencja (np. OpenAI) stara się pokazać, że „guardrails” da się zapisać w umowach i wdrożyć warstwowo — co będzie rosnącym standardem w kontraktach na AI w środowiskach krytycznych.

Źródła / bibliografia

  1. The Hacker News – opis decyzji i tło sporu (28 lutego 2026). (The Hacker News)
  2. Anthropic – oświadczenie dot. komentarzy sekretarza (27 lutego 2026). (Anthropic)
  3. Anthropic (Dario Amodei) – stanowisko ws. warunków użycia i współpracy (26 lutego 2026). (Anthropic)
  4. Reuters – szczegóły „guardrails” w umowie OpenAI z DoD i kontekst decyzji (28 lutego 2026). (Reuters)
  5. U.S. Code – 10 U.S.C. § 3252 (ramy dot. „supply chain risk”). (U.S. Code)

„Nieszkodliwe” klucze Google API zaczęły ujawniać dane Gemini. Co się stało i jak się zabezpieczyć?

Wprowadzenie do problemu / definicja luki

Przez lata wiele zespołów traktowało Google API keys (np. do Maps) jako „pół-publiczne” identyfikatory, które i tak muszą być widoczne w kodzie klienta (np. w JavaScripcie na stronie). Problem polega na tym, że wraz z upowszechnieniem Gemini (Generative Language API) część takich kluczy zaczęła działać jak poświadczenia do usług AI, co zmienia ich profil ryzyka: z „nadużycie = rachunki / limity Maps” na „nadużycie = dostęp do zasobów i danych w kontekście Gemini + kosztowne wywołania LLM”.


W skrócie

  • Badacze znaleźli ~2,8–3 tys. publicznie wystawionych kluczy Google API, które mogą zostać użyte do uwierzytelnienia wobec Gemini API.
  • Mechanizm ma charakter „retroaktywnego” rozszerzenia uprawnień: klucz utworzony np. pod Maps, po włączeniu Gemini w tym samym projekcie, może uzyskać dostęp do endpointów Gemini bez wyraźnego ostrzeżenia.
  • Google przekazał, że wdrożył środki: m.in. blokowanie wyciekłych kluczy próbujących użyć Gemini oraz zmianę domyślnych ustawień dla nowych kluczy z AI Studio.

Kontekst / historia / powiązania

Według opisu sprawy, Truffle Security przeskanowało zrzut Common Crawl z listopada 2025 i zidentyfikowało 2 863 „żywe” klucze widoczne w publicznym kodzie stron.
BleepingComputer podaje, że problem urósł do „prawie 3 000” kluczy, w tym pochodzących z organizacji o wysokim profilu (a nawet przykładów z infrastruktury Google).

Chronologia z raportu medialnego:

  • zgłoszenie do Google: 21 listopada 2025,
  • klasyfikacja problemu przez Google jako „single-service privilege escalation”: 13 stycznia 2026.

Analiza techniczna / szczegóły luki

Jak działa „eskalacja” w praktyce

  1. Zespół tworzy klucz API do usługi typu Maps/YouTube/Firebase i umieszcza go w kodzie klienta (HTML/JS).
  2. Ktoś w organizacji włącza Gemini API (Generative Language API) w tym samym projekcie Google Cloud.
  3. Ten sam klucz — często domyślnie unrestricted — może stać się ważnym poświadczeniem do endpointów Gemini, mimo że pierwotnie był traktowany jako mało wrażliwy.

Truffle Security opisuje to jako efekt niebezpiecznych domyślnych ustawień (klucze „unrestricted” i szerokie obowiązywanie na wszystkie włączone API w projekcie) oraz brak sygnału, że „pod spodem” zmienił się zakres uprawnień klucza.

Co dokładnie mogli testować badacze

W przytoczonym przykładzie badacze mieli wykonać połączenie do endpointu Gemini /models w celu listowania dostępnych modeli przy użyciu przejętego klucza. To dowodzi, że klucz „z weba” potrafił uwierzytelnić się do Gemini API.

Co mówi dokumentacja Google (ważne dla oceny ryzyka)

  • Google AI for Developers wprost podkreśla: nie wystawiaj kluczy po stronie klienta (web/mobile) w produkcji, bo da się je wyciągnąć; zaleca ograniczenia (IP/referrer/app) i ograniczanie zakresu API.
  • Google Cloud Documentation przypomina, że API keys są „unrestricted” domyślnie, a w produkcji należy ustawiać application restrictions i API restrictions.

Praktyczne konsekwencje / ryzyko

1) Dostęp do Gemini w kontekście Twojego projektu

Jeżeli w projekcie są zasoby lub funkcje powiązane z użyciem Gemini (np. pliki przesyłane w aplikacjach, cache, dane kontekstowe — zależnie od implementacji), przejęty klucz może dać atakującemu „wejście” do ścieżek API, do których klucz nigdy nie miał mieć dostępu.

2) Kosztowe nadużycia (AI bill abuse)

To może być też klasyczny wektor financial DoS: atakujący automatyzuje kosztowne wywołania modeli i generuje nieoczekiwane rachunki. Truffle Security ostrzega o ryzyku rachunków idących w tysiące dolarów dziennie w zależności od modelu i okna kontekstowego.

3) Trudność wykrycia

Najgorsze w tym scenariuszu jest to, że „wyciek” mógł mieć miejsce lata temu (bo klucz był jawnie w kodzie), a dopiero później stał się realnie niebezpieczny.


Rekomendacje operacyjne / co zrobić teraz

Poniżej checklista w stylu „zrób dziś” (kolejność ma znaczenie):

  1. Sprawdź, czy Gemini/Generative Language API jest włączone w Twoich projektach (szczególnie tych „webowych”, gdzie historycznie trzymałeś Maps/YouTube keys).
  2. Zidentyfikuj klucze wystawione publicznie:
    • przeszukaj repozytoria, artefakty buildów, front-end bundle, strony WWW, CDN, dokumentację;
    • użyj narzędzi do skanowania sekretów (BleepingComputer wskazuje m.in. TruffleHog).
  3. Rotuj klucze natychmiast, jeśli mogły wyciec (publiczny JS/HTML = wyciek z definicji).
  4. Włącz restrykcje dla kluczy:
    • API restrictions: zezwól tylko na konkretne API potrzebne danej aplikacji,
    • Application restrictions: referrery dla WWW, IP dla backendów, podpisane aplikacje dla mobile.
  5. Rozdziel projekty (segregacja blast radius): osobny projekt dla prototypów AI, osobny dla „publicznych” integracji typu Maps. To minimalizuje efekt „włączenie nowego API → stary klucz nagle zyskuje nowe moce”. (To wprost wynika z opisanego mechanizmu eskalacji.)
  6. Przenieś wywołania Gemini na serwer (lub używaj mechanizmów tymczasowych tokenów tam, gdzie pasuje): Google zaleca serwer-side jako bezpieczniejszy wzorzec użycia klucza.
  7. Monitoring i alerty: ustaw detekcję anomalii użycia API i budżety/limity — dokumentacja Google podkreśla monitoring i logging jako praktykę ograniczającą skutki kompromitacji.

Różnice / porównania z innymi przypadkami

  • Klasyczny wyciek klucza API: „ktoś wrzucił sekret do repo”.
  • Ten przypadek: „sekret” był historycznie traktowany jako nie-sekret (bo w kliencie), ale stał się wrażliwy po zmianie powierzchni ataku (Gemini) i domyślnej polityce kluczy/projektów. To bardziej przypomina zmianę modelu zaufania niż pojedynczą wpadkę developera.

Podsumowanie / kluczowe wnioski

Jeśli w Twojej organizacji istnieją stare klucze Google API osadzone w kodzie stron lub aplikacji, to w świecie Gemini mogą one działać jak realne poświadczenia do usług AI. Najważniejsze działania to: audyt włączonych API, restrykcje kluczy (API + aplikacja), rotacja, rozdział projektów i przeniesienie wywołań Gemini na serwer. Google deklaruje dodatkowe zabezpieczenia (blokowanie wyciekłych kluczy dla Gemini i zmiany domyślnych ustawień), ale to nie zastępuje higieny kluczy po stronie użytkownika.


Źródła / bibliografia

  1. BleepingComputer — Previously harmless Google API keys now expose Gemini AI data (26 lutego 2026). (BleepingComputer)
  2. Truffle Security — Google API Keys Weren’t Secrets. But then Gemini Changed the Rules. (trufflesecurity.com)
  3. Google AI for Developers — Using Gemini API keys (sekcja zasad bezpieczeństwa). (Google AI for Developers)
  4. Google Cloud Documentation — Manage API keys / Apply API key restrictions (klucze „unrestricted” domyślnie, typy restrykcji). (Google Cloud Documentation)
  5. Google Cloud Documentation — Best practices for managing API keys (rotacja, brak kluczy w kodzie klienta, monitoring). (Google Cloud Documentation)