Ataki prompt injection na AI rosną, ale wciąż są mało zaawansowane - Security Bez Tabu

Ataki prompt injection na AI rosną, ale wciąż są mało zaawansowane

Cybersecurity news

Wprowadzenie do problemu / definicja

Prompt injection to technika manipulowania systemami sztucznej inteligencji poprzez dostarczanie im specjalnie przygotowanych instrukcji. Atak może mieć charakter bezpośredni, gdy użytkownik próbuje wpłynąć na model w trakcie rozmowy, lub pośredni, gdy złośliwe polecenia są ukryte w treściach przetwarzanych przez AI, takich jak strony internetowe, dokumenty czy wiadomości e-mail.

To właśnie pośredni prompt injection budzi dziś szczególne zainteresowanie środowiska bezpieczeństwa. Wraz z rozwojem agentów AI, które analizują treści z internetu i wykonują zadania w imieniu użytkownika, rośnie ryzyko, że model potraktuje spreparowaną zawartość jako wiążące polecenie.

W skrócie

Google odnotował wzrost liczby złośliwych przypadków pośredniego prompt injection w publicznej sieci. Między listopadem 2025 a lutym 2026 liczba wykryć w kategorii złośliwej wzrosła o 32%, co sugeruje rosnące zainteresowanie tym wektorem ataku.

Jednocześnie badacze podkreślają, że obecnie dominują próby mało zaawansowane technicznie. Wiele z nich przypomina eksperymenty, żarty lub proste próby manipulowania odpowiedzią modelu, choć pojawiają się też scenariusze związane z eksfiltracją danych i próbami działań destrukcyjnych.

Kontekst / historia

Prompt injection od dawna był postrzegany jako obiecujący wektor nadużyć wobec systemów generatywnej AI. W przeciwieństwie do klasycznych podatności, nie wymaga on błędu w kodzie, lecz wykorzystuje sposób, w jaki model interpretuje dane wejściowe i priorytetyzuje instrukcje.

Znaczenie tego zagrożenia wzrosło wraz z popularyzacją agentów AI zdolnych do przeglądania stron, streszczania treści, korzystania z narzędzi i podejmowania działań operacyjnych. W takich środowiskach złośliwa treść może wpływać nie tylko na odpowiedź tekstową, ale również na konkretne operacje wykonywane przez system.

Analiza Google opierała się na archiwalnych migawkach stron internetowych pochodzących z repozytorium Common Crawl. Celem było sprawdzenie, czy techniki znane z badań naukowych i demonstracji laboratoryjnych są już wykorzystywane w realnym, publicznym internecie na większą skalę.

Analiza techniczna

Pośredni prompt injection działa wtedy, gdy model lub agent AI przetwarza zewnętrzną treść zawierającą ukryte instrukcje. Jeśli zabezpieczenia nie zadziałają prawidłowo, system może nadać takim instrukcjom zbyt wysoki priorytet i zmienić swoje zachowanie w sposób niezgodny z polityką bezpieczeństwa lub intencją użytkownika.

W badaniu zastosowano podejście wieloetapowe. Najpierw wyszukiwano charakterystyczne wzorce tekstowe, takie jak polecenia nakazujące ignorowanie wcześniejszych instrukcji lub zwroty kierowane bezpośrednio do modeli AI. Następnie kandydackie przypadki klasyfikowano przy użyciu modelu Gemini, a ostateczna ocena była wspierana ręczną weryfikacją, aby ograniczyć liczbę fałszywych alarmów.

Wykryte przypadki obejmowały kilka kategorii. Część stanowiły nieszkodliwe żarty próbujące zmienić ton odpowiedzi asystenta. Inne miały charakter pozornie pomocnych wskazówek dla systemów streszczających zawartość stron. Odnotowano również wykorzystanie prompt injection w celach SEO, gdzie autorzy treści starali się skłonić modele do promowania określonych marek lub firm.

Osobną grupę stanowiły instrukcje mające zakłócać działanie agentów AI. W niektórych przypadkach próbowano odsyłać systemy do źródeł generujących niekończący się strumień tekstu, co mogło prowadzić do timeoutów, nadmiernego zużycia zasobów lub spadku jakości działania.

Z perspektywy bezpieczeństwa najistotniejsze były jednak przypadki złośliwe. Badacze wskazali próby skłaniania AI do gromadzenia informacji, takich jak adresy IP czy poświadczenia, a następnie przesyłania ich pod kontrolowany adres. Zaobserwowano też prompty próbujące nakłonić system do usuwania plików z urządzenia użytkownika. Mimo to Google ocenia, że nie są to jeszcze kampanie szczególnie wyrafinowane.

Konsekwencje / ryzyko

Obecny niski poziom zaawansowania nie powinien prowadzić do bagatelizowania zagrożenia. Sam wzrost liczby złośliwych prób pokazuje, że atakujący testują skuteczność tego podejścia i mogą rozwijać je wraz z dojrzewaniem ekosystemu agentów AI.

Najważniejsze ryzyka obejmują wyciek danych, manipulowanie odpowiedziami modeli, nadużycia w przepływach roboczych oraz zakłócanie pracy agentów przetwarzających treści zewnętrzne. Szczególnie narażone są środowiska, w których modele mają dostęp do poczty, dokumentów, repozytoriów kodu, systemów SaaS lub funkcji wykonywania działań o podwyższonym ryzyku.

W praktyce prompt injection może stać się odpowiednikiem złośliwego wejścia sterującego logiką operacyjną systemu. Jeśli agent ma możliwość korzystania z narzędzi i wykonywania akcji, nawet prosty prompt osadzony w zewnętrznej treści może doprowadzić do realnego incydentu bezpieczeństwa.

Warto również pamiętać, że analiza objęła głównie publiczną sieć i nie uwzględniała w pełni wszystkich trudniejszych do monitorowania kanałów, takich jak duże platformy społecznościowe. Rzeczywista skala zjawiska może więc być większa, niż wskazują obecne wyniki.

Rekomendacje

Organizacje wdrażające agentów AI powinny traktować prompt injection jako odrębną klasę zagrożeń aplikacyjnych. Kluczowe jest rozdzielenie instrukcji systemowych, danych użytkownika i treści pochodzących ze źródeł zewnętrznych, tak aby model nie ufał automatycznie zawartości pobranej z internetu, dokumentów czy poczty.

Równie istotne jest ograniczanie uprawnień agentów zgodnie z zasadą najmniejszych uprawnień. System analizujący strony lub streszczający dokumenty nie powinien samodzielnie wykonywać działań wysokiego ryzyka bez dodatkowej autoryzacji człowieka.

  • filtrowanie i oznaczanie niezaufanych treści wejściowych,
  • walidacja kontekstu przed wykonaniem akcji,
  • potwierdzenia człowieka dla operacji wrażliwych,
  • izolacja środowisk wykonawczych i sandboxing,
  • monitorowanie anomalii w zachowaniu agentów,
  • logowanie pełnego łańcucha decyzji modelu oraz użytych narzędzi.

Z perspektywy zespołów SOC i AppSec ważne jest także rozszerzenie modeli zagrożeń o scenariusze, w których nośnikiem poleceń dla modelu stają się treści HTML, e-maile, komentarze, pliki tekstowe lub dokumenty PDF. Dodatkowo warto regularnie prowadzić red teaming i testy odporności rozwiązań AI na manipulację treścią.

Podsumowanie

Obserwacje Google pokazują, że pośrednie ataki prompt injection w publicznym internecie stają się coraz częstsze, ale nadal pozostają w większości prymitywne i eksperymentalne. To jednak etap, którego nie należy lekceważyć, ponieważ wraz ze wzrostem autonomii agentów AI skutki nawet prostych ataków mogą być coraz poważniejsze.

Dla organizacji oznacza to konieczność projektowania systemów AI w modelu zero trust wobec danych wejściowych. Ochrona przed prompt injection powinna obejmować segmentację uprawnień, kontrolę narzędzi, nadzór człowieka nad operacjami wysokiego ryzyka oraz ciągłe testowanie odporności modeli i agentów na manipulację.

Źródła

  1. SecurityWeek — Malicious AI Prompt Injection Attacks Increasing, but Sophistication Still Low: Google — https://www.securityweek.com/malicious-ai-prompt-injection-attacks-increasing-but-sophistication-still-low-google/
  2. Google Online Security Blog — AI threats in the wild: The current state of prompt injections on the web — https://security.googleblog.com/2026/04/ai-threats-in-wild-current-state-of.html