Czołowe modele AI bardziej podatne na złośliwe prompty niż deklarują dostawcy

Co znajdziesz w tym artykule?

1 Wprowadzenie do problemu / definicja
2 W skrócie
3 Kontekst / historia
4 Analiza techniczna
5 Konsekwencje / ryzyko
6 Rekomendacje
7 Podsumowanie
8 Źródła

Wprowadzenie do problemu / definicja

Bezpieczeństwo generatywnej sztucznej inteligencji coraz częściej ocenia się przez pryzmat odporności na prompt injection, czyli techniki manipulowania modelem za pomocą odpowiednio skonstruowanych poleceń. Najnowsze ustalenia badaczy pokazują jednak, że popularne metody testowania zbyt mocno koncentrują się na pojedynczych zapytaniach, podczas gdy realny atak zwykle ma charakter wieloetapowy i adaptacyjny.

To oznacza, że model uznawany za bezpieczny w publicznych benchmarkach może w praktyce zostać stopniowo skłoniony do obejścia własnych mechanizmów ochronnych w toku dłuższej rozmowy.

W skrócie

Badanie objęło 15 wiodących modeli AI oferowanych przez największych dostawców. Wyniki wskazują, że skuteczność ataków wieloturnowych była wyraźnie wyższa niż w przypadku klasycznych ataków jednokrokowych.

Ataki wieloturnowe lepiej odzwierciedlają rzeczywiste działania przeciwnika.
Publiczne benchmarki bezpieczeństwa mogą zaniżać realną ekspozycję modeli na nadużycia.
Różnica między deklarowaną a rzeczywistą odpornością zwiększa ryzyko dla firm wdrażających AI do procesów biznesowych.

Kontekst / historia

Temat wieloetapowych ataków na modele językowe narasta od kilku kwartałów. Wcześniejsze analizy skupiały się głównie na modelach open-weight i pokazywały, że iteracyjne prowadzenie rozmowy znacząco zwiększa szanse obejścia filtrów bezpieczeństwa.

Obecne ustalenia rozszerzają tę obserwację także na modele zamknięte, które zwykle są przedstawiane jako bardziej kontrolowane i bezpieczniejsze do zastosowań komercyjnych. To istotna zmiana perspektywy, ponieważ przez długi czas bezpieczeństwo oceniano głównie na podstawie tego, czy system odmówi wykonania pojedynczego niebezpiecznego polecenia.

W praktyce rzeczywisty atakujący działa inaczej. Testuje różne sformułowania, dzieli zadanie na mniejsze etapy, zmienia kontekst rozmowy i wykorzystuje tendencję modelu do zachowywania spójności pomiędzy kolejnymi turami dialogu.

Analiza techniczna

Z technicznego punktu widzenia problem wynika z różnicy między statycznym a adaptacyjnym modelem zagrożeń. Test jednokrokowy sprawdza, czy pojedynczy prompt zostanie zablokowany. Test wieloturnowy zakłada natomiast, że atakujący obserwuje reakcję modelu, a następnie modyfikuje kolejne komunikaty tak, aby stopniowo osłabić lub ominąć polityki bezpieczeństwa.

Badacze wskazali pięć głównych klas strategii wykorzystywanych w takich scenariuszach:

Role-playing – nakłanianie modelu do wejścia w określoną rolę lub symulację.
Misdirection – odwracanie uwagi modelu od rzeczywistego celu zapytania.
Decomposition – rozbijanie niebezpiecznego zadania na mniejsze, mniej podejrzane kroki.
Reframing odmowy – przekształcanie wcześniejszej odmowy w pozornie dozwolony kontekst.
Incremental escalation – stopniowe podnoszenie poziomu ryzyka w kolejnych turach konwersacji.

Kluczowym wskaźnikiem w badaniu był ASR, czyli attack success rate. Skuteczność ataków wieloturnowych mieściła się w przedziale od 8% do 88%, podczas gdy dla ataków jednokrokowych zakres wynosił od 2% do 65%.

Wnioski są istotne również dlatego, że nawet najlepiej oceniane modele zachowały mierzalne ryzyko resztkowe. Autorzy zwrócili ponadto uwagę, że ustawienia wykonawcze, w tym sposób działania trybów rozumowania, mogą wpływać na profil bezpieczeństwa modelu i powinny być transparentnie dokumentowane.

Konsekwencje / ryzyko

Dla przedsiębiorstw korzystających z AI problem ma wymiar operacyjny, regulacyjny i strategiczny. Jeśli organizacja opiera decyzje zakupowe wyłącznie na publicznych ocenach odporności na prompt injection, może błędnie uznać model za bezpieczny, mimo że pozostaje on podatny na iteracyjne obejście zabezpieczeń.

Ryzyko praktyczne obejmuje kilka obszarów:

generowanie treści naruszających polityki bezpieczeństwa,
obchodzenie ograniczeń związanych z przetwarzaniem danych i klasyfikacją informacji,
zwiększone zagrożenie dla agentów AI z dostępem do systemów zewnętrznych, poczty, repozytoriów kodu, baz wiedzy i interfejsów API,
błędną ocenę ryzyka przez zarząd, zespoły GRC oraz architektów bezpieczeństwa.

W praktyce oznacza to, że organizacja może wdrożyć niewystarczające środki ochronne, zakładając, że sam model jest odporniejszy, niż pokazują realistyczne scenariusze ataku.

Rekomendacje

Organizacje wdrażające modele AI powinny traktować wyniki jednokrokowych benchmarków wyłącznie jako punkt wyjścia. Pełna ocena bezpieczeństwa wymaga własnych testów red-teamowych z wykorzystaniem wieloturnowych scenariuszy ataku, najlepiej dopasowanych do konkretnych przypadków użycia.

wymagać od dostawców danych porównawczych dla testów single-turn i multi-turn,
testować modele dokładnie w tych konfiguracjach, które będą używane produkcyjnie,
ograniczać uprawnienia agentów AI zgodnie z zasadą najmniejszych uprawnień,
stosować warstwy pośrednie filtrujące prompty wejściowe i odpowiedzi wyjściowe,
monitorować całe sekwencje rozmów, a nie tylko pojedyncze zapytania,
wdrażać limity kontekstowe i polityki przerywania rozmowy przy wykryciu eskalacji ryzyka,
segmentować dostęp modeli do narzędzi, danych i akcji wysokiego ryzyka,
regularnie aktualizować model zagrożeń o scenariusze iteracyjnego obchodzenia zabezpieczeń.

Z perspektywy dostawców kluczowe staje się publikowanie bardziej transparentnych metryk bezpieczeństwa oraz dokumentowanie wpływu ustawień modelu na odporność wobec nadużyć.

Podsumowanie

Badanie pokazuje, że odporność czołowych modeli AI na złośliwe prompty może być istotnie przeszacowana, jeśli ocena opiera się wyłącznie na testach jednokrokowych. Ataki wieloturnowe lepiej odzwierciedlają zachowanie realnego przeciwnika i ujawniają luki niewidoczne w uproszczonych benchmarkach.

Dla organizacji oznacza to konieczność dojrzalszego podejścia do bezpieczeństwa AI: bardziej realistycznych testów, większej transparentności dostawców oraz silniejszej kontroli nad integracjami i uprawnieniami modeli.

Źródła

https://www.cybersecuritydive.com/news/cisco-ai-models-research-multi-turn-prompt-attacks/821211/
https://blogs.cisco.com/security