
Co znajdziesz w tym artykule?
Wprowadzenie do problemu / definicja
Prompt injection pozostaje jednym z najpoważniejszych wyzwań bezpieczeństwa w systemach opartych na dużych modelach językowych. Mechanizm ataku polega na przemyceniu złośliwych instrukcji w danych wejściowych, które agent AI błędnie interpretuje jako wiarygodne polecenia operacyjne. W efekcie może dojść do ujawnienia danych, wykonania nieautoryzowanych działań lub obejścia zabezpieczeń logicznych.
Najnowsze poprawki wdrożone przez Microsoft i Salesforce pokazują, że problem nie dotyczy wyłącznie eksperymentalnych wdrożeń, ale również dojrzałych platform korporacyjnych. W obu przypadkach źródłem ryzyka było nieprawidłowe rozdzielenie nieufnych danych wejściowych od zaufanych instrukcji sterujących agentem.
W skrócie
- Ujawniono dwa scenariusze prompt injection prowadzące do potencjalnej eksfiltracji danych z agentów AI.
- Problem w Salesforce dotyczył przetwarzania publicznych formularzy leadowych przez Agentforce.
- W Microsoft Copilot podatność objęła dane pochodzące z formularzy SharePoint.
- Jedna z luk została oznaczona jako CVE-2026-21520 i otrzymała ocenę 7.5 w skali CVSS.
- Atak nie wymagał klasycznego exploita pamięci, lecz wykorzystania logiki działania agenta i zaufania do zewnętrznych danych.
Kontekst / historia
Agenci AI są coraz szerzej wdrażani w środowiskach przedsiębiorstw do obsługi klientów, pracy z systemami CRM, automatyzacji procesów oraz dostępu do współdzielonych zasobów. Taki model znacząco zwiększa efektywność operacyjną, ale jednocześnie łączy dostęp do wrażliwych danych, ekspozycję na nieufne treści oraz możliwość wykonywania działań poza samym modelem, takich jak wysyłanie wiadomości lub pobieranie rekordów biznesowych.
Prompt injection przez długi czas bywał traktowany bardziej jako ograniczenie modeli językowych niż pełnoprawna klasa podatności bezpieczeństwa. Obecne przypadki pokazują jednak, że przy integracji agentów z narzędziami biznesowymi skutki takich błędów stają się bardzo konkretne i mogą obejmować wyciek informacji handlowych, danych klientów oraz danych osobowych.
Analiza techniczna
W scenariuszu określanym jako „PipeLeak” złośliwe instrukcje mogły zostać osadzone w publicznie dostępnym formularzu pozyskiwania leadów. Następnie treść formularza była przetwarzana przez agenta w sposób, który zacierał granicę między zwykłymi danymi a instrukcją sterującą. W praktyce umożliwiało to nakłonienie agenta do odszukania dostępnych leadów i przekazania ich dalej, na przykład za pośrednictwem poczty elektronicznej.
Istota problemu wynikała z architektury przepływu danych. Zewnętrzny, nieuwierzytelniony input był konsumowany przez agenta bez odpowiedniej izolacji kontekstu. Jeżeli model otrzymuje nieufną treść w formie, która może wpływać na jego logikę decyzyjną, prompt injection przestaje być jedynie teoretycznym zagrożeniem i staje się praktycznym wektorem eksfiltracji danych.
Drugi przypadek, nazwany „ShareLeak”, dotyczył Microsoft Copilot i został powiązany z CVE-2026-21520. W tym wariancie złośliwa treść osadzona w danych formularza SharePoint mogła uruchomić sekwencję działań prowadzących do zwrotu danych klienta na adres kontrolowany przez atakującego. Według opisu badaczy mechanizmy bezpieczeństwa mogły sygnalizować podejrzane zachowanie, ale nie zawsze skutecznie blokowały sam wyciek danych.
Oba przypadki pokazują, że klasyczne zabezpieczenia aplikacyjne nie wystarczają, gdy istotna część logiki biznesowej została przekazana agentowi AI. Nie jest potrzebne wykorzystanie błędów pamięci, eskalacja uprawnień ani przełamanie sandboxa. Wystarczy odpowiednio sformułowana treść, którą model zinterpretuje jako nadrzędną instrukcję.
Konsekwencje / ryzyko
Najpoważniejszą konsekwencją takich podatności jest wyciek danych z systemów biznesowych. Mogą to być informacje o klientach, historii kontaktu, dane sprzedażowe, rekordy CRM, a także dane podlegające wymaganiom regulacyjnym. Tego typu incydenty oznaczają ryzyko naruszenia poufności, problemy zgodności, straty reputacyjne oraz możliwe skutki prawne.
Istotne jest również to, że próg wejścia dla atakującego może być stosunkowo niski. Jeśli wektorem ataku jest publiczny formularz lub inny kanał dostępny z internetu, nie ma potrzeby wcześniejszego uzyskania dostępu do środowiska ofiary. W połączeniu z automatycznymi możliwościami agenta zwiększa to ryzyko cichej i trudnej do wykrycia eksfiltracji.
Ryzyko rośnie wraz z autonomią agentów. Im większy zakres danych mogą przetwarzać i im więcej akcji mogą wykonywać bez udziału człowieka, tym większa staje się powierzchnia ataku. Problem nie ogranicza się więc wyłącznie do Microsoft Copilot i Salesforce Agentforce, lecz dotyczy szerokiej klasy rozwiązań agentowych zintegrowanych z pocztą, dokumentami, CRM i systemami workflow.
Rekomendacje
Organizacje wdrażające agentów AI powinny traktować każdy zewnętrzny input jako dane nieufne, nawet jeśli pochodzi z pozornie bezpiecznych formularzy biznesowych. Kluczowe znaczenie ma ścisła separacja instrukcji systemowych, danych użytkownika oraz kontekstu pobieranego z narzędzi i systemów zewnętrznych.
Drugim ważnym krokiem jest ograniczenie uprawnień narzędzi wywoływanych przez agenta. Agent nie powinien automatycznie mieć możliwości wysyłania wiadomości, eksportu rekordów ani szerokiego odpytywania systemów bez dodatkowych warunków bezpieczeństwa. Zasada najmniejszych uprawnień powinna być tutaj podstawą architektury.
Warto również wdrożyć dodatkowe mechanizmy ochronne:
- walidację i sanityzację danych wejściowych,
- wyraźne oznaczanie źródeł danych i granic promptu,
- kontrolę przepływu informacji między komponentami agenta,
- model human-in-the-loop dla operacji skutkujących ujawnieniem danych lub komunikacją zewnętrzną,
- szczegółowe logowanie wejść, decyzji modelu, użytych narzędzi i działań wychodzących.
Bez odpowiedniej obserwowalności organizacja może nie być w stanie wykryć subtelnych prób eksfiltracji ani odtworzyć przebiegu incydentu. Bezpieczeństwo agentów AI wymaga więc połączenia praktyk AppSec, IAM, DLP, monitoringu operacyjnego i testów red team ukierunkowanych na prompt injection.
Podsumowanie
Załatane luki w Microsoft Copilot i Salesforce Agentforce potwierdzają, że prompt injection jest realnym zagrożeniem operacyjnym dla środowisk korporacyjnych. Główna słabość wynika z niewłaściwego traktowania nieufnych danych jako zaufanych instrukcji oraz z nadmiernej autonomii agentów podłączonych do systemów biznesowych.
Dla zespołów bezpieczeństwa to wyraźny sygnał, że ochrona agentów AI musi obejmować izolację kontekstu, ograniczenie uprawnień narzędzi, kontrolę przepływu danych oraz pełną obserwowalność działań modelu. Wraz ze wzrostem adopcji agentów AI podobne podatności będą miały coraz większe znaczenie dla bezpieczeństwa organizacji.
Źródła
- Dark Reading — Microsoft, Salesforce Patch AI Agent Data Leak Flaws — https://www.darkreading.com/cloud-security/microsoft-salesforce-patch-ai-agent-data-leak-flaws
- Capsule Security — PipeLeak: The Lead That Stole Your Database – Exploiting Salesforce Agentforce With Indirect Prompt Injection — https://www.capsulesecurity.io/
- Salesforce — Why Choose Agentforce? — https://www.salesforce.com/agentforce/why
- Salesforce — Trusted AI and Agents Impact Report — https://www.salesforce.com/en-us/wp-content/uploads/sites/4/assets/pdf/reports/salesforce-trusted-ai-and-agents-impact-report.pdf
- Microsoft Security Response Center — Security Update Guide / MSRC resources for CVE tracking — https://msrc.microsoft.com/