Microsoft ostrzega przed zatrutymi opisami narzędzi MCP: agenci AI mogą ujawniać dane

Co znajdziesz w tym artykule?

1 Wprowadzenie do problemu / definicja
2 W skrócie
3 Kontekst / historia
4 Analiza techniczna
5 Konsekwencje / ryzyko
6 Rekomendacje
7 Podsumowanie
8 Źródła

Wprowadzenie do problemu / definicja

Microsoft ostrzegł przed nową klasą zagrożeń dotyczącą agentów AI korzystających z Model Context Protocol (MCP). Problem polega na tym, że opis narzędzia udostępnianego agentowi może zostać celowo zmanipulowany w taki sposób, aby model potraktował ukryte instrukcje jako część legalnego kontekstu operacyjnego.

W praktyce oznacza to, że agent AI może wykonać działania niezgodne z intencją użytkownika lub organizacji, mimo że formalnie korzysta z autoryzowanego narzędzia i nie narusza klasycznych mechanizmów bezpieczeństwa na poziomie kodu. To przesuwa punkt ciężkości z tradycyjnych podatności aplikacyjnych na warstwę metadanych i integracji.

W skrócie

Scenariusz opisany przez Microsoft zakłada zatrucie opisu narzędzia MCP, które agent odczytuje podczas planowania kolejnych kroków. Jeśli w takim opisie znajdą się ukryte polecenia, model może uznać je za prawidłowe wskazówki wykonawcze i rozpocząć działania prowadzące np. do wycieku danych.

atak nie wymaga klasycznego exploita w kodzie,
agent korzysta z legalnie dopuszczonego narzędzia,
operacje mogą wyglądać poprawnie z perspektywy polityk dostępu,
największe ryzyko dotyczy środowisk o wysokim poziomie autonomii agentów.

Kontekst / historia

MCP zyskuje znaczenie jako standard komunikacji między modelami AI a zewnętrznymi narzędziami. Wraz z rozwojem ekosystemu agentowego rośnie jednak znaczenie bezpieczeństwa samej warstwy integracyjnej, która staje się elementem łańcucha dostaw AI.

W odróżnieniu od klasycznych ataków prompt injection, których skutkiem bywa najczęściej zniekształcenie odpowiedzi modelu, tool poisoning w środowisku agentowym może prowadzić do realnych działań w systemach firmowych. Jeżeli agent ma dostęp do poczty, dokumentów, systemów finansowych lub platform SaaS, to skutki ataku przestają być wyłącznie informacyjne i stają się operacyjne.

Problem był już wcześniej sygnalizowany przez środowisko badawcze i organizacje zajmujące się bezpieczeństwem aplikacji AI. Został także uwzględniony w pracach OWASP dotyczących zagrożeń dla MCP, co potwierdza, że nie chodzi o pojedynczy incydent, ale o szerszą kategorię ryzyka architektonicznego.

Analiza techniczna

Mechanizm ataku opiera się na zaufaniu, jakim agent obdarza opis narzędzia. Taki opis ma pomóc modelowi zdecydować, kiedy dane narzędzie wywołać i do czego ono służy. Jeżeli jednak zostanie zmodyfikowany przez operatora, integratora lub napastnika, może zawierać dodatkowe instrukcje wpływające na zachowanie agenta.

Przykładowo agent obsługujący proces finansowy może korzystać z narzędzia do rozszerzania danych o dostawcach. Jeśli opis tego narzędzia zostanie wzbogacony o ukryte polecenie, by do następnego zapytania dołączać informacje o nieopłaconych fakturach, model może zacząć realizować nową logikę bez wiedzy operatora. Nie musi przy tym dojść do złamania lokalnych zasad dostępu, ponieważ agent działa w granicach nadanych mu uprawnień.

Największym problemem jest zatarcie granicy między danymi a instrukcjami. Zamiast traktować opis narzędzia jako nieufny input, system często uznaje go za element zaufanego kontekstu sterującego. To sprawia, że złośliwa treść może zostać zinterpretowana jako poprawna wskazówka operacyjna.

narzędzie mogło zostać wcześniej oficjalnie zatwierdzone,
agent działa pod legalną tożsamością techniczną,
zapytania do systemów biznesowych mieszczą się w zakresie przyznanych uprawnień,
ruch wychodzący może trafiać do wcześniej dozwolonych usług.

Właśnie dlatego taki atak bywa trudny do wykrycia przez tradycyjne systemy bezpieczeństwa, które koncentrują się na exploitach, malware lub jednoznacznie podejrzanych komendach.

Konsekwencje / ryzyko

Najpoważniejszym skutkiem zatrutych opisów MCP jest cichy wyciek danych. Agent może ujawniać dokumenty, rekordy biznesowe, wiadomości, dane klientów, informacje finansowe, sekrety operacyjne, a nawet fragmenty kodu lub konfiguracji.

Ryzyko rośnie wraz z poziomem autonomii agenta i liczbą zintegrowanych systemów. Jeżeli model może samodzielnie wykonywać wieloetapowe workflow, skutki obejmują nie tylko exfiltrację danych, ale również modyfikację procesów i obiektów w środowiskach produkcyjnych.

nieautoryzowane działania administracyjne,
modyfikacja rekordów w systemach SaaS,
zmiany w procesach finansowych lub HR,
eskalacja wpływu dzięki połączeniu wielu narzędzi jednocześnie.

Szczególnie narażone są organizacje, które wdrażają agentów szeroko i szybko, ale nie prowadzą ścisłego nadzoru nad katalogiem narzędzi, wersjonowaniem opisów, kontrolą zmian oraz przepływem danych wychodzących. Nawet agent z pozornie ograniczonymi uprawnieniami może stać się istotnym zagrożeniem, jeśli ma możliwość wykonywania akcji i komunikowania się z zewnętrznymi usługami.

Rekomendacje

Organizacje korzystające z agentów AI i MCP powinny potraktować narzędzia oraz ich metadane jak krytyczny element łańcucha dostaw. Ochrona samego modelu nie wystarczy, jeśli warstwa integracyjna pozostaje poza ścisłą kontrolą.

Kontrola dopuszczonych narzędzi: utrzymuj listę zatwierdzonych integracji i ogranicz automatyczne dodawanie nowych źródeł.
Review i wersjonowanie opisów: opisy narzędzi powinny przechodzić formalny przegląd bezpieczeństwa podobnie jak kod i konfiguracje.
Separacja instrukcji od danych: wszystko, co pochodzi z zewnętrznego narzędzia, należy traktować jako potencjalnie nieufne.
Human-in-the-loop: operacje wysokiego ryzyka, zwłaszcza transfer danych i zmiany w systemach biznesowych, powinny wymagać akceptacji człowieka.
Ograniczanie autonomii: poza zasadą least privilege warto stosować także podejście least agency, czyli minimalizowanie samodzielności agenta.
Monitoring i detekcja anomalii: loguj wywołania narzędzi, wolumen danych, nowe endpointy i nietypowe sekwencje działań po zmianie opisu narzędzia.
DLP i kontrola exfiltracji: obejmij ruch wychodzący agentów politykami ochrony danych i regułami blokowania nieuzasadnionych transferów.
Tożsamość i rozliczalność: każdy agent powinien działać z własną identyfikowalną tożsamością techniczną, aby uprościć audyt i reakcję na incydenty.

Podsumowanie

Ostrzeżenie Microsoftu pokazuje, że bezpieczeństwo agentów AI nie kończy się na modelu, promptach i kontroli dostępu. Coraz większe znaczenie ma zaufanie do narzędzi, metadanych oraz procesów aktualizacji, które wpływają na zachowanie agenta.

Zatruty opis narzędzia MCP może wystarczyć, aby agent wykonał działania formalnie zgodne z uprawnieniami, ale niezgodne z interesem organizacji. Dla zespołów bezpieczeństwa oznacza to konieczność połączenia zasad supply chain security, ochrony przed prompt injection, kontroli exfiltracji oraz ścisłego nadzoru nad autonomią systemów agentowych.

Źródła

https://thehackernews.com/2026/06/microsoft-warns-poisoned-mcp-tool.html
https://owasp.org/www-project-mcp-top-10/2025/MCP03-2025%E2%80%93Tool-Poisoning
https://owasp.org/www-community/attacks/MCP_Tool_Poisoning
https://arxiv.org/abs/2508.14925
https://owasp.org/www-project-mcp-top-10/