Microsoft ostrzega przed zatruwaniem opisów narzędzi MCP i wyciekiem danych przez agentów AI

Co znajdziesz w tym artykule?

1 Wprowadzenie do problemu / definicja
2 W skrócie
3 Kontekst / historia
4 Analiza techniczna
5 Konsekwencje / ryzyko
6 Rekomendacje
7 Podsumowanie
8 Źródła

Wprowadzenie do problemu / definicja

Microsoft zwraca uwagę na nową klasę zagrożeń dla systemów agentowych opartych na sztucznej inteligencji: zatruwanie opisów narzędzi w ekosystemie Model Context Protocol. Problem pojawia się wtedy, gdy agent AI traktuje tekstowy opis zewnętrznego narzędzia nie tylko jako informację pomocniczą, ale również jako instrukcję operacyjną wpływającą na jego decyzje.

W praktyce oznacza to, że atakujący może manipulować zachowaniem agenta bez łamania klasycznych mechanizmów uwierzytelniania czy wykorzystywania tradycyjnych podatności. Wystarczy przejęcie kontroli nad metadanymi narzędzia lub ich złośliwa modyfikacja.

W skrócie

Microsoft ostrzega, że złośliwie zmodyfikowane opisy narzędzi MCP mogą skłonić agentów AI do nieautoryzowanego przekazywania danych.
Atak wykorzystuje zaufanie do zewnętrznych integracji i miesza dane z instrukcjami w warstwie kontekstowej.
Ryzyko rośnie wraz z wdrażaniem agentów zdolnych do wykonywania realnych działań biznesowych.
Zagrożenie wpisuje się w szerszy krajobraz ataków typu tool poisoning, indirect prompt injection i AI supply chain.

Kontekst / historia

Jeszcze niedawno dyskusja o bezpieczeństwie generatywnej AI skupiała się głównie na prompt injection wpływającym na odpowiedzi modeli. W środowiskach agentowych stawka jest jednak znacznie większa, ponieważ agent nie tylko generuje treść, ale także wykonuje operacje w imieniu użytkownika lub organizacji.

Model Context Protocol stał się ważnym standardem integracyjnym dla agentów AI, umożliwiając łączenie modeli z narzędziami, usługami i źródłami danych. Ta elastyczność zwiększa jednak powierzchnię ataku. Jeśli organizacja ufa narzędziu MCP, agent może potraktować jego opis, parametry i odpowiedzi jako wiarygodny element kontekstu decyzyjnego.

Temat nie jest wyłącznie teoretyczny. Społeczność bezpieczeństwa i organizacje branżowe, w tym OWASP, od miesięcy zwracają uwagę na zagrożenia związane z tool poisoning, złośliwymi serwerami MCP i nadużyciami na styku integracji agentowych oraz automatyzacji.

Analiza techniczna

Sednem problemu jest sposób interpretacji opisu narzędzia przez model językowy. Dla człowieka opis MCP to zwykle dokumentacja wyjaśniająca przeznaczenie funkcji i sposób jej użycia. Dla agenta AI jest to jednak tekst, który może zostać potraktowany jako dodatkowy kanał instrukcyjny.

Jeżeli atakujący przejmie kontrolę nad narzędziem lub jego metadanymi, może osadzić w opisie ukryte polecenia. Taki komunikat może wyglądać jak zwykła notatka techniczna, lecz w rzeczywistości wpłynie na decyzję agenta, nakłaniając go do pobrania określonych danych, dołączenia ich do kolejnego żądania albo wykonania dodatkowego kroku w procesie.

Modelowy scenariusz zakłada, że agent obsługujący procesy finansowe korzysta z zewnętrznego narzędzia do wzbogacania danych o fakturach. Po aktualizacji narzędzia jego widoczny opis pozostaje pozornie niezmieniony, ale w metadanych pojawia się instrukcja nakazująca dołączenie listy nieopłaconych faktur do następnego wywołania. Agent, działając w ramach legalnych uprawnień, pobiera dane i przekazuje je do zatwierdzonego endpointu, przez co aktywność może wyglądać prawidłowo w logach.

To zagrożenie jest szczególnie niebezpieczne z kilku powodów:

opis narzędzia jest konsumowany przez model jako tekst, a nie jako odseparowana polityka bezpieczeństwa;
granica między danymi a instrukcjami bywa niejednoznaczna;
zmiany w opisie mogą być pobierane dynamicznie, bez ponownej formalnej akceptacji;
agent działa na rzeczywistych uprawnieniach użytkownika lub tożsamości usługowej;
wyciek danych może zostać ukryty w legalnym ruchu aplikacyjnym.

W praktyce jest to połączenie prompt injection, nadużycia zaufania do metadanych i kompromitacji łańcucha dostaw AI. Problem nie musi wynikać z błędu samego modelu, lecz z niebezpiecznej interakcji między modelem, narzędziem, opisem i zakresem uprawnień.

Konsekwencje / ryzyko

Najpoważniejszym skutkiem jest cichy wyciek danych. Agent może przekazać dokumenty finansowe, rekordy klientów, wiadomości, dane projektowe lub inne informacje wrażliwe do usługi kontrolowanej przez atakującego, nie wzbudzając natychmiastowych podejrzeń.

Dla organizacji oznacza to wielowarstwowe ryzyko:

utratę poufności danych, ponieważ agent może wynosić informacje zgodnie z własnym zakresem dostępu;
nadużycie automatyzacji, gdy atak wpływa na realne działania systemu, a nie tylko na odpowiedzi modelu;
ominięcie klasycznych zabezpieczeń, jeśli przepływ wygląda jak autoryzowana integracja biznesowa;
zwiększenie skali incydentu, nawet przy ograniczonych uprawnieniach agenta;
ryzyko supply chain związane z zaufaniem do zewnętrznych serwerów, konektorów i dostawców narzędzi.

Szczególnie zagrożone są środowiska enterprise, w których agenci mają możliwość wysyłki wiadomości, pobierania danych z systemów ERP i CRM, dostępu do repozytoriów dokumentów lub uruchamiania wieloetapowych workflow bez udziału człowieka.

Rekomendacje

Organizacje wdrażające agentów AI i integracje MCP powinny traktować każde narzędzie jako element łańcucha dostaw wysokiego ryzyka. Ochrona musi obejmować nie tylko dostęp do API, ale też treść metadanych i sposób ich aktualizacji.

Wdrożenie ścisłej listy dopuszczonych narzędzi – należy dopuścić wyłącznie jawnie zatwierdzone integracje od zweryfikowanych dostawców.
Przegląd opisów narzędzi jak kodu – metadane MCP powinny podlegać wersjonowaniu, kontroli zmian i ocenie bezpieczeństwa.
Zasada least privilege oraz least agency – trzeba ograniczać zarówno uprawnienia, jak i zakres autonomicznych działań agenta.
Human-in-the-loop dla operacji wysokiego ryzyka – transfer danych poza organizację, operacje finansowe i dostęp do informacji wrażliwych powinny wymagać zatwierdzenia.
Monitorowanie telemetrii agentów – warto obserwować używane narzędzia, zmiany ich opisów, wolumen danych i nowe endpointy sieciowe.
Oddzielne tożsamości i segmentacja dostępu – agent nie powinien działać na zbyt szerokich uprawnieniach użytkownika końcowego.
Ponowna walidacja po aktualizacjach dostawcy – zmiana narzędzia, konektora lub pakietu powinna uruchamiać ponowną ocenę zaufania.
Testy red team i symulacje tool poisoning – organizacje powinny regularnie sprawdzać odporność agentów na złośliwe opisy i odpowiedzi narzędzi.

Podsumowanie

Ostrzeżenie Microsoftu pokazuje, że bezpieczeństwo agentów AI zależy od całego ekosystemu integracji, a nie wyłącznie od modelu. Zatruwanie opisów narzędzi MCP jest groźne, ponieważ wykorzystuje naturalny mechanizm działania agentów: zaufanie do tekstowego kontekstu oraz wykonywanie akcji przy użyciu legalnie dostępnych narzędzi.

Dla zespołów bezpieczeństwa oznacza to konieczność rozszerzenia klasycznego podejścia do supply chain security na warstwę agentowej AI. Opisy narzędzi, ich metadane, proces publikacji, aktualizacje i autonomia agentów powinny być traktowane jako krytyczne elementy powierzchni ataku.

Źródła

https://thehackernews.com/2026/06/microsoft-warns-poisoned-mcp-tool.html
https://owasp.org/www-project-mcp-top-10/
https://owasp.org/www-community/attacks/MCP_Tool_Poisoning
https://owasp.org/www-project-agentic-skills-top-10/
https://www.microsoft.com/en-us/security/blog/2026/04/15/incident-response-for-ai-same-fire-different-fuel/