Fałszywy skill AI ominął skanery bezpieczeństwa i trafił do tysięcy agentów

Co znajdziesz w tym artykule?

1 Wprowadzenie do problemu / definicja
2 W skrócie
3 Kontekst / historia
4 Analiza techniczna
5 Konsekwencje / ryzyko
6 Rekomendacje
7 Podsumowanie
8 Źródła

Wprowadzenie do problemu / definicja

Ekosystem agentów AI coraz częściej opiera się na tzw. skillach, czyli pakietach instrukcji rozszerzających możliwości modeli i automatyzujących określone zadania. Problem zaczyna się wtedy, gdy taki skill jest traktowany jak zaufany komponent, mimo że może odwoływać się do zewnętrznych zasobów zmienianych już po zakończeniu procesu weryfikacji.

Najnowszy eksperyment badawczy pokazał, że fałszywy skill AI może uzyskać wiarygodny wygląd, przejść kontrole bezpieczeństwa i zostać wdrożony na dużą skalę, zanim zagrożenie zostanie wykryte. To sygnał ostrzegawczy dla firm rozwijających automatyzacje oparte na agentach.

W skrócie

Badacze opublikowali pozornie nieszkodliwy skill dla agentów AI w popularnym ekosystemie.
Rozszerzenie miało przejść testowane skanery bezpieczeństwa i zostać uruchomione przez około 26 tys. agentów.
Klucz do obejścia zabezpieczeń stanowiło przeniesienie właściwych instrukcji poza pakiet skilla, do zewnętrznej strony internetowej.
Skanery analizowały statyczny pakiet, ale nie faktyczne instrukcje pobierane później podczas instalacji lub działania.

Kontekst / historia

Zagrożenia typu supply chain security nie są niczym nowym, jednak w świecie agentów AI zyskują nową formę. Zamiast klasycznych bibliotek czy wtyczek, celem stają się skille i zestawy poleceń ładowane do kontekstu działania modelu. Takie rozszerzenia mogą mieć wpływ porównywalny z poleceniami wydawanymi bezpośrednio przez użytkownika.

W opisywanym przypadku badacze przygotowali skill podszywający się pod narzędzie związane z tworzeniem landing page’y przy użyciu znanego produktu projektowego. Aby zwiększyć wiarygodność, wykorzystano dwa typowe sygnały zaufania: obecność w popularnym repozytorium oraz pozytywny wynik skanowania bezpieczeństwa. Po akceptacji zgłoszenia skill przejął reputację projektu i mógł być promowany także do użytkowników nietechnicznych.

Incydent wpisuje się w szerszy trend pokazujący, że obecne kontrole bezpieczeństwa w ekosystemach AI są często punktowe i statyczne. Jeżeli proces review obejmuje wyłącznie zawartość przesłaną do repozytorium, a pomija zasoby zewnętrzne, atakujący może rozdzielić ładunek na część pozornie czystą i część dostarczaną dopiero po publikacji.

Analiza techniczna

Techniczny mechanizm ataku opiera się na rozbieżności między tym, co ocenia skaner, a tym, co ostatecznie wykonuje agent. Sam pakiet skilla nie zawierał bezpośrednio złośliwych instrukcji instalacyjnych. Zamiast tego odwoływał się do zewnętrznej dokumentacji umieszczonej pod domeną kontrolowaną przez autorów eksperymentu.

Na początku wskazany adres zawierał treść wyglądającą na nieszkodliwą i wiarygodną, dlatego skanery klasyfikowały skill jako bezpieczny. Dopiero po rozpowszechnieniu rozszerzenia zawartość strony została zmieniona. Nowe instrukcje nakazywały agentowi pobranie i uruchomienie skryptu.

W demonstracji skrypt miał charakter niegroźny i służył do odesłania adresu e-mail użytkownika, co pozwoliło oszacować skalę instalacji. Sam mechanizm mógłby jednak posłużyć do znacznie bardziej inwazyjnych działań, takich jak pobieranie dodatkowego kodu, eksfiltracja danych lub inicjowanie połączeń do nieautoryzowanych zasobów.

Istota problemu polega na tym, że skanowanie odbywa się jednorazowo i obejmuje jedynie migawkę pakietu. Zewnętrzny adres URL pozostaje poza zakresem trwałej kontroli, a jego zawartość może zostać zmieniona w dowolnym momencie po publikacji. W praktyce oznacza to ograniczoną skuteczność samej analizy statycznej.

Konsekwencje / ryzyko

Ryzyko wynikające z takich nadużyć jest szczególnie wysokie w środowiskach firmowych, w których agenci AI mają dostęp do dokumentów, poczty, danych klientów lub systemów wewnętrznych. Jeżeli agent wykonuje instrukcje pobrane z zewnętrznego źródła, potencjalny atakujący może uzyskać możliwość odczytu plików, eksfiltracji danych albo uruchamiania dodatkowych działań pomocniczych.

Niebezpieczne jest również to, że atak nie musi polegać na przełamaniu klasycznych zabezpieczeń aplikacyjnych. Wystarczy wykorzystać zaufanie do reputacji projektu, popularności repozytorium i pozytywnego wyniku skanera. Organizacje mogą więc wdrażać ryzykowne rozszerzenia bez pełnego przeglądu bezpieczeństwa, uznając je za bezpieczne tylko dlatego, że są publicznie dostępne.

Dodatkowym wyzwaniem pozostaje analiza po incydencie. Jeżeli agent pobierał dynamiczne instrukcje z zewnętrznego źródła, ustalenie pełnej skali problemu wymaga odtworzenia nie tylko listy zainstalowanych skilli, ale także historycznej zawartości wszystkich zasobów, do których te skille się odwoływały. Bez odpowiedniego logowania i archiwizacji może to być bardzo trudne.

Rekomendacje

Organizacje korzystające z agentów AI powinny traktować skille jak komponenty oprogramowania wysokiego ryzyka. Oznacza to konieczność wdrożenia centralnego procesu zatwierdzania rozszerzeń zamiast pozostawiania decyzji pojedynczym użytkownikom lub zespołom biznesowym.

Analizować nie tylko pakiet skilla, ale również wszystkie odwołania zewnętrzne, dokumentację instalacyjną i skrypty pobierane w czasie działania.
Wprowadzić monitoring integralności dla domen i zasobów używanych przez skille.
Stosować pinning wersji oraz blokować dynamiczne pobieranie instrukcji spoza zatwierdzonych repozytoriów.
Wymuszać zasadę least privilege dla agentów i rozszerzeń.
Prowadzić pełną inwentaryzację aktywnych agentów i skilli.
Monitorować połączenia wychodzące oraz alertować na pobieranie skryptów z nieznanych domen.
Przygotować procedury incident response dedykowane środowiskom AI.

Podsumowanie

Opisany przypadek nie wskazuje wyłącznie na pojedynczą słabość jednego produktu, ale ujawnia systemowy problem modelu zaufania w ekosystemie agentów AI. Jeżeli skaner ocenia jedynie statyczny pakiet, a rzeczywiste instrukcje mogą zostać dostarczone później z zewnętrznego źródła, nawet formalnie czysty skill może stać się nośnikiem nieautoryzowanych działań.

Dla organizacji najważniejszy wniosek jest prosty: pozytywny wynik skanowania i dobra reputacja repozytorium nie są wystarczającym dowodem bezpieczeństwa. Ochrona musi obejmować cały łańcuch wykonania, łącznie z zasobami ładowanymi po publikacji oraz z kontrolą uprawnień agentów w środowisku produkcyjnym.

Źródła

https://thehackernews.com/2026/06/fake-ai-agent-skill-passed-security.html
https://platform.claude.com/
https://blog.trailofbits.com/
https://www.air.security/