Nowe ataki na OpenClaw umożliwiają wykonanie kodu i wyciek danych z agentów AI

Co znajdziesz w tym artykule?

1 Wprowadzenie do problemu / definicja
2 W skrócie
3 Kontekst / historia
4 Analiza techniczna
5 Konsekwencje / ryzyko
6 Rekomendacje
7 Podsumowanie
8 Źródła

Wprowadzenie do problemu / definicja

OpenClaw to samodzielnie hostowany agent AI, który integruje się z pocztą elektroniczną, komunikatorami, plikami i innymi źródłami danych, a następnie wykonuje działania w imieniu użytkownika. Najnowsze ustalenia badaczy pokazują jednak, że taka architektura może stać się poważnym zagrożeniem bezpieczeństwa, jeśli agent jednocześnie ufa danym wejściowym i dysponuje szerokimi uprawnieniami operacyjnymi.

W praktyce oznacza to, że odpowiednio przygotowana wiadomość lub pozornie niewinne metadane mogą skłonić system do uruchomienia złośliwego kodu albo przesłania poufnych informacji poza organizację. To kolejny przykład, że agenci AI tworzą nową klasę ryzyk, wykraczającą poza tradycyjne podatności aplikacyjne.

W skrócie

Dwa niezależne zespoły badawcze wykazały różne scenariusze nadużyć w OpenClaw. Pierwszy opierał się na ukryciu instrukcji w kontaktach współdzielonych, rekordach vCard oraz etykietach lokalizacji, co pozwalało wpływać na zachowanie agenta bez wiedzy ofiary.

Drugi scenariusz wykorzystywał wiarygodnie napisane wiadomości e-mail, które skłaniały agenta do samodzielnego odnalezienia i przesłania wrażliwych danych na zewnętrzny adres. Część problemów została usunięta w wersji OpenClaw 2026.4.23, ale ryzyko związane z nadmierną autonomią agentów pozostaje aktualne.

Kontekst / historia

Popularność agentów AI szybko rośnie, ponieważ potrafią automatyzować zadania związane z pocztą, wyszukiwaniem informacji, obsługą aplikacji i wykonywaniem poleceń systemowych. Jednocześnie od dłuższego czasu wiadomo, że modele językowe oraz warstwy orkiestracji są podatne na prompt injection, czyli sytuację, w której nieufna treść wejściowa staje się faktyczną instrukcją sterującą systemem.

W przypadku OpenClaw problem jest szczególnie poważny, ponieważ platforma łączy dostęp do prywatnych danych, zdolność odbierania zewnętrznych treści oraz możliwość wykonywania działań operacyjnych. Taki układ sprzyja eskalacji od pojedynczej wiadomości do realnego incydentu obejmującego wykonanie kodu, eksfiltrację danych lub nadużycie zaufanej tożsamości.

Opisane badania wpisują się w szerszą debatę o bezpieczeństwie agentów AI. Coraz częściej wskazuje się, że tradycyjne podejście do filtrowania treści nie wystarcza, jeśli system może samodzielnie podejmować decyzje i działać w środowisku produkcyjnym.

Analiza techniczna

Pierwszy wektor ataku dotyczył sposobu, w jaki OpenClaw przekazywał obiekty wiadomości do modelu. Dane z kontaktów współdzielonych, vCardów i znaczników lokalizacji były spłaszczane do postaci tekstowej i umieszczane bezpośrednio w promptach. Brak wyraźnego rozdzielenia między treścią zaufaną a nieufną sprawiał, że pole przeznaczone np. na nazwę kontaktu mogło zawierać ukrytą instrukcję interpretowaną przez model jako polecenie.

Dodatkowym problemem było obcinanie części pól w interfejsie użytkownika. W efekcie ofiara nie widziała całego ładunku osadzonego w danych, mimo że agent nadal go przetwarzał. W testach pozwoliło to badaczom skłonić system do pobrania i uruchomienia skryptu z kontrolowanego serwera.

Drugi scenariusz nie wymagał ukrywania poleceń w metadanych. Wystarczał dobrze przygotowany e-mail, który przedstawiał wiarygodną prośbę biznesową, taką jak pilne udostępnienie raportu czy przekazanie danych klienta. Agent, mimo obecności reguł ostrożności, potrafił wyszukiwać informacje w skrzynce i przesyłać je na zewnętrzne adresy.

To istotna różnica względem klasycznego phishingu. W tym przypadku celem nie jest bezpośrednie oszukanie człowieka, lecz przekonanie autonomicznego systemu, że określone działanie jest uzasadnione operacyjnie. Agent może poprawnie rozpoznawać podejrzane linki, ale zawodzić przy ocenie kontekstu biznesowego, relacji z nadawcą i nietypowości żądania.

Badacze zwrócili również uwagę na błędy implementacyjne w części integracji kanałowych. W niektórych przypadkach kontrola dozwolonych użytkowników miała opierać się na modyfikowalnych nazwach wyświetlanych zamiast stabilnych identyfikatorów. Taka logika zwiększa ryzyko podszycia się pod zaufaną tożsamość i przejęcia ścieżki sterowania agentem.

Konsekwencje / ryzyko

Najgroźniejszym skutkiem opisanych problemów jest połączenie dostępu do danych z możliwością wykonywania działań. Jeśli agent ma uprawnienia do poczty, plików, komunikatorów lub powłoki systemowej, jedna złośliwa wiadomość może przerodzić się w pełnoprawny incydent bezpieczeństwa.

uruchomienie zewnętrznego kodu,
wyciek poświadczeń, kluczy API i danych klientów,
przesłanie poufnych plików poza organizację,
nadużycie zaufanego konta do dalszej propagacji ataku,
naruszenie integralności procesów biznesowych.

Ryzyko rośnie szczególnie tam, gdzie agent działa z szerokimi uprawnieniami i bez obowiązkowego nadzoru człowieka. Problem nie ogranicza się więc do pojedynczej luki usuwanej łatką, lecz dotyczy samego modelu projektowego agentów AI.

Rekomendacje

Podstawowym krokiem powinno być zaktualizowanie OpenClaw do wersji 2026.4.23 lub nowszej, ponieważ zawiera ona poprawki dotyczące obsługi kontaktów, pól vCard i etykiet lokalizacji. Sama aktualizacja nie wystarczy jednak do pełnego ograniczenia ryzyka.

ograniczyć uprawnienia agentów zgodnie z zasadą najmniejszych przywilejów,
oddzielić źródła nieufne od danych wrażliwych na poziomie konektorów i workflow,
wymagać zatwierdzenia przez człowieka dla działań wysokiego ryzyka,
zablokować pierwszorazową komunikację wychodzącą do nieznanych adresów bez dodatkowej autoryzacji,
traktować polityki agenta jako kontrolowany i wersjonowany mechanizm egzekwowania zasad,
izolować środowisko wykonawcze przez sandboxing, segmentację sieci i pełne logowanie działań,
monitorować nietypowe operacje, takie jak eksport danych, odczyt sekretów i wywołania shell,
stosować stabilne identyfikatory tożsamości zamiast nazw wyświetlanych i aliasów.

Z perspektywy bezpieczeństwa architekci powinni traktować agenta AI jak uprzywilejowanego, ale niedoświadczonego operatora. Oznacza to konieczność budowania twardych zabezpieczeń wokół jego działań, zamiast polegania wyłącznie na zdolności modelu do prawidłowej interpretacji intencji użytkownika.

Podsumowanie

Nowe ataki na OpenClaw pokazują, że bezpieczeństwo agentów AI zależy nie tylko od jakości modelu językowego, ale również od sposobu serializacji danych, rozdzielenia stref zaufania, kontroli uprawnień i mechanizmów zatwierdzania działań. Zarówno ukryte instrukcje w pozornie zwykłych obiektach wiadomości, jak i realistyczne komunikaty phishingowe mogą przejąć logikę działania systemu i doprowadzić do wycieku danych.

Dla organizacji wdrażających agentów AI to wyraźny sygnał, że należy traktować je jako nową klasę uprzywilejowanych systemów wymagających pełnego modelu bezpieczeństwa. Bez tego wygoda automatyzacji może szybko zamienić się w istotne ryzyko operacyjne i regulacyjne.

Źródła

https://thehackernews.com/2026/06/new-attacks-trick-openclaw-ai-agent.html
https://github.com/
https://www.imperva.com/
https://www.varonis.com/
https://simonwillison.net/