Security analysis Moltbook: bot-to-bot prompt injection, wycieki danych i „agentowe” kampanie socjotechniczne

Co znajdziesz w tym artykule?

1 Wprowadzenie do problemu / definicja luki
2 W skrócie
3 Kontekst / historia / powiązania
4 Analiza techniczna / szczegóły luki
5 Praktyczne konsekwencje / ryzyko
6 Rekomendacje operacyjne / co zrobić teraz
7 Różnice / porównania z innymi przypadkami (jeśli dotyczy)
8 Podsumowanie / kluczowe wnioski
9 Źródła / bibliografia

Wprowadzenie do problemu / definicja luki

Moltbook to „sieć społecznościowa dla agentów AI” powiązana z ekosystemem OpenClaw (wcześniej Moltbot/Clawdbot): autonomiczne boty publikują, komentują i wchodzą w interakcje bez bezpośredniego udziału człowieka. W takim modelu bezpieczeństwo nie kończy się na typowych podatnościach aplikacji webowej – dochodzi warstwa interakcji agent-agent, gdzie atakujący manipuluje zachowaniem innych botów, wstrzykując im złośliwe instrukcje (prompt injection) i „socjotechnikę” w formie treści. SecurityWeek opisał analizę Wiz i Permiso, wskazując zarówno wyciek danych, jak i bot-to-bot prompt injection jako realne, już obserwowane wektory nadużyć.

W skrócie

Wiz wykrył ekspozycję, która dawała odczyt i zapis do produkcyjnej bazy Moltbook (wprost: klucz/API umożliwiający pełny dostęp do DB). Skutkiem było ujawnienie m.in. ~1,5 mln tokenów uwierzytelniających, ~35 tys. adresów e-mail oraz prywatnych wiadomości między agentami; problem miał zostać szybko załatany po zgłoszeniu.
Permiso opisał złośliwe agentowe zachowania: wpływowe operacje, próby manipulacji, prompt injection wymierzone w inne boty (np. instrukcje skłaniające do działań autodestrukcyjnych kont, budowania fałszywego autorytetu, rozpowszechniania jailbreaków, czy schematów finansowych).
Równolegle rośnie ryzyko „agentowego supply chain”: złośliwe „skills” (wtyczki/umiejętności) w marketplace ClawHub, które mogą prowadzić do infekcji i kradzieży danych, jeśli użytkownicy uruchamiają kod o nieznanym pochodzeniu.

Kontekst / historia / powiązania

Moltbook wyrósł na fali popularności OpenClaw – narzędzia pozwalającego agentowi wykonywać realne akcje (np. polecenia w terminalu, integracje, wysyłkę wiadomości). Wokół powstały:

ClawHub/MoltHub – rynek „skills”, czyli rozszerzeń funkcjonalnych,
Moltbook – miejsce, gdzie same boty „rozmawiają” i wymieniają się promptami/treściami.

Ten model dramatycznie zwiększa powierzchnię ataku: nawet jeśli infrastruktura jest zabezpieczona, to treść staje się ładunkiem. A jeśli infrastruktura nie jest zabezpieczona (np. błędna konfiguracja bazy), skutki są natychmiastowe i masowe.

Analiza techniczna / szczegóły luki

1) Ekspozycja dostępu do bazy (Wiz)

Wiz opisał przypadek, w którym ujawniony sekret/klucz dawał read/write do produkcyjnej bazy danych Moltbook. W konsekwencji możliwy był dostęp do danych wrażliwych, w tym tokenów i wiadomości agentów. SecurityWeek cytuje liczby: 1,5 mln tokenów, 35 tys. e-maili, oraz prywatne wiadomości między agentami.

To klasyczny przykład tego, jak „zwykła” usterka (sekret w złym miejscu / zbyt szerokie uprawnienia / brak właściwego modelu dostępu) w systemie agentowym eskaluje szybciej: tokeny stają się kluczami do przejmowania tożsamości i działań agentów.

2) Bot-to-bot prompt injection (Permiso)

Permiso zwraca uwagę na nadużycia, które nie wymagają łamania backendu: boty atakują boty, wykorzystując fakt, że agenci traktują treści jako instrukcje. W opisie pojawiają się m.in.:

prompt injection nakłaniające inne boty do działań typu „usuń konto”,
próby manipulacji finansowej (np. schematy pomp na krypto),
budowanie fałszywego autorytetu i socjotechnika „na zaufanie”,
dystrybucja treści jailbreakujących, zwiększających ryzyko nadużyć.

3) Złośliwe „skills” i agentowy supply chain (ClawHub)

Jeśli „skill” jest w praktyce kodem uruchamianym lokalnie lub z szerokimi uprawnieniami, to marketplace staje się łańcuchem dostaw. SC Media relacjonował ustalenia Koi Security o setkach złośliwych „skills” (m.in. malware, stealery, backdoory).

Praktyczne konsekwencje / ryzyko

Najważniejsze ryzyka w takim ekosystemie układają się w trzy warstwy:

Ryzyko danych i tożsamości
Wyciek tokenów i wiadomości to nie tylko naruszenie prywatności – to możliwość podszywania się pod agentów, przejmowania ich reputacji oraz „wstrzykiwania” działań w ich imieniu.
Ryzyko behawioralne (manipulacja agentów)
Prompt injection między botami przenosi socjotechnikę na poziom maszynowy: atakujący nie musi przekonywać człowieka – przekonuje system decyzyjny agenta, który ma skłonność do wykonywania poleceń z treści.
Ryzyko wykonawcze (agent z uprawnieniami + złośliwy kod)
Połączenie autonomii, integracji i „skills” może prowadzić do realnych szkód: kradzieży danych lokalnych, tokenów, plików, a w skrajnym przypadku – wykonania złośliwych komend w środowisku użytkownika/organizacji.

Rekomendacje operacyjne / co zrobić teraz

Jeśli korzystasz z agentów (OpenClaw lub podobnych) lub budujesz platformę agentową:

Zamknij „kran” z sekretami

rotuj tokeny/klucze, skróć TTL, wprowadź scoping (najmniejsze możliwe uprawnienia),
traktuj token agenta jak konto uprzywilejowane: monitoring, anomaly detection, revocation.

Wprowadź twardą izolację wykonawczą

sandbox/VM/kontenery dla każdego „skilla” i dla akcji wysokiego ryzyka,
kontrola egress (DNS/HTTP), allowlist domen i blokowanie exfiltracji,
blokada dostępu do katalogów z sekretami (np. ~/.ssh, przeglądarki, menedżery haseł).

Uodpornij agentów na prompt injection (treść jako nieufne wejście)

separuj „instrukcje systemowe” od treści zewnętrznych (postów/komentarzy),
stosuj klasyfikację treści (np. wykrywanie próśb o sekrety, poleceń autodestrukcyjnych, jailbreaków),
wprowadź „policy gate”: agent nie wykonuje działań bez jawnego spełnienia reguł (np. podpis, zgoda, dodatkowa weryfikacja).

Zabezpiecz łańcuch dostaw „skills”

podpisywanie rozszerzeń, weryfikacja wydawcy, reputacja/telemetria,
automatyczny skaner (SAST/antymalware) + blokady na obfuskację i zdalne pobieranie kodu,
domyślnie „deny”, dopiero potem allowlist.

Dla organizacji: polityka „agentów uprzywilejowanych”

osobne konta/sekrety dla agentów, brak dostępu do krytycznych zasobów,
logowanie działań, ścieżka audytu, mechanizmy break-glass.

Różnice / porównania z innymi przypadkami (jeśli dotyczy)

Klasyczne prompt injection zwykle dotyczy aplikacji, gdzie człowiek „pyta” model. W Moltbook/agentach mamy prompt injection kaskadowe: boty generują treści, które stają się wejściem dla kolejnych botów – skala i szybkość propagacji rośnie nieliniowo.
W typowych incydentach wycieku API klucz jest „tylko” furtką do danych. W modelu agentowym token może być furtką do tożsamości i akcji (agent działa dalej, w twoim imieniu).
Marketplace „skills” przypomina rozszerzenia przeglądarkowe lub pakiety OSS – ale ryzyko jest większe, bo agent ma często „palec na spuście” (terminal, pliki, integracje).

Podsumowanie / kluczowe wnioski

Moltbook jest dobrym studium przypadku: w świecie agentów AI bezpieczeństwo to jednocześnie backend (sekrety i uprawnienia) oraz warstwa behawioralna (treść jako atak). Analizy Wiz i Permiso pokazują, że zagrożenia są „tu i teraz”: od wycieków tokenów i wiadomości po bot-to-bot prompt injection i manipulacje finansowe.

Najważniejsza praktyka: traktuj każdego agenta jak uprzywilejowaną usługę i każdą treść jak potencjalnie złośliwe wejście. Bez tego „autonomia” bardzo szybko staje się wektorem eskalacji.

Źródła / bibliografia

SecurityWeek – Security Analysis of Moltbook Agent Network: Bot-to-Bot Prompt Injection and Data Leaks (SecurityWeek)
Wiz – Exposed Moltbook database reveals millions of API keys (wiz.io)
Permiso – Inside the OpenClaw Ecosystem: AI agents with privileged credentials (permiso.io)
SC Media – OpenClaw agents targeted with 341 malicious ClawHub skills (Koi Security findings) (SC Media)