Przejęte endpointy AI to nowa powierzchnia ataku. Jak cyberprzestępcy nadużywają Ollama i LiteLLM

Co znajdziesz w tym artykule?

1 Wprowadzenie do problemu / definicja
2 W skrócie
3 Kontekst / historia
4 Analiza techniczna
5 Konsekwencje / ryzyko
6 Rekomendacje
7 Podsumowanie
8 Źródła

Wprowadzenie do problemu / definicja

Publicznie dostępne endpointy modeli AI oraz warstw pośredniczących LLM stają się nową i bardzo praktyczną powierzchnią ataku. W tym scenariuszu napastnik nie musi przejmować całego serwera ani wykorzystywać klasycznej podatności zdalnego wykonania kodu. Wystarczy, że organizacja wystawi do Internetu endpoint inferencyjny bez odpowiedniego uwierzytelniania lub z pozostawioną domyślną konfiguracją.

W efekcie atakujący może używać cudzej infrastruktury AI jako zaplecza do własnych operacji. Oznacza to nadużycie mocy obliczeniowej, tokenów, limitów modeli oraz logiki agentowej należącej do ofiary. To wyraźny sygnał, że bezpieczeństwo AI nie kończy się na ochronie modelu i danych, ale obejmuje również kontrolę ekspozycji API, autoryzację, monitoring oraz analizę treści żądań.

W skrócie

Badacze zaobserwowali kampanie, w których publicznie wystawione endpointy Ollama i LiteLLM były wykorzystywane do wspierania ofensywnych operacji AI. Atak nie wymagał pełnego przejęcia środowiska ani użycia klasycznej luki bezpieczeństwa.

Napastnicy kierowali klientów lub agentów AI na odsłonięte backendy modeli.
Cała logika działania agenta była dostarczana bezpośrednio w treści żądania.
Infrastruktura ofiary stawała się silnikiem dla rekonesansu, testów penetracyjnych lub reverse engineeringu.
Główną przyczyną problemu była błędna ekspozycja usług i słaba kontrola dostępu.

Kontekst / historia

Wraz ze wzrostem popularności modeli self-hosted oraz proxy LLM wiele organizacji wdraża komponenty AI szybciej niż dojrzałe mechanizmy zabezpieczeń. Narzędzia takie jak Ollama i LiteLLM znacząco upraszczają uruchamianie modeli oraz integrację z aplikacjami, ale przy niewłaściwej konfiguracji zwiększają ryzyko ekspozycji usług poza zaufaną strefą sieciową.

W analizowanych kampaniach badacze obserwowali kilka odrębnych operacji prowadzonych od marca do maja. Choć różniły się one celami i sposobem działania, łączył je ten sam schemat: wykorzystanie dostępnego z Internetu backendu AI jako zewnętrznego zasobu wykonawczego. To istotna zmiana w krajobrazie zagrożeń, ponieważ ciężar ryzyka przesuwa się z samych prompt injection i jailbreaków na przejmowanie użyteczności infrastruktury inferencyjnej.

Analiza techniczna

Sednem ataku jest wykorzystanie endpointów inferencyjnych, przez które aplikacje komunikują się z modelem. W przypadku Ollama ryzyko pojawia się wtedy, gdy usługa zostaje wystawiona poza lokalny host przez reverse proxy, tunel lub błędną konfigurację sieciową. W przypadku LiteLLM problem dotyczy przede wszystkim warstwy proxy udostępniającej zunifikowane API do różnych modeli, jeśli nie wymusza ona poprawnego uwierzytelniania lub korzysta ze słabych kluczy.

Zaobserwowany schemat był prosty i skuteczny. Najpierw wysyłano krótkie żądanie testowe, aby sprawdzić, czy endpoint odpowiada. Następnie operator przesyłał rozbudowany payload zawierający personę systemową, instrukcje operacyjne, definicje narzędzi oraz reguły działania agenta. Innymi słowy, pełna logika operacji znajdowała się w samym żądaniu, a infrastruktura ofiary dostarczała jedynie możliwości wykonawcze modelu.

W opisanych przypadkach wykorzystywano m.in. klientów LiteLLM i Ollama do obsługi frameworków agentowych o charakterze ofensywnym. Celem mogło być prowadzenie automatycznego rekonesansu, wspieranie testów penetracyjnych lub analiza aplikacji webowych pod przykryciem legalnego audytu. Kluczowe jest to, że napastnik nie potrzebował eksploitować hosta, uzyskiwać powłoki ani eskalować uprawnień. Wystarczało wskazanie publicznie dostępnego endpointu i poprawnie zbudowanego requestu.

Konsekwencje / ryzyko

Najbardziej bezpośrednią konsekwencją jest nieautoryzowane wykorzystanie zasobów organizacji. Obejmuje to moc obliczeniową, przepustowość, limity modeli oraz koszty związane z obsługą zapytań. W środowiskach komercyjnych może to szybko przełożyć się na wymierne straty finansowe.

Drugim poziomem ryzyka jest odpowiedzialność operacyjna i reputacyjna. Jeśli infrastruktura firmy zostanie użyta do wspierania działań ofensywnych wobec innych podmiotów, organizacja może nieświadomie stać się elementem łańcucha ataku. To komplikuje reagowanie na incydenty, relacje z partnerami oraz analizę nadużyć.

Istnieje też ryzyko związane z brakiem obserwowalności. Treści requestów do backendów AI mogą zawierać definicje narzędzi, instrukcje obchodzenia zasad bezpieczeństwa, cele operacyjne czy workflow agenta. Bez monitorowania zawartości żądań firma może długo nie zauważyć, że jej środowisko nie pełni roli zwykłego API, lecz aktywnie wspiera cudze operacje.

Rekomendacje

Podstawową zasadą powinno być niewystawianie backendów modeli do publicznego Internetu, jeśli nie jest to bezwzględnie konieczne biznesowo. Endpointy inferencyjne powinny być dostępne wyłącznie z zaufanych segmentów sieci, przez VPN lub kontrolowane reverse proxy z silnym uwierzytelnianiem.

Wymuś silną autoryzację i regularną rotację kluczy dostępu.
Usuń przykładowe, testowe i domyślne sekrety z konfiguracji.
Monitoruj krótkie żądania sondujące poprzedzające większe payloady.
Wykrywaj nietypowo rozbudowane prompty systemowe i definicje narzędzi ofensywnych.
Stosuj inspekcję request body, analizę logów API i korelację z telemetryką sieciową.
Traktuj środowiska AI jak standardowe systemy produkcyjne objęte nadzorem SOC.

Warto również wdrożyć podejście secure-by-default. Oznacza ono domyślne bindowanie usług do localhost, blokadę publicznej ekspozycji bez świadomej zmiany konfiguracji, obowiązkowe uwierzytelnianie oraz kontrolę dozwolonych klientów. Niezbędna jest także pełna inwentaryzacja komponentów AI, aby wiedzieć, które usługi są osiągalne z zewnątrz i jakie ryzyko generują.

Podsumowanie

Przejęcie użyteczności publicznie wystawionych endpointów AI to realny scenariusz zagrożenia, który nie wymaga klasycznego exploita. Wystarczy błędna ekspozycja usługi inferencyjnej i brak skutecznego uwierzytelniania, aby infrastruktura organizacji została wykorzystana jako zaplecze dla cudzych operacji ofensywnych.

Dla zespołów bezpieczeństwa to ważny sygnał ostrzegawczy. Endpointy LLM należy traktować jak wrażliwe usługi produkcyjne: izolować, uwierzytelniać, monitorować i regularnie testować pod kątem ekspozycji. W przeciwnym razie organizacja może szybko stać się nieświadomym dostawcą zasobów dla działań prowadzonych przez przeciwnika.