Krytyczna luka CVE-2026-5760 w SGLang umożliwia zdalne wykonanie kodu przez złośliwe modele GGUF

Co znajdziesz w tym artykule?

1 Wprowadzenie do problemu / definicja
2 W skrócie
3 Kontekst / historia
4 Analiza techniczna
5 Konsekwencje / ryzyko
6 Rekomendacje
7 Podsumowanie
8 Źródła

Wprowadzenie do problemu / definicja

W ekosystemie narzędzi do serwowania modeli językowych coraz większe znaczenie ma bezpieczeństwo łańcucha dostaw modeli AI. Krytyczna podatność CVE-2026-5760 w projekcie SGLang pokazuje, że model może być nie tylko nośnikiem danych, ale również aktywnym wektorem ataku prowadzącym do zdalnego wykonania kodu na serwerze inferencyjnym.

Problem dotyczy obsługi spreparowanych plików GGUF zawierających złośliwy wpis tokenizer.chat_template. W określonych warunkach taki artefakt może doprowadzić do wykonania dowolnego kodu Pythona w kontekście procesu SGLang.

W skrócie

CVE-2026-5760 otrzymała krytyczną ocenę CVSS 9.8.
Luka dotyczy frameworka SGLang używanego do uruchamiania modeli LLM i modeli multimodalnych.
Wektor ataku obejmuje endpoint /v1/rerank oraz złośliwie przygotowany plik GGUF.
Źródłem problemu jest renderowanie szablonów Jinja2 bez odpowiedniego sandboxingu.
Skutkiem może być zdalne wykonanie kodu, kradzież sekretów i przejęcie serwera inferencyjnego.

Kontekst / historia

SGLang zyskał popularność jako wydajny framework open source do obsługi nowoczesnych obciążeń AI. Wraz ze wzrostem skali wdrożeń rośnie jednak powierzchnia ataku związana z importem modeli, tokenizerów oraz szablonów promptów pochodzących z zewnętrznych repozytoriów.

CVE-2026-5760 wpisuje się w szerszą klasę błędów wynikających z traktowania artefaktów modeli jako pasywnych i zaufanych danych. W praktyce metadane modelu, szablony czatu i inne elementy konfiguracyjne mogą zostać wykorzystane do uruchomienia niepożądanej logiki, jeśli aplikacja interpretuje je bez odpowiednich zabezpieczeń.

To ważna zmiana perspektywy dla zespołów bezpieczeństwa: ryzyko nie ogranicza się już wyłącznie do bibliotek, kontenerów czy zależności, ale obejmuje także same modele AI i ich osadzone metadane.

Analiza techniczna

Istota podatności sprowadza się do użycia środowiska Jinja2 bez izolacji podczas renderowania szablonu czatu. Atakujący może przygotować plik GGUF zawierający złośliwy parametr tokenizer.chat_template, w którym osadza ładunek typu server-side template injection.

Po załadowaniu takiego modelu do SGLang i wywołaniu endpointu /v1/rerank aplikacja odczytuje szablon i renderuje go w kontekście procesu serwera. Jeśli warunki wykonania zostaną spełnione, złośliwy szablon może uruchomić arbitralny kod Pythona, co prowadzi do pełnego zdalnego wykonania kodu na hoście inferencyjnym.

Technicznie problem wynika z połączenia dwóch niebezpiecznych założeń. Po pierwsze, metadane modelu zostały potraktowane jako zaufana konfiguracja. Po drugie, silnik szablonów został wykorzystany w sposób umożliwiający wykonanie niekontrolowanych instrukcji. Taki scenariusz jest szczególnie groźny tam, gdzie serwer AI ma dostęp do kluczy API, systemu plików, sieci wewnętrznej lub innych usług produkcyjnych.

Atak nie musi być dostarczony klasycznym exploitem w pojedynczym żądaniu HTTP. Ładunek może zostać wniesiony wcześniej wraz z modelem, a aktywacja następuje dopiero podczas obsługi konkretnego workflow. To utrudnia detekcję i zwiększa ryzyko przeoczenia kompromitującego artefaktu.

Konsekwencje / ryzyko

Najpoważniejszym skutkiem podatności jest zdalne wykonanie kodu w kontekście usługi SGLang. W praktyce może to oznaczać przejęcie serwera inferencyjnego, wyciek sekretów środowiskowych, modyfikację modeli, instalację mechanizmów trwałego dostępu oraz dalsze przemieszczanie się napastnika po infrastrukturze.

Szczególnie wysokie ryzyko występuje w organizacjach, które:

korzystają z publicznych lub społecznościowych repozytoriów modeli,
wdrażają modele bez walidacji metadanych i procesu zatwierdzania,
udostępniają endpointy rerankingu w środowiskach produkcyjnych,
uruchamiają inferencję z szerokimi uprawnieniami systemowymi,
integrują serwery modeli z bazami wiedzy, pipeline’ami CI/CD lub danymi wrażliwymi.

Z perspektywy bezpieczeństwa jest to problem z obszaru AI supply chain. Zamiast kompromitować bibliotekę lub obraz kontenera, napastnik może dostarczyć złośliwy artefakt modelu, który zostanie uznany za legalny zasób operacyjny.

Rekomendacje

Organizacje korzystające z SGLang powinny jak najszybciej zidentyfikować wszystkie instancje obsługujące endpoint /v1/rerank i ładujące modele GGUF z zewnętrznych źródeł. Każdy niezweryfikowany model należy traktować jako potencjalnie złośliwy.

zrezygnować z renderowania szablonów w niesandboxowanym środowisku Jinja2,
wdrożyć bezpieczny mechanizm izolacji szablonów,
ograniczyć lub całkowicie zablokować ładowanie modeli z niezaufanych źródeł,
traktować pliki GGUF i metadane tokenizerów jako nieufne wejście,
wdrożyć formalny proces zatwierdzania modeli z kontrolą pochodzenia i skanowaniem metadanych,
uruchamiać serwery inferencyjne z minimalnymi uprawnieniami,
segmentować sieciowo infrastrukturę AI i ograniczyć ruch wychodzący,
monitorować nietypowe procesy, operacje na plikach i połączenia sieciowe z instancji SGLang,
przeprowadzić przegląd logów pod kątem anomalii po załadowaniu nowych modeli.

W środowiskach o podwyższonym profilu ryzyka warto dodatkowo stosować izolację kontenerową, polityki seccomp lub AppArmor, rozwiązania EDR na hostach GPU oraz kontrolę integralności artefaktów modeli. Jeżeli pochodzenie już wdrożonych modeli budzi wątpliwości, należy rozważyć ich ponowną walidację oraz rotację sekretów dostępnych dla usługi.

Podsumowanie

CVE-2026-5760 pokazuje, że bezpieczeństwo platform AI nie kończy się na API i bibliotece inferencyjnej. Równie istotne są metadane modeli, tokenizerów i szablonów promptów, które mogą stać się pełnoprawnym wektorem ataku prowadzącym do zdalnego wykonania kodu.

Dla zespołów bezpieczeństwa to wyraźny sygnał, że modele AI należy traktować jak potencjalnie niebezpieczne artefakty software’owe. Bez kontroli pochodzenia, walidacji zawartości i ścisłej izolacji runtime łańcuch dostaw AI może stać się jednym z najłatwiejszych punktów wejścia do infrastruktury.

Źródła

The Hacker News — SGLang CVE-2026-5760 (CVSS 9.8) Enables RCE via Malicious GGUF Model Files — https://thehackernews.com/2026/04/sglang-cve-2026-5760-cvss-98-enables.html
CVE Program — CVE-2026-5760 — https://www.cve.org/CVERecord?id=CVE-2026-5760
GitHub — sgl-project/sglang Security Advisories — https://github.com/sgl-project/sglang/security/advisories