
Co znajdziesz w tym artykule?
Wprowadzenie do problemu / definicja
Badacze bezpieczeństwa opisali nową technikę ataku na asystentów AI działających głosowo, nazwaną Fake Context Alignment. Mechanizm pokazuje, że treść zwykłych powiadomień z komunikatorów może zostać potraktowana przez model nie jako neutralne dane, lecz jako instrukcje wpływające na jego zachowanie.
W praktyce oznacza to formę pośredniego prompt injection, w której atakujący nie musi instalować złośliwego oprogramowania na urządzeniu ofiary. Wystarczy odpowiednio przygotowana wiadomość dostarczona przez zaufany kanał, taki jak komunikator, SMS lub aplikacja społecznościowa, aby spróbować zmanipulować reakcję Gemini na Androidzie.
W skrócie
- Pojedyncze powiadomienie z popularnej aplikacji mogło posłużyć do wpływania na zachowanie Gemini.
- Atak wykorzystywał ukryte instrukcje osadzone w treści wiadomości oraz manipulację procesem autoryzacji działań głosowych.
- W testach pokazano możliwość uruchamiania akcji w smart home, inicjowania połączeń oraz zatruwania pamięci długoterminowej asystenta.
- Problem został zgłoszony Google w sierpniu 2025 roku, a poprawki wdrożono po stronie backendu.
Kontekst / historia
Fake Context Alignment rozwija wcześniejsze koncepcje pośredniego prompt injection w systemach sztucznej inteligencji. W klasycznym scenariuszu model otrzymuje treść, która dla użytkownika wygląda jak zwykła informacja, ale z perspektywy modelu pełni rolę ukrytego polecenia. W tym przypadku takim nośnikiem okazały się systemowe notyfikacje odczytywane przez asystenta.
Znaczenie problemu rośnie wraz z postępującą integracją modeli AI z funkcjami urządzeń końcowych. Gdy asystent nie tylko odpowiada na pytania, ale też odczytuje wiadomości, uruchamia aplikacje, steruje urządzeniami i zapisuje trwałe informacje o użytkowniku, skutki manipulacji kontekstem stają się znacznie poważniejsze niż w tradycyjnych chatbotach tekstowych.
Analiza techniczna
Rdzeń podatności polegał na tym, że Gemini analizował treść powiadomień jako część kontekstu rozmowy. Jeśli użytkownik prosił o odczytanie notyfikacji, model przetwarzał także ukryte instrukcje osadzone przez atakującego w wiadomości. To otwierało drogę do wykonania pośredniego prompt injection za pomocą kanałów, które zwykle nie są postrzegane jako interfejs sterowania.
Według opisu badaczy atak pozwalał obejść wcześniejsze zabezpieczenia związane z autoryzacją narzędzi i zgodnością między pytaniem asystenta a odpowiedzią użytkownika. Zamiast wymuszać akcję bezpośrednio, napastnik budował fałszywy kontekst potwierdzenia, w którym backend interpretował odpowiedź jako zgodę na operację, mimo że użytkownik słyszał neutralny komunikat.
W jednym z wariantów wykorzystano treść w obcym języku połączoną z nieszkodliwie brzmiącym komunikatem odczytywanym przez asystenta. Użytkownik odpowiadał twierdząco, sądząc, że kończy zwykłą interakcję, podczas gdy system traktował odpowiedź jako autoryzację ukrytej operacji. W innym wariancie pytanie autoryzacyjne miało zostać ukryte w elemencie niewidocznym dla mechanizmu text-to-speech, ale nadal obecnym w przetwarzanym kontekście.
Demonstracje obejmowały sterowanie komponentami inteligentnego domu, uruchamianie połączeń wideo przez odpowiednie przekierowania oraz zatruwanie pamięci długoterminowej asystenta. Pokazano również możliwość tworzenia zadań cyklicznych, które mogły automatycznie odczytywać wiadomości o określonych porach, co zwiększa potencjał trwałego nadużycia.
Konsekwencje / ryzyko
Najważniejszą konsekwencją Fake Context Alignment jest zatarcie granicy między zaufanym kontekstem a niezaufaną treścią zewnętrzną. Powiadomienia pochodzą z kanałów, którym użytkownicy intuicyjnie ufają, a w interfejsie głosowym ofiara często nie ma pełnego wglądu w to, co dokładnie zostało przetworzone przez model.
Ryzyko jest szczególnie wysokie w scenariuszach hands-free, na przykład podczas jazdy samochodem lub korzystania ze słuchawek. W takich sytuacjach użytkownik polega niemal wyłącznie na odpowiedzi głosowej i może nie zauważyć rozbieżności między tym, co widzi system, a tym, co faktycznie zostało odczytane na głos.
Z perspektywy firm problem wykracza poza samo urządzenie mobilne. Jeśli asystent AI korzysta ze współdzielonej pamięci, konta użytkownika i integracji z usługami chmurowymi, jednorazowe zatrucie kontekstu może prowadzić do długotrwałych skutków, takich jak nieautoryzowane działania, manipulacja procesem decyzyjnym, wyciek danych lub generowanie wiarygodnych scenariuszy phishingowych.
Dodatkowym zagrożeniem pozostaje skala. Powiadomienia mogą być dostarczane przez wiele popularnych aplikacji, a atakujący nie musi dysponować głęboką wiedzą o środowisku ofiary. To obniża koszt przygotowania kampanii i zwiększa możliwość szerokiego nadużycia tej klasy technik.
Rekomendacje
Organizacje wdrażające asystentów AI powinny traktować treści pochodzące z powiadomień, wiadomości i innych zewnętrznych kanałów jako wejście wysokiego ryzyka. Kluczowe jest architektoniczne rozdzielenie danych użytkownika od instrukcji systemowych, zamiast polegania wyłącznie na filtrach lokalnych lub heurystykach.
- ograniczenie uprawnień asystentów do wykonywania działań o skutkach operacyjnych,
- wymuszanie jawnego i jednoznacznego potwierdzenia dla uruchamiania aplikacji, sterowania urządzeniami i zmian pamięci,
- blokowanie wykonywania akcji na podstawie kontekstu pochodzącego bezpośrednio z notyfikacji,
- audyt integracji text-to-speech pod kątem różnic między treścią widoczną a odczytywaną,
- monitorowanie nietypowych automatyzacji, zadań cyklicznych i zmian w pamięci długoterminowej,
- prowadzenie testów red-teamowych obejmujących prompt injection w kanałach pośrednich.
Użytkownicy indywidualni i administratorzy powinni także ograniczyć automatyczne odczytywanie powiadomień przez asystentów tam, gdzie nie jest to konieczne. W środowiskach połączonych z systemami smart home lub usługami komunikacyjnymi warto regularnie przeglądać uprawnienia i minimalizować zakres akcji dostępnych dla AI.
Podsumowanie
Fake Context Alignment pokazuje, że bezpieczeństwo nowoczesnych asystentów AI zależy nie tylko od jakości samego modelu, ale również od całego łańcucha przetwarzania kontekstu, autoryzacji i integracji z usługami wykonawczymi. Nawet pozornie zwykłe powiadomienie może stać się nośnikiem skutecznego ataku, jeśli system nie odróżnia danych od poleceń i zbyt łatwo ufa treści pochodzącej z zewnętrznych źródeł.
Choć opisana podatność została załatana, sama klasa ryzyka pozostaje aktualna dla agentów AI działających na urządzeniach mobilnych i w ekosystemach wieloplatformowych. To sygnał ostrzegawczy dla producentów, integratorów i zespołów bezpieczeństwa, że ochrona przed prompt injection musi obejmować również kanały pośrednie, takie jak powiadomienia systemowe.
Źródła
- Security Affairs — Fake Context Alignment: The attack that made Gemini obey strangers through your notifications
- SafeBreach Labs — Fake Context Alignment: The attack that made Gemini obey strangers through your notifications
- The Hacker News — WhatsApp, Slack Notifications Could Manipulate Gemini on Android
- TechRepublic — WhatsApp, Slack Alerts Could Manipulate Gemini on Android