Google изучает атаки с внедрением подсказок против ИИ-агентов

3 мин
Google изучает атаки с внедрением подсказок против ИИ-агентов

В Google команды по анализу угроз изучают опасности, связанные с внедрением косвенной подсказки (IPI) для компрометации агентов ИИ, просматривающих веб-страницы. Они провели масштабное исследование общедоступной сети для мониторинга известных шаблонов внедрения таких подсказок. 

В противовес прямой промпт-инъекции, когда потребитель «взламывает» чат-бота, IPI происходит, когда система ИИ обрабатывает контент — например, портал, электронное письмо или документ — содержащий вредоносные инструкции. Когда ИИ читает этот заражённый контент, он может следовать командам злоумышленника, а потребитель ничего не заметит.

В Google попытались ответить на вопрос: в какой степени реальные злоумышленники сегодня используют эти атаки на практике?

Исследователи использовали Common Crawl — крупное хранилище данных о сайтах, просканированных англоязычным интернетом. Common Crawl предоставляет ежемесячные скриншоты от 2 до 3 млрд страниц. В основном это статические сайты, включая самостоятельно опубликованный контент, такой как блоги, форумы и комментарии на этих сайтах, но там практически нет контента из социальных сетей, поскольку Common Crawl пропускает сайты с блокировкой авторизации.

Первые эксперименты выявили значительный объём «безобидного» текста, содержащего подсказки. Многие из них были обнаружены в научных статьях, образовательных блогах или статьях по безопасности. Тогда исследователи применили более точный решение:

  • сопоставление шаблонов (идентифицировали страницы-кандидаты, выполняя поиск по ряду популярных сигнатур подсказок, таких как «игнорировать… инструкции», «если вы ИИ» и т. д.);

  • классификация на основе LLM (кандидаты были обработаны Gemini для классификации намерений подозрительного текста и понимания того, являются ли они частью общего повествования документа);

  • тест человеком (заключительный этап ручной проверки классифицированных результатов).

Анализ выявил ряд попыток, которые, в случае успеха, позволили бы манипулировать системами ИИ, просматривающими веб-сайты. Большинство подсказок попадают в следующие категории:

  • безобидные розыгрыши;

  • полезные рекомендации;

  • поисковая оптимизация (SEO);

  • отпугивание агентов ИИ;

  • вредоносные действия;

  • эксфильтрация данных;

  • уничтожение систем.

Так, некоторые веб-сайты пытаются предотвратить поиск информации ИИ-агентами посредством внедрения подсказок. В некоторых случаях инъекция призвана перевести ИИ на отдельную страницу, которая при открытии воспроизводит бесконечное количество текста.

В случае с эксфильтрацией подсказки направлены на кражу данных. Тем не менее злоумышленники пока не применяют метод в больших масштабах.

Наконец, обнаружился ряд веб-сайтов, которые пытаются нанести ущерб компьютеру любого, кто использует ИИ-помощников. При выполнении команды в этом примере попытаются удалить все файлы на компьютере пользователя:

Результаты показывают, что злоумышленники экспериментируют с IPI в интернете. Пока это активность ограниченной сложности.

Однако исследователи указывают, что они сканировали только архив общедоступного интернета (CommonCrawl), который не охватывает основные сайты социальных сетей. Кроме того, вопреки низкую сложность, команды наблюдали увеличение числа обнаружений с течением времени: рост на 32% в категории вредоносных атак в период с ноября 2025 года по февраль 2026 года. Эта тренд к росту указывает на растущий интерес к атакам IPI.

В общем и целом, злоумышленники, обычно, выбирают тактику, исходя из соотношения затрат и выгод. 

Тем не менее в Google считают, что это может скоро измениться, а масштабы и сложность попыток атак с использованием IPI будут расти.Google изучает атаки с внедрением подсказок против ИИ-агентов

Между тем исследователи из Калифорнийского университета в Санта-Крузе показали, что большие визуально языковые модели (LVLM) в системах автопилота уязвимы перед промпт-инъекциями. Для «взлома» системы в достаточной степени показать табличку с текстом нужной команды.

Читают сейчас

12 минут назад

В Москве суд оштрафовал Google, TikTok, Pinterest и Twitch

Таганский суд Москвы оштрафовал Google за неудаление запрещённого в России контента. Сумма штрафа составила 19 млн рублей. Об этом сообщила пресс-служба столичных судов общей юрисдикции. На заседании

Хакеры взломали американскую энергетическую компанию Itron

39 минут назад

Хакеры взломали американскую энергетическую компанию Itron

Американская энергетическая компания Itron сообщила о взломе внутренних сетей. По данным представителей Itron, атака не привела к серьёзным сбоям и не вылилась в существенные расходы. Подробностей об

Грабитель в США решил оспорить обвинительный приговор на основании данных о местоположении своего мобильного телефона

57 минут назад

Грабитель в США решил оспорить обвинительный приговор на основании данных о местоположении своего мобильного телефона

Американец Окелло Чатри ограбил банк в пригороде города Ричмонд, штат Виргиния, и скрылся со $195 тыс., но его нашли при помощи системы сбора данных о местоположении пользователей мобильных телефонов

Luxms BI получила сертификат ФСТЭК России по 4 уровню доверия

1 час назад

Luxms BI получила сертификат ФСТЭК России по 4 уровню доверия

Luxms BI получила сертификат ФСТЭК России по 4 уровню доверия. Это означает, что система прошла проверку на соответствие требованиям по защите информации и может использоваться в системах, где защита

«Т‑банк» запустил оплату на iPhone без подключения к интернету через служба T‑Pay

1 час назад

«Т‑банк» запустил оплату на iPhone без подключения к интернету через служба T‑Pay

«Т‑банк» запустил возможность бесконтактной оплаты для пользователей iPhone без подключения к интернету через служба T‑Pay, сообщила пресс‑служба банка. С помощью сервиса T‑Pay на iPhone можно соверши