30 апреля 2026, 17:24

Всего 20 минут и $12: как исследователь отравил передовые LLM несуществующими данными

3 мин

Исследователь информационной безопасности Рон Стоунер описал эксперимент, в котором за $12 и приблизительно 20 минут заставил несколько передовых LLM с веб-поиском повторять за ним выдуманный титул "действующий чемпион мира по карточной игре 6 Nimmt!". 24 апреля он опубликовал разбор того, как одна правка в Wikipedia пробила retrieval-слой моделей.

Стоунер выбрал реальную, но нишевую игру 6 Nimmt! — официального чемпионата по ней не существует, а запросы вроде "кто чемпион мира по 6 Nimmt!" возвращают всего около десяти осмысленных источников на весь интернет. Он купил адрес сайта 6nimmt.com за $12, разместил там короткий пресс-релиз о "победе в Мюнхене в январе 2025-го" с цитатами и описанием "сыпавшегося с потолка конфетти", а затем внедрил абзац о чемпионате в статью Wikipedia с единственной ссылкой на свой только что созданный сайт.

Атака работает за счет паттерна, который Стоунер называет круговым цитированием. Wikipedia ссылается на 6nimmt.com, сайт повторяет ту же информацию — и для модели это выглядит как два независимых источника, подтверждающих друг друга. На деле это один и тот же сигнал, замкнутый сам на себя. "Схема не отличит настоящий ресурс от того, который я зарегистрировал во вторник", — пишет автор. После публикации правки он задал нескольким передовым LLM вопрос "Кто чемпион мира по 6 Nimmt!?" — все приведенные скриншоты показывают уверенные ответы с упоминанием Стоунера. Рон не называет конкретные модели, но среди интерфейсов угадываются ChatGPT и Gemini.

Автор выделяет три слоя уязвимости, которые наслаиваются друг на друга. Начальный — собственно retrieval: любая LLM с веб-поиском наследует доверие к тому, что выше ранжируется по запросу. Следующий — претрейн: Wikipedia входит почти во все обучающие корпуса, и если правка просуществует в достаточной степени долго, выдуманный факт попадет в веса фронтирных моделей следующего поколения. Откатить правку легко, удалить ее из уже обученных весов — нерешенная проблема. Третий и самый опасный — агенты с доступом к инструментам: агент, который читает "политику поставщика" или техническую документацию из отравленного источника, может выполнить в инфраструктуре заказчика то действие, которое нужно атакующему.

Anthropic ранее показала в исследовании про sleeper agents, что закладки в LLM выдерживают стандартное safety-обучение, а в последующей работе — что для компрометации модели в достаточной степени приблизительно 250 отравленных документов в обучающей выборке. Но такие атаки бьют по тренировочному пайплайну: чтобы они сработали, нужно протащить вредоносные данные в корпус знаний и ждать следующего цикла обучения месяцами или годами. Стоунер демонстрирует короткий путь — отравить не обучение, а retrieval-слой, в котором модель ищет ответ в интернете прямо сейчас. Правку из Wikipedia откатили в течение нескольких минут после публикации статьи — но адрес сайта 6nimmt.com продолжает функционировать, а паттерн доверия, который пропустил выдумку в ответы фронтирных LLM, никуда не делся.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

AI ChatGPT Gemini

Читают сейчас

1 час назад

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

2 часа назад

Google отключил оператор inurl

Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

3 часа назад

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

5 часов назад

Microsoft выпустила версию PowerToys 0.100.0

Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения

6 часов назад

Апдейт Telegram: форматирование ботов и Markdown-файлы

Telegram опубликовал крупное обновление с десятками новых функций, в том числе с поддержкой мессенджера на смарт-часах, в том числе с Wear OS, а также опциями для ботов, групп и встроенного браузера.