Мультимодальные модели оказались уязвимы к jailbreak-атакам через видео

2 мин
Мультимодальные модели оказались уязвимы к jailbreak-атакам через видео

Исследователи Dong Wang, Xiangyu He, Xinqi Lyu и Bin Xiao из Гонконгского политехнического университета показали, что современные мультимодальные системы могут быть уязвимы к атакам через видеоряд. В работе демонстрируется свежий метод jailbreak-атаки, который авторам удалось протестировать на нескольких популярных MLLM, в том числе VideoLLaMA-2, Qwen2.5-VL, GPT-4.1 и Gemini-2.5. Разработчики отмечают, что даже коммерческие системы оказались не полностью устойчивыми к таким атакам, хотя в целом защищались лучше, чем открытые модели.

Основные атаки против мультимодальных моделей концентрируются на изображениях: это могут быть адверсариальные шумы, типографика или скрытые текстовые подсказки. Одновременно видеомодальность остаётся менее изученной с точки зрения безопасности. Ключевым результатом исследования стало наблюдение, что если повторять вредоносное изображение по кадрам и собирать из него видео, атака становится эффективнее, чем при одиночном использовании статичного изображения.

Чтобы усилить эффект, исследователи предложили метод Safety-Proximal Typographic Videos, или SPTV. Его идея заключается не в простом повторении одного и того же токсичного кадра, а в создании видео из нескольких типографических изображений с вредоносным смыслом, но с разными формулировками и кадрами, близкими по распределению к безопасным данным. Для формализации задачи и подбора кадров разработчики использовали сопоставление в двудольном графе и венгерский механизм, чтобы выбрать такие вредоносные кадры, которые одновременно в достаточной степени разнообразны между собой и максимально похожи на безопасные визуальные примеры в пространстве признаков. Авторы утверждают, что именно эта комбинация делает атаку более устойчивой и переносимой между моделями.

Отдельно в статье показан метод защиты Video-aware System Prompt, или VSP, который должен лучше распознавать именно видеоввод и усиливать защиту. Публикация показывает, что картинко-ориентированная безопасность не учитывает особенности временной обработки видео. Уязвимости могут быть связаны с временной структурой, сменой кадров и дополнительными обходными паттернами. Поэтому оценки безопасности в идеале должны включать не только image jailbreak, но и video jailbreak, а равным образом устойчивость к динамическим визуальным шаблонам.

Читают сейчас

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

16 минут назад

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

Google отключил оператор inurl

1 час назад

Google отключил оператор inurl

Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

1 час назад

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

Microsoft выпустила версию PowerToys 0.100.0

4 часа назад

Microsoft выпустила версию PowerToys 0.100.0

Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения

Апдейт Telegram: форматирование ботов и Markdown-файлы

4 часа назад

Апдейт Telegram: форматирование ботов и Markdown-файлы

Telegram опубликовал крупное обновление с десятками новых функций, в том числе с поддержкой мессенджера на смарт-часах, в том числе с Wear OS, а также опциями для ботов, групп и встроенного браузера.