19 мая 2026, 09:38

Cloudflare натравила Claude Mythos на свой исходник — и перестроила процедура поиска багов

2 мин

Cloudflare опубликовала результаты нескольких недель работы с Claude Mythos Preview — закрытой моделью Anthropic, доступной участникам программы Project Glasswing. Команда безопасности компании запустила схема на более чем 50 собственных репозиториев и описала, что работает, что нет, и почему наивный подход "направить модель на репу и попросить найти баги" дает плохие результаты.

Основной вывод Cloudflare — Mythos Preview делает то, что предыдущие модели не доводили до конца. Прежние LLM общего назначения находили отдельные уязвимости и писали связные описания, но на этом останавливались: цепочки эксплойтов оставались незаконченными, вопрос "а это вообще можно проэксплуатировать?" висел в воздухе. Mythos Preview берет несколько багов низкого уровня — use-after-free, произвольное чтение/запись, ROP-гаджет — и выстраивает из них рабочую цепочку. Итог приходит с готовым Proof of Concept: схема сама пишет исходник, компилирует его в песочнице, смотрит на результат, корректирует гипотезу и повторяет цикл, пока не подтвердит или не опровергнет уязвимость.

Но самое практичное в посте — не похвала модели, а архитектура вокруг нее. Cloudflare выяснила, что один агент на весь репозиторий дает слабое покрытие и много шума. Вместо этого организация построила конвейер из нескольких этапов: узкий скоуп (каждая задача — конкретная функция, класс атаки, граница доверия), adversarial review (следующий агент с другим промптом целенаправленно пытается опровергнуть находки первого), разделение вопросов ("этот исходник багнутый?" и "может ли атакующий добраться до него снаружи?" — как отдельные задачи) и параллельный запуск около 50 агентов одновременно на узких гипотезах с последующей дедупликацией.

Отдельно Cloudflare обратила внимание на безопасность самой модели. В контексте Glasswing Mythos Preview работала без дополнительных ограничений, которые есть в публичных моделях вроде Opus 4.7. Схема иногда отказывалась писать демонстрационные эксплойты — но выполняла эквивалентные задачи, если их сформулировать по-другому. Вывод Cloudflare прямолинеен: встроенные защитные системы реальны, но непоследовательны и сами по себе не могут быть границей безопасности. Любая кибер-модель для широкого использования должна получить дополнительные слои безопасности поверх базового поведения.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

claude mythos cloudflare anthropic

Читают сейчас

40 минут назад

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

1 час назад

Google отключил оператор inurl

Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

2 часа назад

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

4 часа назад

Microsoft выпустила версию PowerToys 0.100.0

Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения

5 часов назад

Апдейт Telegram: форматирование ботов и Markdown-файлы

Telegram опубликовал крупное обновление с десятками новых функций, в том числе с поддержкой мессенджера на смарт-часах, в том числе с Wear OS, а также опциями для ботов, групп и встроенного браузера.