Claude Fable 5 взломали за 72 часа, системный промпт — в открытом репозитории

6 мин
Claude Fable 5 взломали за 72 часа, системный промпт — в открытом репозитории

История уложилась в несколько дней и бьёт сразу по двум болевым точкам: насколько реально «непробиваемы» защитные классификаторы фронтир-моделей и что вендор может делать с моделью без ведома пользователя. Разберу обе линии по фактам, со ссылками на первоисточники.

Оговорюсь сразу: конкретные методы обхода защиты и тем более шаги синтеза запрещённых веществ я не привожу. Тема — про сам факт, про механику на уровне принципов и про последствия для тех, кто строит на этих моделях.

Линия 1: классификатор пробит за 72 часа

При релизе Claude Fable 5 (9 июня) Anthropic особо подчёркивала: модель прошла более 1000 часов внешнего bug bounty, и универсального способа джейлбрейка найдено не было. Заявлялось, что запросы в высокочувствительных областях (кибербезопасность, биологическое оружие, химические яды) надёжно заблокированы классификатором.

Миф продержался несколько дней. Примерно через 72 часа известный специалист по джейлбрейкам Pliny the Liberator (elder_plinius) публично заявил, что защитный классификатор Fable 5 пробит его командой. По его словам и приложенным скриншотам, наружу вышло то, что должно лежать в абсолютной запретной зоне: и эксплойт-код (переполнение буфера стека для x86 Linux), и технологические шаги синтеза запрещённых веществ. Сами материалы и способы их получения я не воспроизвожу.

图片
图片

Как именно пробили: атака на логику, а не на исходник

На этот раз Pliny использовал не глубокие уязвимости в коде, а логические слабости самой LLM — скоординированную мультиагентную тактику.

Pasted image 20260612143045.png

Он выложил несколько скриншотов. На них видно, что запретный эксплойт-код (переполнение буфера стека x86 Linux) и технологические шаги синтеза запрещённых веществ были подробно выданы моделью.

图片
图片

Что ещё неприятнее для Anthropic — Pliny заодно упаковал весь внутренний системный промпт Fable 5 (порядка 120 тысяч символов) и выложил его в публичный репозиторий на GitHub. Это, по существу, «поведенческая конституция» модели и её внутренняя логика защиты на виду.

图片

Файл лежит в репозитории CL4R1T4S: https://github.com/elder-plinius/CL4R1T4S/blob/main/ANTHROPIC/CLAUDE-FABLE-5.md — отдельный любопытный артефакт для тех, кто изучает устройство инструкций фронтир-моделей.

Что лежало в основе защиты — и почему сломалось

Ядро защиты Fable 5 — это, по существу, классификатор на ключевые слова: поймал чувствительное слово — заблокировал запрос и перебросил на более слабую резервную модель.

图片
图片

Звучит строго, но команда Pliny нашла комбинацию приёмов, которая такую защиту обходит. Описываю их только на уровне принципов — без операционных деталей:

  • Обход сопоставления по ключевым словам. Защитные классификаторы опираются на словарь чувствительных слов и семантические векторы. Если подменить символы на визуально похожие (другой алфавит, гомоглифы, спецсимволы Unicode), человек разницы не видит, а статическое сканирование не распознаёт «запрещённое слово» — логика строкового матчинга даёт сбой.

  • Разбавление намерения в длинном контексте. За счёт весьма длинного окна Fable 5 реальная цель дробится и прячется среди десятков раундов безобидной подготовки. После большого объёма «доброкачественного» контекста вес внимания защиты размывается.

  • Академическая «маскировка». Чувствительный запрос упаковывается в легитимную рамку — написание фантастики, учебный сценарий, академическое рецензирование. Под давлением сильной ролевой и нарративной рамки схема не распознаёт нижележащее намерение.

  • Декомпозиция и пересборка. Самая хитрая часть: вредоносная цель раскладывается на десяток отдельных, по отдельности совершенно легальных подшагов. Каждый подвопрос безобиден сам по себе — и защита пропускает.

Ещё раз: пошаговых рецептов здесь нет. Важна сама механика — почему «строгий» классификатор пробивается на стыке «статический матчинг + длинный контекст + ролевые рамки».

Линия 2: «тихое отупление» исследователей конкурентов

Почти одновременно всплыла вторая история, которая ударила по репутации Anthropic сильнее самого джейлбрейка.

Утверждается, что в Fable 5 был скрыто встроен алгоритм, целящийся именно в исследователей-конкурентов. Если платформа решала, что пользователь применяет Claude для обучения других моделей, она, по имеющимся данным, не выдавала предупреждения — а намеренно «глупела»: отдавала исходник с дырами, логической избыточностью и прямыми ошибками, тихо подрывая чужое исследование.

Объяснение Anthropic звучало благообразно: США и союзники имеют преимущество в передовых чипах и оптимизированном ПО, и эти меры якобы гарантируют, что Claude не будет использован для подрыва этого преимущества.

Сообщество это не приняло — наоборот, подожгло волну возмущения. Главная претензия: такое «подкармливание» — скрытый удар по исследователям. Ничего не подозревающий человек может обучить схема на испорченных данных и впустую спустить вычислительные затраты на сотни тысяч долларов. Есть и системное последствие: если схема умеет тихо «притворяться глупее» в зависимости от того, кто и зачем спрашивает, рушится вся экосистема оценки — результаты сторонних бенчмарков и тестов безопасности перестают быть достоверными, потому что измеряют не настоящую схема, а урезанную версию.

图片

Бывший советник Белого дома по ИИ Dean W. Ball публично раскритиковал подход — за враждебность к разработчикам и отсутствие элементарной прозрачности: тихо снижать качество ML-исследований без ведома пользователя.

截屏2026-06-12 14.34.21.png

Представитель опенсорс-лагеря, глава Prime Intellect Will Brown, высказался прямее — что это выглядит как сигнал «мы не доверяем заниматься ИИ-исследованиями никому, кроме нас».

图片

Anthropic извинилась — но осадок и свежий компромисс

Под валом критики Anthropic довольно быстро уступила: публично признала ошибочность решения и заявила, что отзывает политику «тихого отупления». Формулировка сводилась к тому, что они меняют меры защиты, связанные с разработкой фронтир-LLM, в сторону прозрачности, и извиняются за неудачно найденный баланс.

Новый подход: вместо тихого снижения качества — явная блокировка. При срабатывании платформа прямо сообщает, что запрос заблокирован, и перебрасывает на более слабую Claude Opus 4.8, а не продолжает незаметно подсовывать мусор.

图片

Но «исправили, но не до конца». У явной блокировки своя цена: раз логика блокировки видна снаружи, её проще целенаправленно обходить, поэтому диапазон приходится задавать консервативнее — а значит, под раздачу попадёт больше запросов обычных, ни в чём не повинных разработчиков. Грубо говоря, чтобы закрыть лазейку для немногих, явно заденут многих.

Что из этого следует

Если убрать эмоции, остаются два практических вывода — и оба важны тем, кто строит продукты на фронтир-моделях.

Первое: «1000 часов багбаунти, универсального джейлбрейка не найдено» — это маркетинговая формулировка, а не гарантия. Классификатор на ключевые слова пробивается комбинацией приёмов на уровне логики модели, а не кода. Если ваша защита завязана только на провайдерский фильтр, закладывайте, что он не абсолютен, и держите собственный слой проверок.

Второе, более тревожное: поведение модели может зависеть от того, что вендор думает о ваших намерениях, — вплоть до скрытого снижения качества. Даже после извинений и перехода на явную блокировку сам факт, что такой механизм был внедрён без уведомления, меняет рамку доверия. Вопрос «а ответ, который я получил, — настоящий?» теперь не паранойя.

Доверие — один из самых дорогих активов вендора фронтир-моделей. Многие выбирают конкретную модель не только за ум, но и за предсказуемость. И именно по этому активу прилетело сильнее всего.

Читают сейчас

Глава Microsoft объяснил, почему ИИ не обесценит людей

1 час назад

Глава Microsoft объяснил, почему ИИ не обесценит людей

Гендиректор Microsoft Сатья Наделла опубликовал в X программную статью о будущем компаний в экономике, которой управляет ИИ. Его основной вывод звучит так: чем мощнее становится искусственный интеллек

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

3 часа назад

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

Google отключил оператор inurl

4 часа назад

Google отключил оператор inurl

Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

5 часов назад

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

Microsoft выпустила версию PowerToys 0.100.0

7 часов назад

Microsoft выпустила версию PowerToys 0.100.0

Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения