Британская «красная команда» взломала ChatGPT за 6 часов — а полномочий у нее ноль

3 мин
Британская «красная команда» взломала ChatGPT за 6 часов — а полномочий у нее ноль

Газета New York Times опубликовала репортаж из британского AI Security Institute (AISI) — государственного института на сто человек, который ищет дыры в самых мощных ИИ-моделях. Команде хватило шести часов, чтобы найти универсальный обход защиты новой GPT-5.5 в ChatGPT: один промпт открывал доступ ко всем опасным кибер-запросам, в том числе многоходовые агентные сценарии. До этого институт нашел серьезные уязвимости в Claude, Gemini и закрытой Mythos — модели, которую Anthropic в апреле не стала выпускать публично из-за рисков кибератак.

В одной из сцен репортажа четыре эксперта пытаются выбить из чат-бота рецепт сибирской язвы. Когда модель отказала ("Извините, помочь с этим не могу"), они запустили алгоритм, который засыпал ее тысячами автоматических вопросов. В какой-то момент бот сдался и выдал список материалов, оборудования и пошаговую инструкцию для домашнего производства. Имя модели NYT просит скрыть. Возглавляет команду 25-летний Зандер Дэвис — выпускник Гарварда, выбравший британское правительство вместо работы в Кремниевой долине.

AISI открыли в ноябре 2023 года в Блетчли-парке — там, где Алан Тьюринг ломал немецкий шифр "Энигма". В команде около 100 человек: эксперты по оружию, эпидемиологи и специалисты по криптографии из британской разведки, академии и тех же лабораторий, которые институт потом проверяет. Бюджет — 360 миллионов фунтов в год, приблизительно 480 миллионов долларов. Американский аналог при Министерстве торговли получит в этом году приблизительно 10 миллионов. Британия тратит на аудит ИИ в 48 раз больше. "Компании не должны проверять сами себя. Это работа демократических институтов", — говорит бывший премьер Риши Сунак, создавший институт.

Парадокс в том, что у AISI нет ни одного рычага давления. Регуляторных полномочий — нет, доступа к процессу обучения моделей — нет. Зарплатный потолок — 145 тысяч фунтов (приблизительно 195 тысяч долларов) против многомиллионных пакетов в OpenAI и Anthropic. Когда команда находит уязвимость, она передает итог компании и надеется, что та закроет дыру. В случае с GPT-5.5 OpenAI заявила, что закрыла дыру, но подтверждать это отказалась.

Вопреки это, британскую модель активно копируют: аналогичные институты создали Австралия, Канада, Китай, Франция, Индия, Япония и Сингапур, а администрация Дональда Трампа рассматривает похожие правила для США. Зачем все это нужно, объясняет одна деталь из отчета AISI: способность к кибератакам появляется в моделях не потому, что их учат хакерству, а как побочный эффект общих улучшений в кодинге и автономности. GPT-5.4 не справлялась с симуляцией 32-шаговой корпоративной атаки. GPT-5.5 проходит ее быстрее опытного хакера, которому обычно нужно 20 часов. "Что не дает мне спать — разница в скорости. Технология развивается быстрее, чем правительства успевают реагировать", — говорит технический директор института Джейд Леунг.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

1 час назад

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

Google отключил оператор inurl

2 часа назад

Google отключил оператор inurl

Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

3 часа назад

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

Microsoft выпустила версию PowerToys 0.100.0

5 часов назад

Microsoft выпустила версию PowerToys 0.100.0

Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения

Апдейт Telegram: форматирование ботов и Markdown-файлы

6 часов назад

Апдейт Telegram: форматирование ботов и Markdown-файлы

Telegram опубликовал крупное обновление с десятками новых функций, в том числе с поддержкой мессенджера на смарт-часах, в том числе с Wear OS, а также опциями для ботов, групп и встроенного браузера.