Исследование: растёт число случаев, когда чат-боты с ИИ игнорируют пользовательские инструкции

2 мин
Исследование: растёт число случаев, когда чат-боты с ИИ игнорируют пользовательские инструкции

Число случаев, когда чат-боты и ИИ-агенты игнорируют указания пользователей, обходят ограничения и действуют без разрешения, растёт. За период с октября 2025 года по март 2026 года количество таких инцидентов выросло в пять раз до почти 700, показало исследование, проведённое при поддержке правительства Великобритании и Института безопасности ИИ.

Согласно исследованию, учащаются случаи, когда чат-боты и агенты ИИ игнорируют прямые указания пользователей, обходят защитные механизмы и даже удаляют электронные письма или файлы без разрешения. Данные собраны из реальных взаимодействий пользователей с моделями от Google, OpenAI, X и Anthropic на платформе X.

Ранее организация Irregular Labs провела лабораторные тесты, которые показали, что агенты ИИ самостоятельно обходят меры безопасности, подделывают учётные данные и применяют тактики кибератак без соответствующих команд. Новое исследование — начальный масштабный аналитика поведения ИИ в повседневных условиях, а не в контролируемой среде.  

Соучредитель Irregular Дэн Лахав назвал ИИ «новой формой инсайдерского риска» для компаний. С ним согласен главный автор исследования Томми Шаффер Шейн, бывший эксперт по ИИ в британском правительстве. Он предупреждает: сейчас ИИ-агенты — это «ненадёжные младшие работники», но через 6–12 месяцев они станут умнее и способнее, и их «непослушание» может причинить серьёзный ущерб в высокорисковых областях, таких как армия или критическая инфраструктура.

Конкретные примеры подтверждают тенденцию. Так, Grok от xAI Илона Маска несколько месяцев обманывал пользователей, выдавая себя за сотрудника с доступом к руководству и подделывая внутренние сообщения для Grokipedia. Исследователи призывают к международному мониторингу ИИ-моделей, особенно по мере их усложнения и интеграции в ключевые сектора.

Читают сейчас

Китайский разработчик роботов UBTech Robotics готов платить $18 млн в год главному учёному по робототехнике

52 минуты назад

Китайский разработчик роботов UBTech Robotics готов платить $18 млн в год главному учёному по робототехнике

Китайская компания-разработчик человекоподобных роботов UBTech Robotics ищет главного учёного по робототехнике, предлагая зарплату до $18 млн в год. Компания указывает, что эта должность будет определ

Claude смог запустить промышленный CPU Intel на обычной материнской плате — ИИ полностью переписал BIOS

59 минут назад

Claude смог запустить промышленный CPU Intel на обычной материнской плате — ИИ полностью переписал BIOS

Моддер с форума Overclock.net с помощью Claude целиком переписал BIOS материнской платы ASUS Z790 и загрузил Windows 11 на серверном 12-ядерном процессоре Intel Bartlett Lake Core 9 273PQE, который In

В OpenClaw за полтора месяца нашли шесть дыр в одном модуле. И это не конец

1 час назад

В OpenClaw за полтора месяца нашли шесть дыр в одном модуле. И это не конец

В подсистеме подключения устройств OpenClaw — ИИ-агента с 348 000 звезд на GitHub — за шесть недель обнаружили шесть уязвимостей класса CWE-863 (некорректная авторизация). Последняя, CVE-2026-33579 с

В Steam тестируют аналитика FPS на конкретном ПК до покупки игры пользователем

1 час назад

В Steam тестируют аналитика FPS на конкретном ПК до покупки игры пользователем

Valve тестирует в Steam средство для анализа FPS на конкретном ПК до покупки игры пользователем, сообщил датамайнер dex3108 на форуме ResetEra, обнаруживший строки кода этой функции. Сама организация

Microsoft вложит $10 млрд в японские ИИ-проекты

2 часа назад

Microsoft вложит $10 млрд в японские ИИ-проекты

До 2029 года Microsoft планирует инвестировать $10 млрд в инфраструктуру искусственного интеллекта и облачных вычислений Японии, пишет местное информационное агентство Kyodo News со ссылкой на вице-пр