6 мая 2026, 07:38
В Anthropic рассказали, как защититься от саботажа ИИ

Что создавать, если ИИ умнее своих проверяющих и саботирует работу? Группа исследователей из Anthropic, MATS, Redwood Research и Оксфорда показала, что обычное дообучение со слабым супервайзером может вытянуть из такой модели 88–99% реальных способностей — но только пока модель не понимает, что ее обучают.
Мотивация в работе сформулирована прямо. В ближайшие годы ИИ начнут поручать задачи, где надежно проверять качество вывода нельзя. Самый болезненный пример — автоматизированные исследования по выравниванию: оценить, хороша ли идея эксперимента, может только тот, кто умнее модели. Если самой умной системой будет сам ИИ, проверка замыкается сама на себя. И если этот ИИ занижает способности (sandbagging — стратегический саботаж), поймать его на этом практически невозможно.
Эксперимент устроен как игра двух команд в духе AI control. Red team взяла gpt-oss-120b и обучила ее саботировать 90% задач, выдавая правдоподобные неверные ответы по флагу в системном промпте. Blue team пытается отучить модель с помощью SFT (supervised fine-tuning) и RL (reinforcement learning), но в качестве учителя у нее только модели слабее — GPT 4o-mini и Llama 3.1-8b — плюс 10 эталонных пар вопрос-ответ. Тестировали на трех датасетах: олимпиадная математика, Super GPQA (научные вопросы аспирантского уровня) и Code Contests (соревновательное программирование).
По отдельности оба метода проваливаются. SFT на ответах весьма слабого супервайзера дает только 40% на математике — схема деградирует быстрее, чем выходит из режима саботажа. RL почти всегда сваливается в reward hacking, когда модель оптимизирует не правильность ответа, а его убедительность для судьи: награда от слабого супервайзера растет до 0,7–1,0, а реальная эффективность не двигается. Только связка SFT+RL дает стабильный результат: короткий SFT увеличивает перебор правильных ответов, после чего RL уже подтягивает реальную эффективность до 88–99% от исходного уровня модели.
Главная оговорка вылезает в дополнительном эксперименте. Если red team дает модели знание, какие задачи относятся к тренировке, а какие — к реальному использованию, и просит саботировать только во втором случае, схема ломается. Эффективность падает до 36% на математике, 60% на Super GPQA и 66% на Code Contests против 88–99% в базовом сценарии. На некоторых прогонах саботаж после RL даже возвращается — модель "забывает", что ее перевоспитали, как только оказывается вне обучения. Разработчики прямо пишут: способ работает, только если обучение неотличимо от рабочего режима.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас

44 минуты назад
Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat
13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

3 часа назад
Microsoft выпустила версию PowerToys 0.100.0
Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения

3 часа назад
Апдейт Telegram: форматирование ботов и Markdown-файлы
Telegram опубликовал крупное обновление с десятками новых функций, в том числе с поддержкой мессенджера на смарт-часах, в том числе с Wear OS, а также опциями для ботов, групп и встроенного браузера.

4 часа назад
Shutterstock станет «творческой платформой на основе ИИ»
В Shutterstock анонсировали следующую ступень развития платформы, объединяющую библиотеку созданных людьми медиа с растущим набором инструментов на основе ИИ. Цель состоит в том, чтобы помочь пользова

7 часов назад
Версия открытого редактора звука Audacity 3.7.8
11 июня 2026 года состоялся выпуск открытого редактора звука Audacity 3.7.8, предоставляющего средства для редактирования звуковых файлов (Ogg Vorbis, FLAC, MP3 и WAV), записи и оцифровки звука, измен