80% токенов впустую: DeepSeek и GPT-OSS попались на «театральном мышлении»

2 мин
80% токенов впустую: DeepSeek и GPT-OSS попались на «театральном мышлении»

Исследователи из Goodfire AI и Гарварда обнаружили, что reasoning-модели вроде DeepSeek-R1 (671B) и GPT-OSS (120B) часто занимаются "театральным рассуждением" — модель уже уверена в ответе на 90%, но продолжает генерировать цепочку рассуждений (chain-of-thought), как будто еще думает. Простые зонды, обученные на внутренних активациях, считывают ответ модели задолго до того, как он появляется в тексте рассуждений.

Разработчики использовали три метода: attention-пробы на скрытых состояниях модели, принудительный обрыв рассуждения с требованием дать ответ и внешний CoT-монитор, читающий текст рассуждений. На простых вопросах из бенчмарка MMLU (главным образом задачи на знание) разрыв между пробами и монитором оказался огромным — модель "знала" ответ с первых шагов, но текстовые рассуждения выглядели так, словно подход еще впереди. На сложных вопросах из GPQA-Diamond (уровень аспирантуры по физике, химии и биологии) картина другая: уверенность модели росла постепенно вместе с текстом, и все три метода показывали похожую динамику. Здесь CoT действительно помогал — это было подлинное мышление.

Отдельный занимательный вывод касается точек перелома — моментов, когда модель пишет "подождите, я ошибся" или "практически...". Такие развороты появляются почти исключительно в ответах, где пробы фиксируют реальную неуверенность модели. Когда схема уверена с самого начала, подобных разворотов практически нет. Это значит, что backtracking и aha-моменты в рассуждениях — не показуха, а отражение реальных внутренних сомнений.

Из исследования вытекает и практическая польза: если зонд показывает, что модель уже уверена в ответе, генерацию можно просто остановить. На MMLU это экономит до 80% токенов при сохранении 97% точности, на GPQA-Diamond — 30% с тем же качеством. По сути, дешевый датчик поверх активаций сообщает "хватит думать" — и схема отвечает сразу. Стоит отметить, что DeepSeek-R1 (671B) и GPT-OSS (120B), на которых проводилось исследование, отстали от новых моделей на несколько поколений — не исключено, что ведущие авторы за это время приняли меры по сокращению ненужного расхода токенов.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Разработчик Amazon выявил регрессию в тестовом ядре Linux 7.0, в два раза снижающую эффективность PostgreSQL

10 минут назад

Разработчик Amazon выявил регрессию в тестовом ядре Linux 7.0, в два раза снижающую эффективность PostgreSQL

Разработчик из Amazon Сальваторе Дипьетро обнаружил регрессию при тестировании СУБД PostgreSQL и компонентов готовившегося к релизу ядра Linux 7.0. Выпуск новой версии ядра Linux, которая будет исполь

Экипаж лунной миссии «Артемида» II на космическом корабле «Орион» преодолел больше половины пути до Луны

1 час назад

Экипаж лунной миссии «Артемида» II на космическом корабле «Орион» преодолел больше половины пути до Луны

В НАСА сообщили, что экипаж лунной миссии «Артемида» II на космическом корабле «Орион» преодолел больше половины пути до Луны. В настоящий момент корабль находится приблизительно в 141 тыс. км от Луны

Представлен публике дистрибутив Netrunner 26 на Debian 13 «Trixie» и Linux 6.16

1 час назад

Представлен публике дистрибутив Netrunner 26 на Debian 13 «Trixie» и Linux 6.16

В начале апреля 2026 года разработчик проекта Nitrux Ури Эррера объявил о выпуске и общедоступности сборки Netrunner 26 (кодовое название Twilight), спустя более года после выхода Netrunner 25. Инициа

Версия библиотеки meshoptimizer 1.1

2 часа назад

Версия библиотеки meshoptimizer 1.1

2 апреля 2026 года разработчик Arseny Kapoulkine (zeux) представил обновление открытой библиотеки meshoptimizer 1.1. Исходный исходник проекта написан на C++ и JavaScript и опубликован на GitHub под л

Claude Code нашел 23-летний дефект в Linux

8 часов назад

Claude Code нашел 23-летний дефект в Linux

Николас Карлини, исследователь из Anthropic, рассказал на конференции [un]prompted 2026, что с помощью Claude Code обнаружил несколько удаленно эксплуатируемых уязвимостей в ядре Linux. Одна из них —