8 марта 2026, 13:00
“Разлитая энергия”: Физики нашли у галлюцинаций нейросетей энергетический след

Галлюцинация возникает, когда ИИ-модель выдаёт практически неверный, выдуманный или противоречивый контент. В работе, представленной на ICLR 2026, исследовательская группа из Римского университета Сапиенца предлагает необычный способ ловить именно такие сбои: они рассматривают финальный вычислительный слой LLM – слой softmax – под новым углом.
Этот слой превращает сырые числовые значения модели в вероятности следующего слова. Учёные интерпретируют его как энергетическую схема – вероятностную схему, вдохновлённую физикой, где низкие значения энергии соответствуют высоким вероятностям.
Авторегрессионные языковые модели предсказывают слова по одному. На каждом шаге платформа оценивает, насколько вероятно каждое возможное следующее слово. С математической точки зрения некоторые энергетические величины между соседними шагами предсказания должны совпадать – ведь речь идёт об одной и той же величине, просто рассмотренной с двух разных сторон.
Тем не менее на практике, согласно публикациям исследователи, этого не происходит. Возникающий разрыв они называют “пролитой энергией” (spilled energy). В соответствии с статье, этот метрика тесно связан с ошибками – когда LLM галлюцинирует, значение spilled energy оказывается значительно выше, чем при корректных ответах.

В предыдущих подходах обычно обучали небольшие модели-классификаторы на внутренних состояниях LLM, чтобы определить, корректен ли ответ. Однако, по словам исследователей, критически важно измерять показатели только для самих токенов ответа. Если, например, схема спрашивают о столице Италии, имеет значение только слово “Rome” или “Sydney”, а не окружающее предложение. Такая локализация повышает точность обнаружения ошибок до 24%.
“Пролитая энергия” превосходит обученные классификаторы на девяти бенчмарках
Команда протестировала метод на девяти известных бенчмарках, включая TriviaQA, HotpotQA, IMDB и Math, а равным образом на синтетических вычислительных задачах с 13-значными числами. Были проверены модели Llama-3 8B⚹, Mistral-7B, Gemma (1B и 4B) и Qwen3-8B – причём как в базовых версиях, так и в вариантах, дополнительно обученных следовать инструкциям.
Точность обнаружения исследователи оценивали с помощью метрики AuROC, которая демонстрирует, насколько хорошо способ различает правильные и неправильные ответы. Значение в 50% соответствует случайному угадыванию, а 100% означало бы идеальное распознавание ошибок. Spilled energy обошёл как простые оценки уверенности модели в ответе, так и обученные детекторы ошибок.

На модели Mistral-Instruct показатель spilled energy достиг в среднем 77,49%, тогда как обученные классификаторы показали 65,56%, а простая логит-уверенность – 63,44%. Если же просто спросить схема, правильный ли её собственный ответ, результат оказывается около 55%, то есть лишь немного выше случайного угадывания.
Преимущество метода особенно заметно при переносе на новые типы задач. Обученные классификаторы, применённые к незнакомым наборам данных, быстро деградировали почти до случайного уровня. Spilled energy, напротив, демонстрировал стабильные результаты без какого-либо дополнительного обучения.
Инструкционный файнтюнинг, то есть конфигурация модели на выполнение человеческих инструкций, неожиданно ухудшало методы обнаружения галлюцинаций, основанные на уверенности модели – вероятно, потому, что такие модели становятся чрезмерно самоуверенными. А вот spilled energy от того же процесса, напротив, выигрывал. У Llama-3⚹ показатель обнаружения вырос с 68,69% до 73,16%, а у Mistral – с 73,94% до 77,49%. Эксперименты с Gemma подтвердили, что подход работает на моделях разных размеров – как с 1 млрд, так и с 4 млрд параметров.
Знаки препинания и начало предложений всё ещё могут вызывать ложные тревоги
Исследователи признают и некоторые ограничения. Иногда spilled energy выдаёт ложные сигналы на токенах, не несущих смысловой нагрузки, – например, на знаках препинания или на словах в начале предложений. В этих точках вероятность естественным образом распределяется между множеством возможных продолжений, в связи с чего значения энергии увеличиваются. Поэтому корректное определение именно тех токенов, которые составляют ответ, становится критически важным.
Сам по себе метод spilled energy неспособен предотвратить галлюцинации. Тем не менее, по словам исследователей, он даёт математически обоснованный средство, позволяющий выявлять их прямо в процессе генерации текста. Исходный исходник доступен на GitHub.
⚹ Llama – инициатива компании Meta Platforms Inc., деятельность которой запрещена на территории Российской Федерации.
Читают сейчас

9 минут назад
Разработчик Amazon выявил регрессию в тестовом ядре Linux 7.0, в два раза снижающую эффективность PostgreSQL
Разработчик из Amazon Сальваторе Дипьетро обнаружил регрессию при тестировании СУБД PostgreSQL и компонентов готовившегося к релизу ядра Linux 7.0. Выпуск новой версии ядра Linux, которая будет исполь

1 час назад
Экипаж лунной миссии «Артемида» II на космическом корабле «Орион» преодолел больше половины пути до Луны
В НАСА сообщили, что экипаж лунной миссии «Артемида» II на космическом корабле «Орион» преодолел больше половины пути до Луны. В настоящий момент корабль находится приблизительно в 141 тыс. км от Луны

1 час назад
Представлен публике дистрибутив Netrunner 26 на Debian 13 «Trixie» и Linux 6.16
В начале апреля 2026 года разработчик проекта Nitrux Ури Эррера объявил о выпуске и общедоступности сборки Netrunner 26 (кодовое название Twilight), спустя более года после выхода Netrunner 25. Инициа

2 часа назад
Версия библиотеки meshoptimizer 1.1
2 апреля 2026 года разработчик Arseny Kapoulkine (zeux) представил обновление открытой библиотеки meshoptimizer 1.1. Исходный исходник проекта написан на C++ и JavaScript и опубликован на GitHub под л

8 часов назад
Claude Code нашел 23-летний дефект в Linux
Николас Карлини, исследователь из Anthropic, рассказал на конференции [un]prompted 2026, что с помощью Claude Code обнаружил несколько удаленно эксплуатируемых уязвимостей в ядре Linux. Одна из них —