“Разлитая энергия”: Физики нашли у галлюцинаций нейросетей энергетический след

4 мин
“Разлитая энергия”: Физики нашли у галлюцинаций нейросетей энергетический след

Галлюцинация возникает, когда ИИ-модель выдаёт практически неверный, выдуманный или противоречивый контент. В работе, представленной на ICLR 2026, исследовательская группа из Римского университета Сапиенца предлагает необычный способ ловить именно такие сбои: они рассматривают финальный вычислительный слой LLM – слой softmax – под новым углом.

Этот слой превращает сырые числовые значения модели в вероятности следующего слова. Учёные интерпретируют его как энергетическую схема – вероятностную схему, вдохновлённую физикой, где низкие значения энергии соответствуют высоким вероятностям.

Авторегрессионные языковые модели предсказывают слова по одному. На каждом шаге платформа оценивает, насколько вероятно каждое возможное следующее слово. С математической точки зрения некоторые энергетические величины между соседними шагами предсказания должны совпадать – ведь речь идёт об одной и той же величине, просто рассмотренной с двух разных сторон.

Тем не менее на практике, согласно публикациям исследователи, этого не происходит. Возникающий разрыв они называют “пролитой энергией” (spilled energy). В соответствии с статье, этот метрика тесно связан с ошибками – когда LLM галлюцинирует, значение spilled energy оказывается значительно выше, чем при корректных ответах.

“Пролитая энергия” надёжнее выявляет ошибочные токены ответа “Sydney” и “470”, чем традиционный метод логит-уверенности. Слова, подсвеченные зелёным, считаются достоверными; красные помечены как подозрительные
“Пролитая энергия” надёжнее выявляет ошибочные токены ответа “Sydney” и “470”, чем традиционный способ логит-уверенности. Слова, подсвеченные зелёным, считаются достоверными; красные помечены как подозрительные

В предыдущих подходах обычно обучали небольшие модели-классификаторы на внутренних состояниях LLM, чтобы определить, корректен ли ответ. Однако, по словам исследователей, критически важно измерять показатели только для самих токенов ответа. Если, например, схема спрашивают о столице Италии, имеет значение только слово “Rome” или “Sydney”, а не окружающее предложение. Такая локализация повышает точность обнаружения ошибок до 24%.

“Пролитая энергия” превосходит обученные классификаторы на девяти бенчмарках

Команда протестировала метод на девяти известных бенчмарках, включая TriviaQA, HotpotQA, IMDB и Math, а равным образом на синтетических вычислительных задачах с 13-значными числами. Были проверены модели Llama-3 8B⚹, Mistral-7B, Gemma (1B и 4B) и Qwen3-8B – причём как в базовых версиях, так и в вариантах, дополнительно обученных следовать инструкциям.

Точность обнаружения исследователи оценивали с помощью метрики AuROC, которая демонстрирует, насколько хорошо способ различает правильные и неправильные ответы. Значение в 50% соответствует случайному угадыванию, а 100% означало бы идеальное распознавание ошибок. Spilled energy обошёл как простые оценки уверенности модели в ответе, так и обученные детекторы ошибок.

Гистограммы показывают распределение значений spilled energy для правильных (зелёных) и неправильных (оранжевых) ответов. Чем шире разрыв между цветами, тем лучше метод выявляет ошибки. Даже при минимальных отклонениях в ответах (сложный режим) распределения остаются отчётливо разделёнными
Гистограммы показывают распределение значений spilled energy для правильных (зелёных) и неправильных (оранжевых) ответов. Чем шире разрыв между цветами, тем лучше метод выявляет ошибки. Даже при минимальных отклонениях в ответах (запутанный режим) распределения остаются отчётливо разделёнными

На модели Mistral-Instruct показатель spilled energy достиг в среднем 77,49%, тогда как обученные классификаторы показали 65,56%, а простая логит-уверенность – 63,44%. Если же просто спросить схема, правильный ли её собственный ответ, результат оказывается около 55%, то есть лишь немного выше случайного угадывания.

Преимущество метода особенно заметно при переносе на новые типы задач. Обученные классификаторы, применённые к незнакомым наборам данных, быстро деградировали почти до случайного уровня. Spilled energy, напротив, демонстрировал стабильные результаты без какого-либо дополнительного обучения.

Инструкционный файнтюнинг, то есть конфигурация модели на выполнение человеческих инструкций, неожиданно ухудшало методы обнаружения галлюцинаций, основанные на уверенности модели – вероятно, потому, что такие модели становятся чрезмерно самоуверенными. А вот spilled energy от того же процесса, напротив, выигрывал. У Llama-3⚹ показатель обнаружения вырос с 68,69% до 73,16%, а у Mistral – с 73,94% до 77,49%. Эксперименты с Gemma подтвердили, что подход работает на моделях разных размеров – как с 1 млрд, так и с 4 млрд параметров.

Знаки препинания и начало предложений всё ещё могут вызывать ложные тревоги

Исследователи признают и некоторые ограничения. Иногда spilled energy выдаёт ложные сигналы на токенах, не несущих смысловой нагрузки, – например, на знаках препинания или на словах в начале предложений. В этих точках вероятность естественным образом распределяется между множеством возможных продолжений, в связи с чего значения энергии увеличиваются. Поэтому корректное определение именно тех токенов, которые составляют ответ, становится критически важным.

Сам по себе метод spilled energy неспособен предотвратить галлюцинации. Тем не менее, по словам исследователей, он даёт математически обоснованный средство, позволяющий выявлять их прямо в процессе генерации текста. Исходный исходник доступен на GitHub.

Llama – инициатива компании Meta Platforms Inc., деятельность которой запрещена на территории Российской Федерации.

Читают сейчас

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

1 час назад

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

Google отключил оператор inurl

2 часа назад

Google отключил оператор inurl

Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

3 часа назад

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

Microsoft выпустила версию PowerToys 0.100.0

5 часов назад

Microsoft выпустила версию PowerToys 0.100.0

Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения

Апдейт Telegram: форматирование ботов и Markdown-файлы

6 часов назад

Апдейт Telegram: форматирование ботов и Markdown-файлы

Telegram опубликовал крупное обновление с десятками новых функций, в том числе с поддержкой мессенджера на смарт-часах, в том числе с Wear OS, а также опциями для ботов, групп и встроенного браузера.