Тестирование показало, что AI Overviews от Google выдаёт миллионы ложных ответов в час

2 мин
Тестирование показало, что AI Overviews от Google выдаёт миллионы ложных ответов в час

Опция AI Overviews (ИИ-обзоры) в поисковой системе Google Search выдаёт миллионы ложных ответов в час, показало тестирование New York Times. Запущенный в 2024 году средство использует несколько компонентов, включая языковые модели Gemini.

NYT указывает, что ИИ-обзоры точны в 90% случаев. Газета провела анализ функции совместно со стартапом Oumi, который сам разрабатывает модели искусственного интеллекта. Организация использовала для проверки AI Overviews бенчмарк SimpleQA от OpenAI, а также собственные ИИ-инструменты. Тест производительности включает более 4 тыс. вопросов с проверяемыми ответами, чтобы оценить выдачу модели.

Oumi начала тестирование в прошлом году, когда актуальной моделью Google была Gemini 2.5. Тогда тест представил точность в 85%. Когда испытание провели после релиза Gemini 3, AI Overviews отвечала правильно на 91% вопросов. Если связать этот процент со всеми запросами в поисковике Google, то станет ясно, что ИИ-обзоры генерируют десятки миллионов неверных ответов ежедневно.

В одном из примеров у AI Overviews попросили назвать дату, когда дом музыканта Боба Марли стал музеем. Функция сослалась на три страницы, две из которых не содержали этой даты. На последней странице, из «Википедии», есть два противоречащие другу года, но инструмент выбрал неверный.

Пресс-секретарь Google Нед Адрианс заявил, что SimpleQA содержит неверную информацию. Часто модели оценивают на аналогичном тесте под названием SimpleQA Verified, который использует меньший набор вопросов, прошедших более тщательную проверку. В исследовании NYT и Oumi есть серьёзные недостатки, оно не отражает того, что люди ищут в Google на самом деле, подчеркнул Адрианс.

Издание Ars Technica указывает, что оценка новых ИИ-моделей больше напоминает искусство, чем науку — это представляет собой проблему. У каждой компании есть свой предпочтительный метод демонстрации возможностей модели, а недетерминированная природа генеративного ИИ способна затруднить проверку. Oumi использует ИИ-инструменты для оценки, а модели в их основе также могут галлюцинировать.

В дополнение к этого, AI Overviews — это не монолитная модель. Google сообщила, что использует «правильную схема» для каждого запроса. ИИ-обзоры выдавали бы наилучшие ответы, если бы постоянно использовали Gemini 3.1 Pro, но это медленно и затратно. Для быстрой загрузки информации на страницу поиска опция применяет более быстрые модели Gemini Flash.

Год назад кулинарные блогеры обвинили AI Overviews в снижении трафика на свои сайты. ИИ-обзоры генерировали бессмысленные рецепты и ремиксы реальных рецептов, сопровождая их сгенерированными изображениями блюд. В некоторых случаях ИИ-обзоры содержали ссылки на реальные рецепты, но сам ответ содержал множество неточностей.

Читают сейчас

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

1 час назад

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

Google отключил оператор inurl

2 часа назад

Google отключил оператор inurl

Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

3 часа назад

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

Microsoft выпустила версию PowerToys 0.100.0

5 часов назад

Microsoft выпустила версию PowerToys 0.100.0

Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения

Апдейт Telegram: форматирование ботов и Markdown-файлы

6 часов назад

Апдейт Telegram: форматирование ботов и Markdown-файлы

Telegram опубликовал крупное обновление с десятками новых функций, в том числе с поддержкой мессенджера на смарт-часах, в том числе с Wear OS, а также опциями для ботов, групп и встроенного браузера.