24 апреля 2026, 00:45

GPT-5.5 возглавила рейтинг сильнейших ИИ с тревожной оговоркой

2 мин

Artificial Analysis поставила GPT-5.5 на первое место в своем Intelligence Index. По оценке компании, новая модель OpenAI обошла ближайших конкурентов на 3 пункта и прервала ничью между OpenAI, Anthropic и Google. Artificial Analysis получила предварительный доступ к модели и протестировала все пять уровней рассуждения: xhigh, high, medium, low и non-reasoning.

Но в результатах есть важная оговорка. На AA-Omniscience, бенчмарке на знание фактов и склонность к галлюцинациям, GPT-5.5 xhigh показала лучший результат по точности — 57% правильных ответов на предельно сложные вопросы. Однако hallucination rate у нее составил тревожные 86% — против 36% у Claude Opus 4.7 max и 50% у Gemini 3.1 Pro Preview.

Это не значит, что GPT-5.5 галлюцинирует в 86% всех ответов. В методологии Artificial Analysis hallucination rate — это доля неправильных ответов среди всех случаев, где модель не дала полностью правильный ответ: ошиблась, ответила отчасти или отказалась. Проще говоря, показатель демонстрирует, как часто модель выбирает уверенный неверный ответ вместо того, чтобы признать незнание.

AA-Omniscience устроен именно вокруг этой проблемы. В тесте 6000 вопросов по 42 темам из шести областей: бизнес, гуманитарные и социальные науки, здоровье, право, программная инженерия, наука, техника и математика. Модели отвечают без поиска и внешних инструментов, а оценка поощряет правильные ответы, штрафует неверные и не наказывает за отказ, если схема не уверена.

Сама OpenAI пишет в System Card организация пишет, что GPT-5.5 стала практически точнее GPT-5.4 на выборке разговоров ChatGPT, которые пользователи ранее отмечали как содержащие практические ошибки: отдельные утверждения были на 23% чаще корректными, а ответы на 3% реже содержали фактическую ошибку. Но компания уточняет, что это не репрезентативный срез всего трафика, а специально сложные для фактологичности случаи.

Получается парадоксальная картина: GPT-5.5 выглядит сильнейшей универсальной моделью по независимому рейтингу и действительно знает больше конкурентов в AA-Omniscience, но хуже калибрует собственную уверенность. Для задач вроде фактчекинга, ресерча, юридических и медицинских справок это может быть не менее важно, чем совокупный балл в рейтинге: убедительный ответ сильной модели все равно нужно проверять, особенно если она работает без источников и внешних инструментов.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

GPT-5.5 Codex ChatGPT

Читают сейчас

40 минут назад

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

1 час назад

Google отключил оператор inurl

Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

2 часа назад

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

4 часа назад

Microsoft выпустила версию PowerToys 0.100.0

Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения

5 часов назад

Апдейт Telegram: форматирование ботов и Markdown-файлы

Telegram опубликовал крупное обновление с десятками новых функций, в том числе с поддержкой мессенджера на смарт-часах, в том числе с Wear OS, а также опциями для ботов, групп и встроенного браузера.