18 апреля 2026, 13:36

Claude Opus 4.7 достигла 1-го места на Artificial Analysis

2 мин

Artificial Analysis опубликовала результаты тестирования Claude Opus 4.7. В соответствии с отчёту, новая нейросеть разделила первое место в Индексе искусственного интеллекта (Artificial Analysis Intelligence Index) с GPT-5.4 (OpenAI) и Gemini 3.1 Pro (Google), набрав 57,3 балла против 57,2 и 56,8. С учётом погрешности в ±1 балл эксперты заявляют о трёхсторонней ничьей – впервые в истории платформы.

Главная гордость Opus 4.7 – бенчмарк GDPval-AA, который измеряет способность модели выполнять реальную работу агента в 44 профессиях и 9 отраслях. Здесь Claude Opus 4.7 набрала 1 753 Эло, оставив позади Claude Sonnet 4.6 (1674) и GPT-5.4 (1673). Отрыв от собственной предшественницы Opus 4.6 (1619) составил 134 пункта.

В дополнение к этого, Opus 4.7 заняла второе место в индексе Omniscience от Artificial Analysis – сразу после Gemini 3.1 Pro. И это достижение обеспечено резким снижением галлюцинаций на 25 пп. – с 61% у Opus 4.6 до 36%. Схема стала чаще воздерживаться от ответа, если не уверена: процент попыток ответить упал с 82% до 70%. Точность при этом осталась на том же уровне.

Ещё один сюрприз – экономичность. Прогон полного набора тестов Intelligence Index для Opus 4.7 обошёлся приблизительно в 4406 $, что на 11% дешевле, чем для Opus 4.6 (приблизительно 4970 $). Одновременно схема набрала на 4 балла выше и использовала на 35% меньше выходных токенов – 102M против 157M. Для сравнения: GPT-5.4 (xhigh) потратила 121M токенов, а Gemini 3.1 Pro – всего 57M.

По остальным бенчмаркам динамика главным образом положительная: прирост в IFBench (+5,5 пп.), TerminalBench Hard (+5,3 пп.), HLE (+2,9 пп.), SciCode (+2,6 пп.) и GPQA Diamond (+1,8 пп.). Единственное заметное падение – в тесте τ²-Bench (−3,5 пп.).

Что нового в программный интерфейс наряду с Opus 4.7

Anthropic внесла некоторое количество изменений:

Свежий уровень размышлений xhigh – между high и max. Теперь доступны low, medium, high, xhigh и max.
Бюджет для задач (публичная бета) – модель получает ориентировочный бюджет токенов на весь агентный цикл (мышление, вызовы инструментов, результаты, вывод). Opus 4.7 видит обратный отсчёт и может приоритизировать работу, завершая задачи “грациозно”.
Полное удаление extended thinking – остался только режим adaptive reasoning.

Характеристики модели не изменились: контекстное окно 1M токенов, максимум вывода 128K токенов.

Сравнить Opus 4.7 с другими лидерами можно на официальной странице Artificial Analysis.

artificial analysis claude opus 4.7 chatgpt 5.4 gemini 3.1 pro

Читают сейчас

3 часа назад

Глава Microsoft объяснил, почему ИИ не обесценит людей

Гендиректор Microsoft Сатья Наделла опубликовал в X программную статью о будущем компаний в экономике, которой управляет ИИ. Его основной вывод звучит так: чем мощнее становится искусственный интеллек

5 часов назад

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

5 часов назад

Google отключил оператор inurl

Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

6 часов назад

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

9 часов назад

Microsoft выпустила версию PowerToys 0.100.0

Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения