Claude Opus 4.7 достигла 1-го места на Artificial Analysis

2 мин
Claude Opus 4.7 достигла 1-го места на Artificial Analysis

Artificial Analysis опубликовала результаты тестирования Claude Opus 4.7. В соответствии с отчёту, новая нейросеть разделила первое место в Индексе искусственного интеллекта (Artificial Analysis Intelligence Index) с GPT-5.4 (OpenAI) и Gemini 3.1 Pro (Google), набрав 57,3 балла против 57,2 и 56,8. С учётом погрешности в ±1 балл эксперты заявляют о трёхсторонней ничьей – впервые в истории платформы.

Главная гордость Opus 4.7 – бенчмарк GDPval-AA, который измеряет способность модели выполнять реальную работу агента в 44 профессиях и 9 отраслях. Здесь Claude Opus 4.7 набрала 1 753 Эло, оставив позади Claude Sonnet 4.6 (1674) и GPT-5.4 (1673). Отрыв от собственной предшественницы Opus 4.6 (1619) составил 134 пункта.

В дополнение к этого, Opus 4.7 заняла второе место в индексе Omniscience от Artificial Analysis – сразу после Gemini 3.1 Pro. И это достижение обеспечено резким снижением галлюцинаций на 25 пп. – с 61% у Opus 4.6 до 36%. Схема стала чаще воздерживаться от ответа, если не уверена: процент попыток ответить упал с 82% до 70%. Точность при этом осталась на том же уровне.

Ещё один сюрприз – экономичность. Прогон полного набора тестов Intelligence Index для Opus 4.7 обошёлся приблизительно в 4406 $, что на 11% дешевле, чем для Opus 4.6 (приблизительно 4970 $). Одновременно схема набрала на 4 балла выше и использовала на 35% меньше выходных токенов – 102M против 157M. Для сравнения: GPT-5.4 (xhigh) потратила 121M токенов, а Gemini 3.1 Pro – всего 57M.

По остальным бенчмаркам динамика главным образом положительная: прирост в IFBench (+5,5 пп.), TerminalBench Hard (+5,3 пп.), HLE (+2,9 пп.), SciCode (+2,6 пп.) и GPQA Diamond (+1,8 пп.). Единственное заметное падение – в тесте τ²-Bench (−3,5 пп.).

Что нового в программный интерфейс наряду с Opus 4.7

Anthropic внесла некоторое количество изменений:

  • Свежий уровень размышлений xhigh – между high и max. Теперь доступны low, medium, high, xhigh и max.

  • Бюджет для задач (публичная бета) – модель получает ориентировочный бюджет токенов на весь агентный цикл (мышление, вызовы инструментов, результаты, вывод). Opus 4.7 видит обратный отсчёт и может приоритизировать работу, завершая задачи “грациозно”.

  • Полное удаление extended thinking – остался только режим adaptive reasoning.

Характеристики модели не изменились: контекстное окно 1M токенов, максимум вывода 128K токенов.

Сравнить Opus 4.7 с другими лидерами можно на официальной странице Artificial Analysis.

Читают сейчас

Авторы Telega: заказчик Telega не превращает iPhone в «кирпич» после обновления до iOS 26.4.1

46 минут назад

Авторы Telega: заказчик Telega не превращает iPhone в «кирпич» после обновления до iOS 26.4.1

Разработчики Telega заявили, что их альтернативный клиент Telegram не превращает iPhone в «кирпич» после обновления до iOS 26.4.1. В команде проекта пояснили. что проблемы в связи с обновления не связ

Инициатива World Альтмана интегрирует технологию верификации в приложения для знакомств

53 минуты назад

Инициатива World Альтмана интегрирует технологию верификации в приложения для знакомств

Инициатива Сэма Альтмана по верификации пользователей World заключает партнёрство с Tinder, чтобы интегрировать свою технологию верификации в программа для знакомств. Аналогичные технологии планируетс

Альтман покинет OpenAI перед IPO? Его сделки слишком часто обогащают не OpenAI, а его самого

56 минут назад

Альтман покинет OpenAI перед IPO? Его сделки слишком часто обогащают не OpenAI, а его самого

The Wall Street Journal опубликовала расследование о личных инвестициях CEO OpenAI Сэма Альтмана. Часть акционеров компании стартовали приватно обсуждать, стоит ли именно ему вести OpenAI на IPO с цел

В Duolingo прекратили отслеживать использование сотрудниками ИИ при оценке эффективности

1 час назад

В Duolingo прекратили отслеживать использование сотрудниками ИИ при оценке эффективности

В апреле 2025 года генеральный директор Duolingo Луис фон Ан объявил, что система будет отслеживать использование ИИ сотрудниками в процессе оценки их работы. Теперь топ-менеджер заявил, что этот пока

Исследование: для разблокировки по лицу на Android-смартфонах можно применять фото

2 часа назад

Исследование: для разблокировки по лицу на Android-смартфонах можно применять фото

Тесты в лабораториях Which выявили, что функцию блокировки по лицу во многих современных смартфонах можно обойти, используя лишь фотографию владельца. Читать далее