Opus 4.7 vs Opus 4.6 на Veai Agent Benchmark

2 мин
Opus 4.7 vs Opus 4.6 на Veai Agent Benchmark

Anthropic выкатили новую версию — мы не стали ждать и прогнали внутренний тест производительности на боевых workflow: миграция, рефакторинг, тесты, документы.

Если коротко: свежий Opus 4.7 не просто обгоняет 4.6 - он доводит задачи до конца там, где старый сдавался.

Итоговый результат 0.77 против 0.56

Удобство работы 0.88 против 0.71

Качество работы с инструментами 0.88 против 0.73 - полная доминация по всем осям агентского качества, причём разница статистически значима (p=0.002 по итоговому качеству, p=0.005 по соблюдению регламента, p=0.008 по ощущению от взаимодействия).

Основной операционный разрыв — в завершённости. Старый Opus 4.6 заметно чаще оставлял задачу в непроверенном или сломанном состоянии; 4.7 же существенно чаще доводит работу до рабочего и подтверждённого результата. По экспертным разборам он чётче держит изменения в границах запроса, аккуратнее проходит обязательные остановки и проверки, лучше восстанавливается после сбоев — и в итоге воспринимается как более предсказуемый напарник.

Но есть и цена. Opus 4.7 иногда слишком доверяет собственной проверке: в нескольких важных эпизодах маскировал неуспешную сборку и ошибался в записи файлов. Opus 4.6 на этом фоне чаще корректно трактовал результаты сборки и тестов, но этого не хватило, чтобы перекрыть его более частые лишние правки и незавершённые откаты. Плюс 4.7 при сопоставимом времени заметно дороже по объёму генерации.

В Veai пользователь платит за минуту чистого времени работы модели, цена для вас не меняется. Для того, чтобы попробовать Opus 4.7 или много других передовых моделей достаточно инсталлировать плагин и выбрать интересующую схема из выпадающего списка.

Читают сейчас

Авторы Telega: заказчик Telega не превращает iPhone в «кирпич» после обновления до iOS 26.4.1

1 час назад

Авторы Telega: заказчик Telega не превращает iPhone в «кирпич» после обновления до iOS 26.4.1

Разработчики Telega заявили, что их альтернативный клиент Telegram не превращает iPhone в «кирпич» после обновления до iOS 26.4.1. В команде проекта пояснили. что проблемы в связи с обновления не связ

Инициатива World Альтмана интегрирует технологию верификации в приложения для знакомств

1 час назад

Инициатива World Альтмана интегрирует технологию верификации в приложения для знакомств

Инициатива Сэма Альтмана по верификации пользователей World заключает партнёрство с Tinder, чтобы интегрировать свою технологию верификации в программа для знакомств. Аналогичные технологии планируетс

Альтман покинет OpenAI перед IPO? Его сделки слишком часто обогащают не OpenAI, а его самого

1 час назад

Альтман покинет OpenAI перед IPO? Его сделки слишком часто обогащают не OpenAI, а его самого

The Wall Street Journal опубликовала расследование о личных инвестициях CEO OpenAI Сэма Альтмана. Часть акционеров компании стартовали приватно обсуждать, стоит ли именно ему вести OpenAI на IPO с цел

В Duolingo прекратили отслеживать использование сотрудниками ИИ при оценке эффективности

2 часа назад

В Duolingo прекратили отслеживать использование сотрудниками ИИ при оценке эффективности

В апреле 2025 года генеральный директор Duolingo Луис фон Ан объявил, что система будет отслеживать использование ИИ сотрудниками в процессе оценки их работы. Теперь топ-менеджер заявил, что этот пока

Исследование: для разблокировки по лицу на Android-смартфонах можно применять фото

3 часа назад

Исследование: для разблокировки по лицу на Android-смартфонах можно применять фото

Тесты в лабораториях Which выявили, что функцию блокировки по лицу во многих современных смартфонах можно обойти, используя лишь фотографию владельца. Читать далее