Свежий тест производительности DeepSWE: GPT-5.5 — 70%, Opus 4.7 — 54%

2 мин
Свежий тест производительности DeepSWE: GPT-5.5 — 70%, Opus 4.7 — 54%

Новый тест производительности DeepSWE представил, что GPT-5.5 решает 70% задач по разработке ПО, тогда как Claude Opus 4.7 — 54%. На SWE-Bench Pro картина была ровно обратной: там Opus 4.7 занимал первое место с 64%, а GPT-5.5 шёл следом с 59%.

DeepSWE — тест производительности от команды Datacurve. В отличие от SWE-Bench, все задачи в нём написаны с нуля: никаких адаптаций существующих PR и коммитов. Средняя задача требует написать 668 строк кода и затронуть 7 файлов — против 120 строк и 5 файлов в SWE-Bench Pro. Верификаторы тестируют поведение, а не реализацию, поэтому правильный ответ не привязан к конкретной структуре кода.

Разработчики также провели аудит самого SWE-Bench Pro. Судья на основе LLM не согласился с верификатором SWE-Bench Pro в 32% случаев — против 1.4% у DeepSWE. Часть расхождений объясняется неожиданным поведением Claude: в контейнере SWE-Bench Pro хранится полная история .git, и Claude Opus 4.7 извлекал готовое подход из git-истории около в 18% случаев, когда проходил задачу. GPT и Gemini такого поведения не демонстрировали.

По стоимости: GPT-5.5 обходится в $5.8 за задачу при результате 70 процентов, GPT-5.4 — $3.3 при 56%. Claude Opus 4.7 в таблицу затрат попал, но точная цифра не публикуется отдельно.

Корпус охватывает 113 задач из 91 репозитория на TypeScript, Go, Python, JavaScript и Rust. Java и C++ пока отсутствуют. Все модели запускались через один и тот же mini-swe-agent, без нативных инструментов вроде Claude Code или Codex CLI.

Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-агентов, плагины для IDE, делимся фактическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

Читают сейчас

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

43 минуты назад

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

Microsoft выпустила версию PowerToys 0.100.0

3 часа назад

Microsoft выпустила версию PowerToys 0.100.0

Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения

Апдейт Telegram: форматирование ботов и Markdown-файлы

3 часа назад

Апдейт Telegram: форматирование ботов и Markdown-файлы

Telegram опубликовал крупное обновление с десятками новых функций, в том числе с поддержкой мессенджера на смарт-часах, в том числе с Wear OS, а также опциями для ботов, групп и встроенного браузера.

Shutterstock станет «творческой платформой на основе ИИ»

4 часа назад

Shutterstock станет «творческой платформой на основе ИИ»

В Shutterstock анонсировали следующую ступень развития платформы, объединяющую библиотеку созданных людьми медиа с растущим набором инструментов на основе ИИ. Цель состоит в том, чтобы помочь пользова

Версия открытого редактора звука Audacity 3.7.8

7 часов назад

Версия открытого редактора звука Audacity 3.7.8

11 июня 2026 года состоялся выпуск открытого редактора звука Audacity 3.7.8, предоставляющего средства для редактирования звуковых файлов (Ogg Vorbis, FLAC, MP3 и WAV), записи и оцифровки звука, измен