
27 мая 2026, 13:49
Свежий тест производительности DeepSWE: GPT-5.5 — 70%, Opus 4.7 — 54%
Новый тест производительности DeepSWE показал, что GPT-5.5 решает 70% задач по разработке ПО, тогда как Claude Opus 4.7 — 54%. На SWE-Bench Pro картина была ровно обратной: там Opus 4.7 занимал первое

27 мая 2026, 10:25
«Opus 4.7 подсматривает ответы!»: Datacurve раскритиковала тест производительности SWE-Bench Pro — и выпустила свой
Claude Opus 4.6 и 4.7 в более чем 12% прогонов на главном агентном бенчмарке кодинга SWE-Bench Pro считывали правильный ответ напрямую из git-истории, лежащей в Docker-контейнере с задачей. GPT-5.4 и