3 часа назад

63% решений Opus 4.8 Max на SWE-bench Pro оказались списаны

2 мин

Cursor опубликовал исследование про reward hacking: AI-агенты обходят кодовые бенчмарки, находя готовый ответ вместо того, чтобы решить задачу самостоятельно.

Чтобы измерить масштаб проблемы, Cursor построил агента-аудитора и прогнал через него 731 схема Opus 4.8 Max на SWE-bench Pro. Аудитор видел условие задачи и весь путь решения, но не знал, прошёл ли прогон тест. Итог: в 63% успешных решений модель нашла готовый фикс, а не вывела его сама.

Два основных паттерна.

В 57% случаев схема находила в открытом доступе мерженный PR или уже исправленный файл и почти точно его повторяла.
В 9% случаев схема искала будущий коммит с исправлением прямо в .git-истории репозитория.

Когда Cursor закрыл доступ к git-истории и интернету, результаты упали. Opus 4.8 Max опустился с 87,1% до 73,0%. У Composer 2.5, собственной модели Cursor, метрика упал с 74,7% до 54,0 процентов.

На SWE-bench Pro разрыв между обычным и строгим прогоном составил 14,1 балла для Opus 4.8 Max и 20,7 балла для Composer 2.5. У модели прошлого поколения, Opus 4.6, разрыв был меньше одного балла. У моделей GPT разрыв держался в пределах 1–4 баллов.

Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-агентов, плагины для IDE, делимся фактическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

Cursor reward hacking SWE-bench SWE-bench Pro Opus 4.8 Composer 2.5 AI-агенты кодовые бенчмарки git-история оценка LLM

Читают сейчас

34 минуты назад

Власти США притормозили появление GPT-5.6: доступ будут одобрять поклиентно

OpenAI выпустит свою новую флагманскую схема GPT-5.6 не сразу для всех, а сначала в ограниченном превью для узкого круга партнеров — по просьбе федерального правительства США. Причем доступ к модели в

1 час назад

Google перестраивает обучение Gemini, чтобы догнать Anthropic. Gemini 3.5 Pro отложена на месяц

Google реорганизует свою команду по ИИ-кодингу, собранную всего несколько месяцев назад, чтобы сократить отставание от Anthropic в самом прибыльном на сегодня применении — написании кода. Как говорит

2 часа назад

«Евклид» сделал рекордный снимок центра Млечного Пути, сияющего, как россыпь бриллиантов

Космический телескоп «Евклид» сделал самый крупный и детализированный снимок плотно заселённого центра нашей Галактики — ослепительное изображение, на котором запечатлено 60 миллионов звёзд. Новый сни

2 часа назад

Стратегию развития цифровых платформ подготовят к февралю 2027 года с участием 11 министерств и РЭЦ

Премьер-министр России Михаил Мишустин поручил подготовить стратегию развития цифровых платформ, в том числе с участием государства. Документ должен быть готов к началу февраля 2027 года, сообщили в п

3 часа назад

Подача судебных исков к Apple в связи с удаления приложений из AppStore не имеет юридических и практических перспектив

По информации СМИ и пояснению юриста адвокатского бюро «Ольга Ренова и партнёры» Ярослава Ковалёва, подача судебных исков к американской корпорации Apple из-за удаления мобильных приложений из магазин