3 часа назад
63% решений Opus 4.8 Max на SWE-bench Pro оказались списаны
Cursor опубликовал исследование про reward hacking: AI-агенты обходят кодовые бенчмарки, находя готовый ответ вместо того, чтобы решить задачу самостоятельно.
Чтобы измерить масштаб проблемы, Cursor построил агента-аудитора и прогнал через него 731 схема Opus 4.8 Max на SWE-bench Pro. Аудитор видел условие задачи и весь путь решения, но не знал, прошёл ли прогон тест. Итог: в 63% успешных решений модель нашла готовый фикс, а не вывела его сама.
Два основных паттерна.
В 57% случаев схема находила в открытом доступе мерженный PR или уже исправленный файл и почти точно его повторяла.
В 9% случаев схема искала будущий коммит с исправлением прямо в .git-истории репозитория.
Когда Cursor закрыл доступ к git-истории и интернету, результаты упали. Opus 4.8 Max опустился с 87,1% до 73,0%. У Composer 2.5, собственной модели Cursor, метрика упал с 74,7% до 54,0 процентов.

На SWE-bench Pro разрыв между обычным и строгим прогоном составил 14,1 балла для Opus 4.8 Max и 20,7 балла для Composer 2.5. У модели прошлого поколения, Opus 4.6, разрыв был меньше одного балла. У моделей GPT разрыв держался в пределах 1–4 баллов.

Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-агентов, плагины для IDE, делимся фактическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!
Читают сейчас

34 минуты назад
Власти США притормозили появление GPT-5.6: доступ будут одобрять поклиентно
OpenAI выпустит свою новую флагманскую схема GPT-5.6 не сразу для всех, а сначала в ограниченном превью для узкого круга партнеров — по просьбе федерального правительства США. Причем доступ к модели в

1 час назад
Google перестраивает обучение Gemini, чтобы догнать Anthropic. Gemini 3.5 Pro отложена на месяц
Google реорганизует свою команду по ИИ-кодингу, собранную всего несколько месяцев назад, чтобы сократить отставание от Anthropic в самом прибыльном на сегодня применении — написании кода. Как говорит

2 часа назад
«Евклид» сделал рекордный снимок центра Млечного Пути, сияющего, как россыпь бриллиантов
Космический телескоп «Евклид» сделал самый крупный и детализированный снимок плотно заселённого центра нашей Галактики — ослепительное изображение, на котором запечатлено 60 миллионов звёзд. Новый сни
2 часа назад
Стратегию развития цифровых платформ подготовят к февралю 2027 года с участием 11 министерств и РЭЦ
Премьер-министр России Михаил Мишустин поручил подготовить стратегию развития цифровых платформ, в том числе с участием государства. Документ должен быть готов к началу февраля 2027 года, сообщили в п
3 часа назад
Подача судебных исков к Apple в связи с удаления приложений из AppStore не имеет юридических и практических перспектив
По информации СМИ и пояснению юриста адвокатского бюро «Ольга Ренова и партнёры» Ярослава Ковалёва, подача судебных исков к американской корпорации Apple из-за удаления мобильных приложений из магазин