ОpenAI призвала отказаться от использования SWE-bench Verified для оценки моделей

1 мин
ОpenAI призвала отказаться от использования SWE-bench Verified для оценки моделей

OpenAI рекомендовала разработчикам больше не использовать тест производительности SWE-bench Verified для проверки способностей ИИ-моделей к программированию. Этот набор задач был создан самой компанией в 2024 году и быстро стал одним из ключевых стандартов для сравнения coding-моделей.

Со временем выяснилось, что значительная часть заданий и способов их решения уже присутствовала в обучающих данных современных моделей. В результате оценки начали искажаться, поскольку системы могли воспроизводить знакомые паттерны вместо реального решения новых задач. Дополнительной проблемой стало качество самого датасета: по данным OpenAI, более половины задач содержат неточности или некорректные условия.

В компании отмечают, что подобная ситуация типична для популярных бенчмарков. Как только тест становится индустриальным стандартом, он неизбежно попадает в обучающие выборки и перестает отражать реальные возможности моделей.

В качестве альтернативы OpenAI предлагает использовать SWE-Bench Pro. Новый тест производительности создавался с учетом утечек данных и должен лучше проверять способность моделей функционировать с незнакомыми репозиториями и реальными инженерными задачами.

Читают сейчас

Организация «Решетнёв» освоила производство гибких печатных кабелей для спутников

17 минут назад

Организация «Решетнёв» освоила производство гибких печатных кабелей для спутников

Компания «Решетнёв» (входит в госкорпорацию «Роскосмос») создаёт гаджет с гибкими печатными кабелями собственного производства для спутника‑ретранслятора «Луч-5ВМ». В рамках проекта «Луч-5ВМ» на предп

Выбросил месяц ИИ-кода и стартовал заново: инженер Google честно рассказал о работе с Claude Code

25 минут назад

Выбросил месяц ИИ-кода и стартовал заново: инженер Google честно рассказал о работе с Claude Code

Лалит Маганти, инженер Google и мейнтейнер проекта Perfetto, опубликовал детальный разбор того, как за ~250 часов и три месяца работы с Claude Code разработал syntaqlite — набор devtools для SQLite, в

«Ростех» рассказал об эффективности очков Blue Sky Pro для адаптации к полярной ночи

1 час назад

«Ростех» рассказал об эффективности очков Blue Sky Pro для адаптации к полярной ночи

Госкорпорация «Ростех» заявила, что светотерапевтические очки Blue Sky Pro помогают адаптироваться к условиям полярной ночи и повышают работоспособность участников арктических и антарктических экспеди

Япония демонстрирует, что «физический ИИ» уже готов к реальному миру

1 час назад

Япония демонстрирует, что «физический ИИ» уже готов к реальному миру

Япония становится одним из первых рынков, где так называемый physical AI — ИИ, работающий через роботов и устройства в реальном мире — выходит из стадии экспериментов в полноценное добавление. По данн

Anthropic окончательно убрала OpenClaw из подписки Claude

1 час назад

Anthropic окончательно убрала OpenClaw из подписки Claude

Организация Anthropic официально подтвердила: подписка Claude больше не покрывает использование сторонних агентных инструментов, включая OpenClaw. Теперь за такие сценарии придётся платить отдельно. О