25 февраля 2026, 21:13
ОpenAI призвала отказаться от использования SWE-bench Verified для оценки моделей

OpenAI рекомендовала разработчикам больше не использовать тест производительности SWE-bench Verified для проверки способностей ИИ-моделей к программированию. Этот набор задач был создан самой компанией в 2024 году и быстро стал одним из ключевых стандартов для сравнения coding-моделей.
Со временем выяснилось, что значительная часть заданий и способов их решения уже присутствовала в обучающих данных современных моделей. В результате оценки начали искажаться, поскольку системы могли воспроизводить знакомые паттерны вместо реального решения новых задач. Дополнительной проблемой стало качество самого датасета: по данным OpenAI, более половины задач содержат неточности или некорректные условия.
В компании отмечают, что подобная ситуация типична для популярных бенчмарков. Как только тест становится индустриальным стандартом, он неизбежно попадает в обучающие выборки и перестает отражать реальные возможности моделей.
В качестве альтернативы OpenAI предлагает использовать SWE-Bench Pro. Новый тест производительности создавался с учетом утечек данных и должен лучше проверять способность моделей функционировать с незнакомыми репозиториями и реальными инженерными задачами.
Читают сейчас

17 минут назад
Организация «Решетнёв» освоила производство гибких печатных кабелей для спутников
Компания «Решетнёв» (входит в госкорпорацию «Роскосмос») создаёт гаджет с гибкими печатными кабелями собственного производства для спутника‑ретранслятора «Луч-5ВМ». В рамках проекта «Луч-5ВМ» на предп

25 минут назад
Выбросил месяц ИИ-кода и стартовал заново: инженер Google честно рассказал о работе с Claude Code
Лалит Маганти, инженер Google и мейнтейнер проекта Perfetto, опубликовал детальный разбор того, как за ~250 часов и три месяца работы с Claude Code разработал syntaqlite — набор devtools для SQLite, в

1 час назад
«Ростех» рассказал об эффективности очков Blue Sky Pro для адаптации к полярной ночи
Госкорпорация «Ростех» заявила, что светотерапевтические очки Blue Sky Pro помогают адаптироваться к условиям полярной ночи и повышают работоспособность участников арктических и антарктических экспеди

1 час назад
Япония демонстрирует, что «физический ИИ» уже готов к реальному миру
Япония становится одним из первых рынков, где так называемый physical AI — ИИ, работающий через роботов и устройства в реальном мире — выходит из стадии экспериментов в полноценное добавление. По данн

1 час назад
Anthropic окончательно убрала OpenClaw из подписки Claude
Организация Anthropic официально подтвердила: подписка Claude больше не покрывает использование сторонних агентных инструментов, включая OpenClaw. Теперь за такие сценарии придётся платить отдельно. О