25 февраля 2026, 21:13
ОpenAI призвала отказаться от использования SWE-bench Verified для оценки моделей

OpenAI рекомендовала разработчикам больше не использовать тест производительности SWE-bench Verified для проверки способностей ИИ-моделей к программированию. Этот набор задач был создан самой компанией в 2024 году и быстро стал одним из ключевых стандартов для сравнения coding-моделей.
Со временем выяснилось, что значительная часть заданий и способов их решения уже присутствовала в обучающих данных современных моделей. В результате оценки начали искажаться, поскольку системы могли воспроизводить знакомые паттерны вместо реального решения новых задач. Дополнительной проблемой стало качество самого датасета: по данным OpenAI, более половины задач содержат неточности или некорректные условия.
В компании отмечают, что подобная ситуация типична для популярных бенчмарков. Как только тест становится индустриальным стандартом, он неизбежно попадает в обучающие выборки и перестает отражать реальные возможности моделей.
В качестве альтернативы OpenAI предлагает использовать SWE-Bench Pro. Новый тест производительности создавался с учетом утечек данных и должен лучше проверять способность моделей функционировать с незнакомыми репозиториями и реальными инженерными задачами.
Читают сейчас

2 часа назад
Глава Microsoft объяснил, почему ИИ не обесценит людей
Гендиректор Microsoft Сатья Наделла опубликовал в X программную статью о будущем компаний в экономике, которой управляет ИИ. Его основной вывод звучит так: чем мощнее становится искусственный интеллек

4 часа назад
Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках
Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

4 часа назад
Google отключил оператор inurl
Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

5 часов назад
Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat
13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

8 часов назад
Microsoft выпустила версию PowerToys 0.100.0
Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения