5 мая 2026, 22:05
Выпущен тест производительности, проверяющий способность ИИ воссоздать FFmpeg

Новый бенчмарк ProgramBench использует нестандартный подход к измерению способностей LLM. В его случае схема получает бинарные файлы и документацию ряда приложений (включая FFmpeg), а затем должна с нуля создать приложения с аналогичной функциональностью. Одновременно условия сделаны намеренно жёсткими: например, моделям не дают доступ в интернет (хотя живому разработчику без возможности погуглить было бы сложно справиться с подобным).
Разработчики ProgramBench обращают внимание, что обычно известные бенчмарки проверяют способности LLM к программированию на маленьких изолированных задачах: например, «исправить определённый баг». Тем не менее в реальности люди применяют ИИ и для полного создания проекта с нуля, порой почти безнадзорного, когда архитектурные решения оказываются за моделью. И способности в подобной всесторонней деятельности ранее почти не измерялись систематически.
Сейчас результаты оказались такими. Ни одна текущая схема не справляется с задачами полностью (так, чтобы получившееся программа проходило 100% тестов). Во многих случаях проходит часть тестов, этот итог выше при воссоздании простых CLI-приложений вроде утилиты fzf, но низкий у сложных вроде FFmpeg:

В бенчмарке решили ввести отдельную оценку «почти получилось» для случаев, когда проходят 95% тестов. И сейчас у лидера, Opus 4.7, получилось набрать это в 3% из всех заданий. А общий лидерборд выглядит так:
# | Model | Agent | Resolved help_outline | Almost resolved help_outline | |
|---|---|---|---|---|---|
1 | Anthropic | Claude Opus 4.7 Anthropic | mini-SWE-agent | 0% | 3.0% |
2 | Anthropic | Claude Opus 4.6 Anthropic | mini-SWE-agent | 0% | 2.5% |
3 | Anthropic | Claude Sonnet 4.6 Anthropic | mini-SWE-agent | 0% | 1.0% |
4 | OpenAI | GPT 5.4 OpenAI | mini-SWE-agent | 0% | 0.0% |
5 | Gemini 3.1 Pro Google | mini-SWE-agent | 0% | 0.0% | |
6 | Gemini 3 Flash Google | mini-SWE-agent | 0% | 0.0% | |
7 | Anthropic | Claude Haiku 4.5 Anthropic | mini-SWE-agent | 0% | 0.0% |
8 | OpenAI | GPT 5.4 mini OpenAI | mini-SWE-agent | 0% | 0.0% |
9 | OpenAI | GPT 5 mini OpenAI | mini-SWE-agent | 0% | 0.0% |
Комментаторы зачастую отмечают, что и у живых разработчиков без интернета результаты получились бы околонулевыми. И порой возникает вопрос, считать ли такой тест производительности решаемым в целом. Авторы отвечают, что он намеренно сделан очень сложным, однако решаемым.
В этом контексте полезно вспомнить, что с рядом других бенчмарков ранее происходила сатурация. При их создании модели показывали невысокие результаты, но позже новые модели начинали справляться с задачами, которые ранее считались сложными. Когда это происходило массово, тест производительности переставал отражать различия моделей. Из-за сатурацию периодически создаются более сложные бенчмарки, поднимающие планку выше, и ProgramBench — один из подобных шагов.
Читают сейчас

58 минут назад
Глава Microsoft объяснил, почему ИИ не обесценит людей
Гендиректор Microsoft Сатья Наделла опубликовал в X программную статью о будущем компаний в экономике, которой управляет ИИ. Его основной вывод звучит так: чем мощнее становится искусственный интеллек

2 часа назад
Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках
Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

3 часа назад
Google отключил оператор inurl
Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

4 часа назад
Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat
13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

6 часов назад
Microsoft выпустила версию PowerToys 0.100.0
Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения