11 марта 2026, 12:57

Исследование: нейросети оказались неспособны поддерживать долгосрочную эволюцию кодовой базы

4 мин

Исследование Alibaba Group и Университета имени Сунь Ятсена в Гуанчжоу показало, что современные нейросети не могут поддерживать долгосрочную эволюцию кодовой базы, добавляя новые функции и не нарушая функциональность старых.

Исследователи разработали специальный тест для больших языковых моделей, чтобы изучить их способности поддерживать длительную эволюцию базы кодов и добавлять новые функции без нарушения деятельности ранее внесённых.

Они отмечают, что агенты уже продемонстрировали высокие возможности в автоматизации задач разработки программного обеспечения, таких как статическое исправление ошибок, что подтверждается такими бенчмарками, как SWE-bench. Однако в реальном мире создание зрелого программного обеспечения обычно основана на сложных изменениях требований и долгосрочных итерациях функций — процессе, который не могут охватить статические парадигмы одноразового исправления. Чтобы преодолеть этот разрыв, исследователи представили тест производительности SWE-CI на уровне репозитория, построенный на основе цикла непрерывной интеграции. Он включает 100 задач, каждая из которых соответствует в среднем истории эволюции, охватывающей 233 дня и 71 последовательный коммит в реальном репозитории кода. SWE-CI требует от агентов систематического решения этих задач посредством десятков раундов анализа и итераций кодирования.

Одновременно разработчики работы подчеркнули наличие проблемы: все тесты, от HumanEval и LiveCodeBench до SWE-bench и Terminal-Bench, повсеместно используют протокол, основанный на моментальных снимках: агент получает одну задачу и создаёт одноразовое решение. В рамках этой парадигмы агент, который жёстко закодировал ненадёжное исправление, и агент, который пишет чистый, расширяемый код, могут пройти один и тот же набор тестов. Разница становится видимой только тогда, когда кодовая база должна развиваться: появляются новые требования, меняются интерфейсы, а модули необходимо расширять. В этот момент стоимость предыдущих проектных решений накапливается, и агенту, который регулярно создаёт плохо структурированный исходник, будет сложнее вносить каждое последующее изменение.

SWE-CI же использует протокол оценки с двумя агентами — архитектором и программистом: начиная с базового коммита, агенты выполняют цикл CI, который итеративно генерирует требования, изменяет исходный исходник и запускает тесты, с конечной целью пройти все, связанные с целевым коммитом.

SWE-CI вводит EvoScore (Evolution Score) в качестве косвенной метрики: он измеряет функциональную корректность будущих модификаций, так что агенты, чьи ранние решения способствуют последующей эволюции, получают более высокие баллы, в то время как те, которые накапливают технический долг, демонстрируют постепенно снижающуюся производительность.

Результаты показали, что современные модели по-прежнему испытывают трудности с поддержанием качества кода на протяжении длительного периода.

Оценка включала 18 моделей от 8 разных поставщиков. Выяснилось, что в контексте одного семейства более новые модели всегда достигают более высоких показателей, при выпущенные после начала 2026 года демонстрируют значительно больший прирост, чем их предшественники. Это сообщает о том, что возможности кода современных LLM быстро развиваются, переходя от статического исправления ошибок к устойчивому, долгосрочному сопровождению кода, говорят исследователи. Так, Claude Opus показывает явное лидерство на протяжении всего периода наблюдения, одновременно GLM-5 равным образом выделили как сильного игрока.

Также были найдены различия в поведении моделей разных компаний. Например, MiniMax, DeepSeek и GPT демонстрируют предпочтение долгосрочным выгодам, в то время как Kimi и GLM склоняются к краткосрочной отдаче. Qwen, Doubao и Claude, напротив, остаются относительно стабильными в различных условиях.

Регрессия — это ключевой метрика для измерения стабильности качества программного обеспечения. Так, если модульный тест проходит до изменения кода, но не проходит после, то считается, что модификация привело к регрессии. В SWE-CI измеряли долю образцов, в которых не происходит регрессии на протяжении всего процесса сопровождения кода. Результаты показали, что большинство моделей достигают показателя нулевой регрессии ниже 0,25, и только две из серии Claude-opus превышают 0,5.

Это сообщает о том, что, хотя LLM продемонстрировали значительные улучшения в краткосрочных задачах модификации кода, они по-прежнему сталкиваются со значительными проблемами в целиком автоматизированных, долгосрочных и многоэтапных сценариях разработки и сопровождения программного обеспечения.

Ранее директор по инжинирингу DNS в организации ISC Ондржей Cури подвёл итоги экспериментов по использованию больших языковых моделей для анализа, исправления и модернизации кодовой базы DNS‑сервера BIND 9. Исследование Cури проводилось в контексте создания прототипов новых проектов и подготовки материалов для обучения студентов. Он отметил, что большие языковые модели хорошо подходят для быстрого создания прототипов, понимания незнакомого кода и автоматизации простых рутинных задач, но при использовании ИИ для решения больших задач возникла проблема с экономией времени. От разработчика потребовалось множество времени на постановку задачи, изучение и проверку результатов, а равным образом последующую доработку кода.

исследование искусственный интеллект нейросети программирование кодовая база поддержка кода управление разработкой автоматизация

Читают сейчас

55 минут назад

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

1 час назад

Google отключил оператор inurl

Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

2 часа назад

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

4 часа назад

Microsoft выпустила версию PowerToys 0.100.0

Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения

5 часов назад

Апдейт Telegram: форматирование ботов и Markdown-файлы

Telegram опубликовал крупное обновление с десятками новых функций, в том числе с поддержкой мессенджера на смарт-часах, в том числе с Wear OS, а также опциями для ботов, групп и встроенного браузера.