Cursor стартовали создавать локальные индексы для regex-поиска прямо в IDE

1 мин
Cursor стартовали создавать локальные индексы для regex-поиска прямо в IDE

Классический ripgrep работает быстро, но всё равно читает каждый файл. В крупных монорепо это стоит 15+ секунд на один вызов, а агент делает их десятками.

Решение взяли из 1993 года: тригрaмный инвертированный индекс. Любой текст разбивается на все возможные 3-символьные последовательности, они становятся ключами в словаре, значения — список файлов. Regex-запрос декомпозируется в набор тригрaм, пересечение posting lists даёт кандидатов, и уже по ним запускается grep. Вместо тысячи файлов — десяток.

Поверх этого добавили sparse n-grams: длина каждого n-gram определяется детерминированно через веса символьных пар (crc32 или частотная таблица по терабайтам open-source кода). При индексации генерируются все возможные n-grams, а при поиске — минимальное покрывающее множество. Получается меньше lookup'ов и точнее скоуп.

Индекс живёт на машине пользователя по двум причинам: агент всё равно должен читать файлы локально для финального матча, и задержка на network roundtrip убивает смысл оптимизации. Хранится в двух mmap-файлах, привязан к git-коммиту, поверх которого накладываются незакоммиченные изменения.

Источник: https://cursor.com/blog/fast-regex-search

Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-агентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

Читают сейчас

Глава Microsoft объяснил, почему ИИ не обесценит людей

3 часа назад

Глава Microsoft объяснил, почему ИИ не обесценит людей

Гендиректор Microsoft Сатья Наделла опубликовал в X программную статью о будущем компаний в экономике, которой управляет ИИ. Его основной вывод звучит так: чем мощнее становится искусственный интеллек

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

5 часов назад

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

Google отключил оператор inurl

5 часов назад

Google отключил оператор inurl

Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

6 часов назад

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

Microsoft выпустила версию PowerToys 0.100.0

8 часов назад

Microsoft выпустила версию PowerToys 0.100.0

Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения