9 апреля 2026, 13:29
Alibaba выпустила VimRAG – не просто RAG, а агент с графом памяти


Исследовательская группа Alibaba-NLP представила два взаимосвязанных фреймворка – VimRAG и VRAG-RL, которые меняют решение к мультимодальному retrieval-augmented generation (RAG). В arXiv-препринтах 2602.12735 и 2505.22019 авторы предлагают отказаться от линейных историй в пользу динамического ориентированного ациклического графа (DAG) и обучения с подкреплением.


Основная идея VimRAG – побороть так называемую “слепоту состояний” (state blindness) в мультимодальных RAG-системах. Вместо того чтобы перебирать запросы и дублировать поиск, каркас строит multimodal memory graph – структуру, где каждый узел отвечает за определённый фрагмент информации (текст, изображение, видео), а рёбра показывают, как агент переходит от одного куска знаний к другому. В ходе рассуждения граф динамически обрезается с помощью graph-guided policy optimization (GGPO) – это даёт возможность точно назначать “кредиты” за полезные действия и ускорять сходимость обучения.
Для работы с тяжёлыми визуальными данными инженеры Alibaba внедрили graph-modulated visual memory encoding – механизм адаптивного выделения токенов, который не тратит ресурсы на второстепенные детали. А чисто визуальный агент VRAG (отдельный режим в том же фреймворке) учится собирать информацию постепенно – от общего плана к мелким элементам, имитируя то, как человек рассматривает сложную сцену.


На практике VimRAG можно запустить двумя способами:
Через DashScope api (рекомендуется для быстрого старта) – используется схема qwen3.5-plus, не нужна локальная GPU. Просто ставите
export DASHSCOPE_API_KEY=...и выполняете./run_demo.sh vimrag. Откроется Streamlit-демо с визуализацией DAG в реальном времени, потоковой выдачей и режимом расширенного мышления.Локально – для этого нужен A100 80 ГБ, запускается Qwen2.5-VL-7B-VRAG через vLLM (порт 8002), плюс поисковый движок на FAISS (порт 8001). Команда
./run_demo.sh vragподнимет всё автоматически.

Каркас поддерживает эмбеддинги Alibaba-NLP/GVE-3B, GVE-7B, а также Qwen3-VL-Embedding-2B и 8B. Индексация изображений, PDF (конвертируются в картинки) и видео (нарезаются на чанки заданной длительности) делается в пару строк на Python с помощью класса SearchEngine. Готовый индекс сохраняется автоматически с чекпоинтами.
Ссылки:
Читают сейчас

6 часов назад
Глава Microsoft объяснил, почему ИИ не обесценит людей
Гендиректор Microsoft Сатья Наделла опубликовал в X программную статью о будущем компаний в экономике, которой управляет ИИ. Его основной вывод звучит так: чем мощнее становится искусственный интеллек

8 часов назад
Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках
Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

8 часов назад
Google отключил оператор inurl
Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

9 часов назад
Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat
13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

11 часов назад
Microsoft выпустила версию PowerToys 0.100.0
Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения