24 марта 2026, 15:47
В России представили первую открытую методологию тестирования RAG‑систем
Исследователи из Сбера (команда SberAI), МТС Web Services (MWS AI) и ведущих российских и международных вузов разработали первую открытую динамическую методологию тестирования русскоязычных систем генеративного ИИ с поиском (RAG). Работу приняли на EACL 2026 — одну из крупнейших конференций по компьютерной лингвистике, которая проходит с 24 по 29 марта 2026 года в Рабате (Марокко), рассказали у в МТС.
RAG‑системы (Retrieval‑Augmented Generation) объединяют большие языковые модели с базами знаний и корпоративными данными. Это позволяет ИИ‑ассистентам отвечать на запросы с опорой на актуальную информацию и снижать риск ошибок. Такие решения лежат в основе современных ИИ‑агентов, способных выполнять сложные задачи без участия человека.
Новая методология получила название DRAGOn (Designing RAG on Periodically Updated Corpus). Она решает ключевую проблему существующих тестов: большинство из них либо используют устаревающие статичные данные, либо не учитывают специфику корпоративных баз знаний. DRAGOn, напротив, работает с постоянно обновляемыми источниками — в частности, новостными лентами — и автоматически формирует из них «карту знаний».
Платформа генерирует не простые вопросы, а многоуровневые логические задачи, требующие сопоставления фактов из разных источников. Проверку ответов выполняет отдельная нейросеть, которая оценивает не только совпадение формулировок, но и точность и полноту ответа.
По словам соавтора исследования, руководителя центра разработки больших языковых моделей MWS AI Валентина Малых, индустрия ИИ смещается от гонки размеров моделей к качеству прикладных решений. Он отметил, что методология универсальна и может применяться в разных сферах — от анализа научных публикаций до юридических документов.
В рамках проекта также запустили начальный публичный рейтинг (лидерборд) русскоязычных RAG‑систем. Предварительные результаты показывают, что наилучшие показатели достигаются при комбинации нескольких моделей и продвинутых методов поиска, однако даже такие решения пока испытывают сложности при работе со сложными логическими связями.
Практическая ценность разработки заключается в том, что компании смогут разворачивать собственные тестовые среды на внутренних данных. Это позволит заранее оценивать точность ИИ‑систем, сравнивать разные подходы и снижать риски ошибок при внедрении.
В исследовании приняли участие специалисты Сбера, MBZUAI, ИТМО, МИСИС, НИУ ВШЭ, МТС Web Services, IITU и Школы анализа данных «Яндекса».
Читают сейчас

9 минут назад
Разработчик Amazon выявил регрессию в тестовом ядре Linux 7.0, в два раза снижающую эффективность PostgreSQL
Разработчик из Amazon Сальваторе Дипьетро обнаружил регрессию при тестировании СУБД PostgreSQL и компонентов готовившегося к релизу ядра Linux 7.0. Выпуск новой версии ядра Linux, которая будет исполь

1 час назад
Экипаж лунной миссии «Артемида» II на космическом корабле «Орион» преодолел больше половины пути до Луны
В НАСА сообщили, что экипаж лунной миссии «Артемида» II на космическом корабле «Орион» преодолел больше половины пути до Луны. В настоящий момент корабль находится приблизительно в 141 тыс. км от Луны

1 час назад
Представлен публике дистрибутив Netrunner 26 на Debian 13 «Trixie» и Linux 6.16
В начале апреля 2026 года разработчик проекта Nitrux Ури Эррера объявил о выпуске и общедоступности сборки Netrunner 26 (кодовое название Twilight), спустя более года после выхода Netrunner 25. Инициа

2 часа назад
Версия библиотеки meshoptimizer 1.1
2 апреля 2026 года разработчик Arseny Kapoulkine (zeux) представил обновление открытой библиотеки meshoptimizer 1.1. Исходный исходник проекта написан на C++ и JavaScript и опубликован на GitHub под л

8 часов назад
Claude Code нашел 23-летний дефект в Linux
Николас Карлини, исследователь из Anthropic, рассказал на конференции [un]prompted 2026, что с помощью Claude Code обнаружил несколько удаленно эксплуатируемых уязвимостей в ядре Linux. Одна из них —