«Поиск по архивам» «Яндекса» модернизировал схема распознавания документов

2 мин
«Поиск по архивам» «Яндекса» модернизировал схема распознавания документов

Сервис «Яндекса» «Поиск по архивам» модернизировал модель распознавания документов. Теперь она не только распознаёт текст архивного файла, но и структурирует информацию из него: в частности, роль каждого из участников события и связи между разными людьми. Благодаря этому пользователи сразу увидят в документе имя человека, которого они ищут, и смогут быстрее найти информация о предках.

Раньше искать уже известные данные приходилось среди всех упоминаний, включая служебные пометки, даты и имена участников записи. Благодаря новой модели пользователь может сразу настроить фильтры события и роли человека. Например, «родившийся», «отец» и «мать» для документа о рождении или «жених», «невеста», «свидетель» для свидетельства о заключении брака. Сервис сразу найдёт упоминания человека в нужном контексте.

Обновлённый «Поиск по архивам» работает на собственной мультимодальной модели «Яндекса» — Alice AI VLM. В отличие от иностранных аналогов, она уже обладает глубоким пониманием русского языка и изображений, отметили в компании. Это позволило обойтись без создания огромных обучающих выборок: базовые навыки модели дали ей возможность освоить задачу извлечения данных за небольшое число итераций на специализированной разметке.

Качество системы оценивали по доле людей, которых удаётся найти по ФИО в архивном поиске. В среднем точность составила 90,5%, достигая 92,7% для записей о рождении, 89,7% — для свадеб и 87,2% — для смертей.

Ранее в «Поиске по архивам» появился архив «Известий». С помощью нейросетей служба оцифровал более 30 тыс. выпусков газеты. Пользователям доступен полнотекстовый поиск по номерам, выходившим с 1917 по 2024 год.

Как Яндекс научился распознавать, что написано в рукописных архивах
Привет, . Меня зовут Саша, в прошлый раз я рассказывал сообществу про поиск организаций в Яндекс...
.com

Читают сейчас

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

1 час назад

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

Google отключил оператор inurl

2 часа назад

Google отключил оператор inurl

Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

3 часа назад

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

Microsoft выпустила версию PowerToys 0.100.0

5 часов назад

Microsoft выпустила версию PowerToys 0.100.0

Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения

Апдейт Telegram: форматирование ботов и Markdown-файлы

6 часов назад

Апдейт Telegram: форматирование ботов и Markdown-файлы

Telegram опубликовал крупное обновление с десятками новых функций, в том числе с поддержкой мессенджера на смарт-часах, в том числе с Wear OS, а также опциями для ботов, групп и встроенного браузера.