Microsoft опенсорснула семейство эмбеддингов Harrier

3 мин
Microsoft опенсорснула семейство эмбеддингов Harrier

Компания Microsoft объявила о выпуске Harrier-OSS-v1 - семейства из трёх многоязычных моделей встраивания текста, предназначенных для создания высококачественных семантических представлений на широком спектре языков. В релиз вошли три модели с разным количеством параметров: модель с 270M параметрами, модель с 0,6B параметрами и схема с 27B параметрами.

Модели Harrier-OSS-v1 показали лучшие на сегодняшний день (SOTA) результаты на многоязычном тесте MTEB (Massive Text Embedding Benchmark) v2. Для специалистов в области искусственного интеллекта этот выпуск знаменует собой важную веху в развитии технологий поиска с открытым исходным кодом. Он предлагает масштабируемый набор моделей, использующих современные архитектуры больших языковых моделей для решения задач встраивания.

Архитектура и фундамент

Семейство Harrier-OSS-v1 отходит от традиционных двунаправленных архитектур кодировщиков (таких как BERT), которые уже много лет доминируют в сфере встраивания. Вместо этого в этих моделях используются архитектуры с декодером, аналогичные тем, что применяются в современных больших языковых моделях (БЯМ).

Использование декодера в качестве основы для обучения - это новый подход к обработке контекста. В каузальной модели (только с декодером) каждый токен может учитывать только те токены, которые предшествуют ему. Чтобы получить единый вектор, представляющий весь входной поток, Harrier использует объединение по последнему токену. Это означает, что скрытое состояние самого последнего токена в последовательности используется в качестве совокупного представления текста, которое затем подвергается нормализации по L2, чтобы обеспечить единообразие вектора.

Технические характеристики

Модели Harrier-OSS-v1 отличаются разной размерностью эмбеддингов и поддерживают длинные контекстные входы. В таблице ниже приведены технические характеристики.

32 768 (32 000) токенов в окне контекста во всех трех размерах - важная особенность систем генерации с расширенным поиском (Retrieval-Augmented Generation, RAG). Большинство традиционных моделей эмбеддинга ограничены 512 или 1024 токенами. Расширенное окно позволяет разработчикам ИИ встраивать значительно более крупные документы или файлы с кодом без необходимости агрессивного разбиения на части, которое часто приводит к потере семантической связности.

Реализация: интеграция на основе инструкций

Одна из самых важных операционных особенностей для разработчиков ИИ заключается в том, что Harrier-OSS-v1 - это семейство настраиваемых встраиваемых моделей. Для достижения заявленной производительности модели требуются инструкции для конкретной задачи, которые предоставляются во время запроса.

Реализация осуществляется по определенной логике:

  • Со стороны запроса: перед всеми запросами должна стоять инструкция из одного предложения, определяющая цель запроса (в частности, поиск семантически похожего текста или перевод).

  • Со стороны документа: документы должны быть закодированы без инструкций.

Пример формата запроса:

"Instruct: Retrieve semantically similar text\nQuery: [User input text]"

Такой подход, основанный на инструкциях, позволяет модели динамически корректировать векторное пространство зависимо от задачи, повышая точность поиска в различных областях, таких как веб-поиск или битекстовый аналитика.

Обучение и дистилляция знаний

Разработка семейства Harrier-OSS-v1 включала в себя многоэтапный процедура обучения. Несмотря на то, что схема 27B имеет наибольшее количество параметров и размерность (5376), команда Microsoft использовала специальные методы для повышения производительности моделей меньшего размера.

Модели 270M и 0,6B были дополнительно обучены с использованием дистилляции знаний из более крупных моделей. Дистилляция знаний - это метод, при котором «ученическая» схема обучается воспроизводить выходные распределения или представления признаков высокопроизводительной «учительской» модели. Благодаря этому процессу модели Harrier меньшего размера обеспечивают более высокое качество встраивания, чем можно было бы ожидать, исходя из количества их параметров, что делает их более эффективными для развертывания в условиях ограниченных ресурсов памяти или времени ожидания.

Результаты на многоязычном тесте MTEB v2

Многоязычный проверка MTEB v2 - это комплексный бенчмарк для оценки моделей в различных задачах, включая:

  • Классификация. Определение категории текста.

  • Кластеризация. Группировка похожих документов.

  • Парная классификация. Определение того, являются ли два предложения перефразами друг друга.

  • Поиск. Поиск наиболее релевантного документа по заданному запросу.

Семейство моделей Harrier, достигшее на момент выпуска наилучших результатов в этом тесте, показывает высокий уровень эффективности в межъязыковом поиске. Это особенно ценно для глобальных приложений, где системе может потребоваться обрабатывать запросы и документы на разных языках в контексте одного векторного пространства.

Читают сейчас

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

50 минут назад

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

Google отключил оператор inurl

1 час назад

Google отключил оператор inurl

Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

2 часа назад

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

Microsoft выпустила версию PowerToys 0.100.0

4 часа назад

Microsoft выпустила версию PowerToys 0.100.0

Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения

Апдейт Telegram: форматирование ботов и Markdown-файлы

5 часов назад

Апдейт Telegram: форматирование ботов и Markdown-файлы

Telegram опубликовал крупное обновление с десятками новых функций, в том числе с поддержкой мессенджера на смарт-часах, в том числе с Wear OS, а также опциями для ботов, групп и встроенного браузера.