LFM2.5-VL-450M: структурированный визуальный интеллект

2 мин
LFM2.5-VL-450M: структурированный визуальный интеллект

Выпущена схема LFM2.5-VL-450M. Это обновленная релиз LFM2-VL-450M, в которую добавили функции заземления, улучшенное следование инструкциям и поддержку вызова функций. Модель преобразует видеопоток в структурированные информация в реальном времени на локальных устройствах.

LFM2.5-VL-450M доступна на Hugging Face, LEAP и в Playground. Инструкции по локальному запуску и дообучению находятся в документации.

P.S Если вам интересна тема AI-агентов и внедрения нейросетей, заглядывайте в мой Telegram-канал ДругОпенсурса. Там я публикую свежие новости и разборы инструментов в числе первых.

Что изменилось

Объем данных для предварительного обучения увеличили с 10 трлн до 28 трлн токенов. После этого провели дополнительное обучение с использованием оптимизации предпочтений и обучения с подкреплением. Это было нужно для улучшения работы в реальных условиях эксплуатации.

Распознавание объектов : Показатель RefCOCO-M вырос до 81.28. Модель теперь находит объекты на изображении и выделяет их ограничивающими рамками

Многоязычное понимание изображений : Результат в тесте MMMB увеличился с 54.29 до 68.09. Поддерживаются арабский, китайский, французский, немецкий, японский, корейский, португальский и испанский языки. Модель обрабатывает запросы на этих языках без использования сторонних инструментов локализации.

Следование инструкциям : Метрика MM-IFEval вырос с 32.93 до 45.00. Схема точнее соблюдает заданные ограничения и текстовые команды.

LFM2.5-VL-450M протестировали на задачах визуального понимания, обнаружения объектов и логического вывода. Результаты выше, чем у версии LFM2-VL-450M. Также добавлена поддержка вызова функций (тест BFCLv4).

Эффективность

Модель предназначена для работы с видеокамерами и изображениями в условиях ограниченного времени на обработку. LFM2.5-VL-450M (в квантовании Q4_0) работает на модулях Jetson Orin, процессорах Ryzen AI Max+ 395 и мобильных чипах Snapdragon 8 Elite.

На Jetson Orin обработка изображения размером 512×512 занимает менее 250 мс. Это позволяет анализировать видеопоток с частотой 4 кадра в секунду. На мобильных процессорах время обработки составляет менее одной секунды для низких разрешений.

Варианты использования

Промышленная автоматизация :  В автомобилях, сельхозтехнике и на складах вычислительные ресурсы ограничены. LFM2.5-VL-450M позволяет не только находить объекты, но и описывать действия рабочих, движение погрузчиков и перемещение товаров на оборудовании уровня Jetson Orin.

Носимые устройства и мониторинг : Смарт-очки, видеорегистраторы и системы безопасности имеют жесткие ограничения по питанию и конфиденциальности. Схема обрабатывает видео локально, превращая его в структурированные информация без передачи в облачный сервис.

Ритейл и электронная коммерция : При обработке миллионов изображений товаров требуются минимальные затраты на один запрос. LFM2.5-VL-450M подходит для автоматизации каталогов, визуального поиска и контроля выкладки товаров на полках при высокой нагрузке.

Читают сейчас

В 2ГИС появилась функция навигации при нестабильном сигнале спутников

8 минут назад

В 2ГИС появилась функция навигации при нестабильном сигнале спутников

2ГИС представил режим навигации «Шаг за шагом», который помогает пользователям продолжать движение по маршруту даже при нестабильном сигнале спутников. Если программа фиксирует проблемы с определением

Новую большую схема OpenAI отдадут только избранным — Axios

20 минут назад

Новую большую схема OpenAI отдадут только избранным — Axios

OpenAI финализирует новую модель с продвинутыми возможностями в кибербезопасности и планирует выдать ее только узкому кругу компаний — по схеме, похожей на ограниченный релиз Mythos от Anthropic. Об э

YouTube стартовал показывать на умных ТВ непропускаемую рекламу на 90 секунд

21 минуту назад

YouTube стартовал показывать на умных ТВ непропускаемую рекламу на 90 секунд

В приложении YouTube для умных телевизоров появились рекламные ролики по 90 секунд, которые нельзя пропустить. Как отмечают пользователи Reddit, эта практика расходится с действующими правилами платфо

Встреча для лидов ИТ-команд от hh.ru: как принимать решения о найме в эпоху AI и слабых сигналов

30 минут назад

Встреча для лидов ИТ-команд от hh.ru: как принимать решения о найме в эпоху AI и слабых сигналов

Приглашаем на митап о найме в ИТ-командах и дефиците навыков в эпоху AI. Кандидатов становится всё больше, но профи с нужными навыками по-прежнему не хватает. Теперь специалистов ещё сложнее разглядет

Вышел Chrome 147

32 минуты назад

Вышел Chrome 147

Google объявила о выпуске стабильной версии Chrome 147 для всех пользователей Windows, macOS и Linux. В ней ввели ряд новых ограничений доступа к локальной сети (LNA). Читать далее