1 час назад
LFM2.5-VL-450M: структурированный визуальный интеллект

Выпущена схема LFM2.5-VL-450M. Это обновленная релиз LFM2-VL-450M, в которую добавили функции заземления, улучшенное следование инструкциям и поддержку вызова функций. Модель преобразует видеопоток в структурированные информация в реальном времени на локальных устройствах.

LFM2.5-VL-450M доступна на Hugging Face, LEAP и в Playground. Инструкции по локальному запуску и дообучению находятся в документации.
P.S Если вам интересна тема AI-агентов и внедрения нейросетей, заглядывайте в мой Telegram-канал ДругОпенсурса. Там я публикую свежие новости и разборы инструментов в числе первых.
Что изменилось
Объем данных для предварительного обучения увеличили с 10 трлн до 28 трлн токенов. После этого провели дополнительное обучение с использованием оптимизации предпочтений и обучения с подкреплением. Это было нужно для улучшения работы в реальных условиях эксплуатации.
Распознавание объектов : Показатель RefCOCO-M вырос до 81.28. Модель теперь находит объекты на изображении и выделяет их ограничивающими рамками
Многоязычное понимание изображений : Результат в тесте MMMB увеличился с 54.29 до 68.09. Поддерживаются арабский, китайский, французский, немецкий, японский, корейский, португальский и испанский языки. Модель обрабатывает запросы на этих языках без использования сторонних инструментов локализации.
Следование инструкциям : Метрика MM-IFEval вырос с 32.93 до 45.00. Схема точнее соблюдает заданные ограничения и текстовые команды.

LFM2.5-VL-450M протестировали на задачах визуального понимания, обнаружения объектов и логического вывода. Результаты выше, чем у версии LFM2-VL-450M. Также добавлена поддержка вызова функций (тест BFCLv4).
Эффективность
Модель предназначена для работы с видеокамерами и изображениями в условиях ограниченного времени на обработку. LFM2.5-VL-450M (в квантовании Q4_0) работает на модулях Jetson Orin, процессорах Ryzen AI Max+ 395 и мобильных чипах Snapdragon 8 Elite.

На Jetson Orin обработка изображения размером 512×512 занимает менее 250 мс. Это позволяет анализировать видеопоток с частотой 4 кадра в секунду. На мобильных процессорах время обработки составляет менее одной секунды для низких разрешений.
Варианты использования
Промышленная автоматизация : В автомобилях, сельхозтехнике и на складах вычислительные ресурсы ограничены. LFM2.5-VL-450M позволяет не только находить объекты, но и описывать действия рабочих, движение погрузчиков и перемещение товаров на оборудовании уровня Jetson Orin.

Носимые устройства и мониторинг : Смарт-очки, видеорегистраторы и системы безопасности имеют жесткие ограничения по питанию и конфиденциальности. Схема обрабатывает видео локально, превращая его в структурированные информация без передачи в облачный сервис.

Ритейл и электронная коммерция : При обработке миллионов изображений товаров требуются минимальные затраты на один запрос. LFM2.5-VL-450M подходит для автоматизации каталогов, визуального поиска и контроля выкладки товаров на полках при высокой нагрузке.

Читают сейчас

8 минут назад
В 2ГИС появилась функция навигации при нестабильном сигнале спутников
2ГИС представил режим навигации «Шаг за шагом», который помогает пользователям продолжать движение по маршруту даже при нестабильном сигнале спутников. Если программа фиксирует проблемы с определением

20 минут назад
Новую большую схема OpenAI отдадут только избранным — Axios
OpenAI финализирует новую модель с продвинутыми возможностями в кибербезопасности и планирует выдать ее только узкому кругу компаний — по схеме, похожей на ограниченный релиз Mythos от Anthropic. Об э

21 минуту назад
YouTube стартовал показывать на умных ТВ непропускаемую рекламу на 90 секунд
В приложении YouTube для умных телевизоров появились рекламные ролики по 90 секунд, которые нельзя пропустить. Как отмечают пользователи Reddit, эта практика расходится с действующими правилами платфо

30 минут назад
Встреча для лидов ИТ-команд от hh.ru: как принимать решения о найме в эпоху AI и слабых сигналов
Приглашаем на митап о найме в ИТ-командах и дефиците навыков в эпоху AI. Кандидатов становится всё больше, но профи с нужными навыками по-прежнему не хватает. Теперь специалистов ещё сложнее разглядет
32 минуты назад
Вышел Chrome 147
Google объявила о выпуске стабильной версии Chrome 147 для всех пользователей Windows, macOS и Linux. В ней ввели ряд новых ограничений доступа к локальной сети (LNA). Читать далее