Microsoft выпустила мультимодальную версию Phi-4

3 мин
Microsoft выпустила мультимодальную версию Phi-4

Microsoft Research анонсировала новую схема в своей линейке компактных языковых моделей — Phi-4-Vision-Reasoning. Это мультимодальная модель, которая не просто распознает изображения, но и способна проводить сложные рассуждения на основе визуальных данных. Главная цель разработчиков заключалась в том, чтобы преодолеть типичные недостатки крупных мультимодальных систем — их медлительность, высокую стоимость использования и сложности при внедрении. Новая модель стремится объединить производительность небольших моделей с аналитическими способностями, ранее доступными только гигантам индустрии.

Индустрия искусственного интеллекта движется в двух, казалось бы, противоположных направлениях. С одной стороны, мы видим гонку за созданием всё более огромных моделей (как GPT-4 или Gemini Ultra), которые требуют колоссальных вычислительных мощностей. Во-вторых, растет спрос на «малые языковые модели», которые можно запускать локально на устройствах пользователей или с минимальными затратами в облаке.

Семейство моделей Phi от Microsoft зарекомендовало себя как лидер в нише компактных решений. Предыдущие версии (Phi-1, Phi-2, Phi-3) показывали удивительно высокие результаты на бенчмарках, несмотря на скромное количество параметров, благодаря использованию синтетических данных высокого качества для обучения. Теперь Microsoft делает следующий шаг, добавляя к этому «визуальный интеллект» и способность к пошаговым рассуждениям.

Performance charts comparing Phi-4-Reasoning-Vision-15B against other models (Kimi-VL, Qwen-3, Gemma-3) on accuracy vs. response time and accuracy vs. completion tokens. Phi-4 stands out as being fast and token-efficient while achieving ~75% accuracy.
Performance charts comparing Phi-4-Reasoning-Vision-15B against other models (Kimi-VL, Qwen-3, Gemma-3) on accuracy vs. response time and accuracy vs. completion tokens. Phi-4 stands out as being fast and token-efficient while achieving ~75% accuracy.

Детали

Ключевая особенность Phi-4-Vision-Reasoning заключается в интеграции двух важных компонентов:

  1. Мультимодальность. Способность модели воспринимать и обрабатывать не только текст, но и изображения. Это критически важно для задач, где требуется аналитика графиков, диаграмм, пользовательских интерфейсов или сцен из реального мира.

  2. Рассуждение. Модель обучена выстраивать логические цепочки. Это не просто выдача наиболее вероятного следующего слова, а попытка имитировать процесс мышления, разбивая сложную задачу на подзадачи.

РАвторы подчеркивают, что объединение этих навыков в компактной архитектуре даёт возможность снизить задержку (latency) при генерации ответов и сделать передовые технологии доступнее для широкого круга разработчиков и компаний.

ААналитика

A physics problem about spring-mass systems, with two diagrams. The model correctly works through the spring constant relationships and arrives at answer B (0.433s).
A physics problem about spring-mass systems, with two diagrams. The model correctly works through the spring constant relationships and arrives at answer B (0.433s).

Появление Phi-4-Vision-Reasoning сигнализирует о важном сдвиге в приоритетах крупных игроков. Если раньше фокус был смещен на «сырую мощь» и объем знаний модели, то теперь на первый план выходят производительность и специализация. Компактные модели с навыками рассуждения открывают дорогу для создания действительно умных агентов, работающих на периферийных устройствах (edge devices) — от смартфонов до промышленных роботов.

Это равным образом решает проблему стоимости. ЗЗапускание огромной модели для каждой задачи часто экономически нецелесообразен. Небольшая, но «умная» модель, способная видеть и думать, может стать идеальным решением для автоматизации рутинных бизнес-процессов, где требуется аналитика документов или визуальный контроль качества.

Перспектива

В ближайшем будущем мы увидим усиление конкуренции в сегменте малых мультимодальных моделей. Успех Phi-4 может подтолкнуть другие лаборатории (например, Google с их Gemma или Meta с Llama) к выпуску аналогичных специализированных версий.

ГОсновной вопрос, который предстоит решить индустрии, — насколько надежными могут быть рассуждения в моделях с ограниченным числом параметров. Если Microsoft удастся доказать, что «небольшой мозг» может рассуждать так же логично, как и крупный, это кардинально изменит архитектуру будущих AI-систем, сместив баланс от облачных вычислений к локальной обработке данных.

Читают сейчас

Китайский разработчик роботов UBTech Robotics готов платить $18 млн в год главному учёному по робототехнике

50 минут назад

Китайский разработчик роботов UBTech Robotics готов платить $18 млн в год главному учёному по робототехнике

Китайская компания-разработчик человекоподобных роботов UBTech Robotics ищет главного учёного по робототехнике, предлагая зарплату до $18 млн в год. Компания указывает, что эта должность будет определ

Claude смог запустить промышленный CPU Intel на обычной материнской плате — ИИ полностью переписал BIOS

57 минут назад

Claude смог запустить промышленный CPU Intel на обычной материнской плате — ИИ полностью переписал BIOS

Моддер с форума Overclock.net с помощью Claude целиком переписал BIOS материнской платы ASUS Z790 и загрузил Windows 11 на серверном 12-ядерном процессоре Intel Bartlett Lake Core 9 273PQE, который In

В OpenClaw за полтора месяца нашли шесть дыр в одном модуле. И это не конец

1 час назад

В OpenClaw за полтора месяца нашли шесть дыр в одном модуле. И это не конец

В подсистеме подключения устройств OpenClaw — ИИ-агента с 348 000 звезд на GitHub — за шесть недель обнаружили шесть уязвимостей класса CWE-863 (некорректная авторизация). Последняя, CVE-2026-33579 с

В Steam тестируют аналитика FPS на конкретном ПК до покупки игры пользователем

1 час назад

В Steam тестируют аналитика FPS на конкретном ПК до покупки игры пользователем

Valve тестирует в Steam средство для анализа FPS на конкретном ПК до покупки игры пользователем, сообщил датамайнер dex3108 на форуме ResetEra, обнаруживший строки кода этой функции. Сама организация

Microsoft вложит $10 млрд в японские ИИ-проекты

2 часа назад

Microsoft вложит $10 млрд в японские ИИ-проекты

До 2029 года Microsoft планирует инвестировать $10 млрд в инфраструктуру искусственного интеллекта и облачных вычислений Японии, пишет местное информационное агентство Kyodo News со ссылкой на вице-пр