Xiaomi выпускает три модели MiMo: для агентов, роботов и голоса

5 мин
Xiaomi выпускает три модели MiMo: для агентов, роботов и голоса

Xiaomi хочет создавать AI-агенты, которые сами управляют софтом, ходят по браузерам и в итоге будут управлять роботами. Чтобы дойти до этого, внутренняя команда MiMo сразу выпустила три модели.

Флагманская MiMo-V2-Pro построена на Mixture-of-Experts архитектуре (модель разделена на блоки-эксперты, где для каждого запроса активируется только часть). Общее число параметров - более чем триллиона, из которых 42 миллиарда активны на каждый запрос. Это примерно в три раза больше, чем у предшественника MiMo-V2-Flash, вышедшего в декабре 2025 года.

Вопреки увеличение масштаба, гибридный attention-механизм (способ модели уделять внимание разным частям входных данных) поддерживает эффективность. Модель справляется с контекстным окном до одного миллиона токенов. В дополнение к этого, она генерирует некоторое количество токенов за раз вместо предсказания по одному слову. Это даёт заметный прирост скорости.

MiMo-V2-Pro занимает третье место в мире по PinchBench и ClawEval, немного уступая Claude Opus 4.6
MiMo-V2-Pro занимает третье место в мире по PinchBench и ClawEval, немного уступая Claude Opus 4.6

В Artificial Analysis Intelligence Index MiMo-V2-Pro расположилась на седьмой строчке в мире. Это лучшая среди китайских моделей после GLM-5 и MiniMax-M2.7. На кодинговом бенчмарке SWE-bench Verified она набирает 78%, чуть не дотянув до Claude Opus 4.6 (80,8%) и фактически вплотную к Claude Sonnet 4.6 (79,6%). На агентском бенчмарке ClawEval модель набирает 81 балл, почти равняясь Claude Opus 4.6 с его 81,5, тогда как GPT-5.2 остаётся на 77.

Xiaomi сильно демпингует против Anthropic

Xiaomi атакует конкурентов ценой. В соответствии с странице платформы, MiMo-V2-Pro стоит $1 за миллион входных токенов и $3 за миллион выходных при длине контекста до 256 000 токенов. Для сравнения: Claude Sonnet 4.6 стоит $3 или $15, а Claude Opus 4.6 — $5 или $25. Кроме того, Xiaomi пока полностью отменяет плату за запись в кэш.

Модель доступна через публичный программный оболочку. К запуску Xiaomi привлекла пять агентских фреймворков: OpenClaw, OpenCode, KiloCode, Blackbox и Cline. Разработчики со всего мира получают бесплатный доступ к программный интерфейс на одну неделю.

MiMo-V2-Omni: видит, слышит и действует в одной модели

MiMo-V2-Omni объединяет image-, video- и audio-энкодеры (модули для обработки изображений, видео и аудио) в единую backbone-сеть (базовую сеть, обрабатывающую все типы данных вместе). Схема воспринимает входящие информация и действует на их основе. Она нативно поддерживает структурированные tool calls (вызовы внешних инструментов в стандартном формате), выполняет функции и самостоятельно навигируется по пользовательским интерфейсам.

MiMo-V2-Omni обходит Claude Opus 4.6 на аудио- и image-бенчмарках, но уступает Gemini 3 Pro на видео
MiMo-V2-Omni обходит Claude Opus 4.6 на аудио- и image-бенчмарках, но уступает Gemini 3 Pro на видео

Xiaomi заявляет, что MiMo-V2-Omni обходит Gemini 3 Pro по аудио и способна непрерывно записывать более десяти часов. На изображениях (MMMU-Pro: 76,8) она обходит Claude Opus 4.6 (73,9). Но агентские бенчмарки показывают иную картину: на ClawEval модель набирает только 54,8 — заметно позади Claude Opus 4.6 (66,3) и GPT-5.2 (59,6). Зато на веб-навигационном бенчмарке MM-BrowserComp она обошла и Gemini 3 Pro, и GPT-5.2.

Для демонстрации Xiaomi скормила модели записи с видеорегистратора. Схема в реальном времени помечала пешеходов, встречные машины и заторы как потенциальные опасности. В другом сценарии MiMo-V2-Omni сама открыла браузер, нашла отзывы о товаре на Xiaohongshu, сравнила цены на JD.com, поторговалась за скидку через чат поддержки и оформила покупку.

Отдельный демо представил, как модель создаёт мультимедийный контент, дебажит его код и публикует итог в TikTok через браузер - всё без участия человека. Во всех случаях MiMo-V2-Omni принимает решения, а open-source фреймворк OpenClaw выполняет фактические клики и файловые операции.

MiMo-V2-TTS: эмоциональная речь по описанию на естественном языке

Согласно заявлению Xiaomi, модель синтеза речи MiMo-V2-TTS обучена на более чем 100 миллионах часов аудио. Она разбирает речь на некоторое количество параллельных слоёв дискретных единиц (базовых звуковых элементов). Это даёт более тонкий контроль над звучанием, ритмом и эмоциями, чем стандартные TTS-системы.

Ключевое отличие: вместо выбора эмоции из выпадающего списка пользователь описывает необходимый голос обычным языком. «Сонный, только что проснулся, слегка хриплый» звучит иначе, чем «злой, но старающийся сдержаться». Схема равным образом генерирует паралингвистические звуки — кашель, паузы-запинки, вздохи и смех — как часть вывода, а не склеивает аудиоклипы постфактум.

По заявлению Xiaomi, MiMo-V2-TTS — единственный коммерчески достижимый TTS api, который нативно обрабатывает и речь, и пение в одной модели. Она считывает типографские сигналы вроде заглавных букв или повторяющихся символов как указания на акцент и ритм. Так что «ЭТО ВАЖНО» звучит с настоящим ударом, а не просто громче. Даже без стилевых инструкций модель подхватывает нужную интонацию прямо из текста.

Конкурентные бенчмарки, но Xiaomi ещё есть куда расти

Одновременный выпуск трёх специализированных моделей — чёткий сигнал: Xiaomi строит full-stack платформу для AI-агентов. Бенчмарки показывают, что в некоторых областях модели идут ноздря в ноздрю с Anthropic и OpenAI, а в других пока отстают. В частности, по общим агентским задачам MiMo-V2-Pro ещё предстоит поработать, чтобы догнать Claude Opus 4.6.

Дальше команда MiMo берётся за долгосрочное планирование на масштабе часов и дней, реалтайм-стриминг, координированные multi-agent системы (несколько агентов, работающих вместе) и робототехнику. «Мы верим, что путь к общему интеллекту лежит через реальный мир», — пишет команда. «Схема, которая только читает текст, живёт в библиотеке. Модель, которая видит, слышит, рассуждает и действует, живёт в мире.»

Загадка «Hunter Alpha» — это был не Deepseek

До официального анонса Xiaomi MiMo-V2-Pro появилась анонимно на программный интерфейс-платформе OpenRouter под кодовым именем «Hunter Alpha». Xiaomi говорит, что использование стабильно росло: схема некоторое количество дней подряд возглавляла дневной рейтинг и накрутила в общей сложности свыше триллиона токенов. Самый известный скрипт — кодинг.

Многие пользователи гадали, что Hunter Alpha на самом деле Deepseek V4. Но Deepseek ещё далеко — по данным, выход следующей крупной модели отложен из-за растущего размера.

Другие китайские AI-лаборатории тоже не сидят сложа руки. Zhipu AI недавно выпустила GLM-5 — open-source схема на 744 миллиарда параметров, нацеленную на конкуренцию с Claude Opus 4.5 и GPT-5.2 по кодингу и агентским задачам. Moonshot AI с моделью Kimi K2.5 идёт другим путём — через рои (группы) параллельно работающих агентов, а Alibaba расширяет линейку Qwen 3.5.

Читают сейчас

Экипаж лунной миссии «Артемида» II на космическом корабле «Орион» преодолел больше половины пути до Луны

1 час назад

Экипаж лунной миссии «Артемида» II на космическом корабле «Орион» преодолел больше половины пути до Луны

В НАСА сообщили, что экипаж лунной миссии «Артемида» II на космическом корабле «Орион» преодолел больше половины пути до Луны. В настоящий момент корабль находится приблизительно в 141 тыс. км от Луны

Представлен публике дистрибутив Netrunner 26 на Debian 13 «Trixie» и Linux 6.16

1 час назад

Представлен публике дистрибутив Netrunner 26 на Debian 13 «Trixie» и Linux 6.16

В начале апреля 2026 года разработчик проекта Nitrux Ури Эррера объявил о выпуске и общедоступности сборки Netrunner 26 (кодовое название Twilight), спустя более года после выхода Netrunner 25. Инициа

Версия библиотеки meshoptimizer 1.1

2 часа назад

Версия библиотеки meshoptimizer 1.1

2 апреля 2026 года разработчик Arseny Kapoulkine (zeux) представил обновление открытой библиотеки meshoptimizer 1.1. Исходный исходник проекта написан на C++ и JavaScript и опубликован на GitHub под л

Claude Code нашел 23-летний дефект в Linux

8 часов назад

Claude Code нашел 23-летний дефект в Linux

Николас Карлини, исследователь из Anthropic, рассказал на конференции [un]prompted 2026, что с помощью Claude Code обнаружил несколько удаленно эксплуатируемых уязвимостей в ядре Linux. Одна из них —

OpenAI приобрела популярное бизнес-шоу

8 часов назад

OpenAI приобрела популярное бизнес-шоу

Организация OpenAI приобрела популярное ток-шоу технологической индустрии TBPN — Technology Business Programming Network. Ведущим шоу станет главный политический стратег OpenAI Крис Лехейн. Ознакомить