31 марта 2026, 00:03
Alibaba выпустила мультимодальный ИИ Qwen3.5-Omni — он пишет исходник по видеозаписи экрана

Команда Qwen (Alibaba Cloud) представила Qwen3.5-Omni — новое поколение мультимодальной модели, которая принимает на вход текст, изображения, аудио и видео, а на выходе генерирует текст и речь в реальном времени. Модель выпущена в трех размерах — Plus, Flash и Light — и доступна через Offline программный оболочку и Realtime программный оболочку.
Главное отличие от предшественника Qwen3-Omni — масштаб. Контекстное окно выросло с 32 до 256 тысяч токенов: модель обрабатывает более 10 часов аудио или приблизительно 400 секунд видео 720p за один запрос. Распознавание речи теперь охватывает 113 языков и диалектов (было 19), синтез — 36 (было 10). Оба компонента архитектуры — Thinker и Talker — перешли на Hybrid-Attention MoE, а предобучение проводилось на более чем 100 миллионах часов мультимодальных аудио-видеоданных.
По бенчмаркам версия Plus показала SOTA-результаты на большинстве из 36 аудио- и аудио-видео бенчмарков, а равным образом по десяткам языков в распознавании и переводе речи. В общем и целом аудиопонимании, распознавании, переводе и диалоге схема обошла Gemini 3.1 Pro, а в аудио-видео понимании вышла на его уровень. В генерации речи Qwen3.5-Omni-Plus обогнала ElevenLabs, GPT-Audio и Minimax по стабильности голоса на 20 языках. Текстовые и визуальные способности одновременно не просели — они на уровне текстовых Qwen3.5 того же размера.
Среди новых возможностей — семантическое прерывание (модель отличает реальную реплику пользователя от фонового шума), клонирование голоса, управление скоростью, громкостью и эмоцией речи, а также встроенные WebSearch и FunctionCall. Отдельно Alibaba выделяет технику ARIA (Adaptive Rate Interleave Alignment): она динамически выравнивает текстовые и речевые токены, устраняя пропуски слов и нечёткое произношение чисел при стриминге.
Неожиданным побочным эффектом мультимодального масштабирования стала способность, которую в Alibaba назвали Audio-Visual Vibe Coding: схема смотрит видеозапись экрана с аудиоинструкциями и пишет работающий код — без текстового промпта. В компании подчеркивают, что эту способность не тренировали целенаправленно — она возникла как эмерджентное свойство.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас

3 часа назад
Глава Microsoft объяснил, почему ИИ не обесценит людей
Гендиректор Microsoft Сатья Наделла опубликовал в X программную статью о будущем компаний в экономике, которой управляет ИИ. Его основной вывод звучит так: чем мощнее становится искусственный интеллек

5 часов назад
Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках
Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

6 часов назад
Google отключил оператор inurl
Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

7 часов назад
Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat
13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

9 часов назад
Microsoft выпустила версию PowerToys 0.100.0
Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения