ИИ, который не тупит: стартап-компания Миры Мурати представил начальный большой инициатива

3 мин
ИИ, который не тупит: стартап-компания Миры Мурати представил начальный большой инициатива

Thinking Machines Lab, стартап бывшего технического директора OpenAI Миры Мурати, представил первое демо новой модели, которая работает с пользователем в режиме живого разговора — слышит, видит и сообщает одновременно, без классической схемы "сначала вопрос, потом ответ". Задержка между репликой пользователя и реакцией модели — 0,4 секунды против 1,18 у GPT-realtime-2.0 и 0,57 у Gemini-3.1-flash-live.

В блог-посте команда объясняет, почему стандартные модели плохо подходят для живого диалога. Обычный чатбот работает по очереди: пока пользователь не закончил печатать или говорить, схема ждет — никакого восприятия, что вообще происходит. Пока модель отвечает, она ничего не слышит и не видит сама. Аналогия из самого поста: будто решать серьезный конфликт по электронной почте, а не лицом к лицу. Пользователи к этому подстроились — стали формулировать запросы как письма и батчить мысли, потому что прерывания и угуканье ("ага", "понял") живого разговора чатбот не тянет.

Архитектурно Thinking Machines выкинула турн-режим (вопрос-ответ) и заменила его на потоковую обработку. Модель режет вход и выход на куски по 200 миллисекунд — и параллельно слушает входящие 200 мс аудио или видео и генерирует следующие 200 мс собственного ответа. Эти куски авторы называют "микро-турнами". Параллельно убрали тяжелые отдельные энкодеры — обычно аудио прогоняют через модель типа Whisper, видео через свой энкодер, и только потом скармливают результат главный модели. Здесь сырой сигнал идет прямо в трансформер через легкий слой векторных представлений (embedding), что заметно срезает задержку.

Сама модель устроена как связка из двух частей. TML-Interaction-Small держит реальное время — слышит, отвечает, реагирует на жесты и интонации. Если задача требует долгого размышления (например, что-то найти в интернете или сгенерировать запутанный ui), она передает запрос более мощной фоновой модели (background model) — это второй компонент, который думает асинхронно и отдает результат, когда готов. TML-Interaction-Small — это разреженная MoE-архитектура (mixture of experts, "смесь экспертов" — когда из общего пула параметров на каждом шаге задействуется только часть) на 276 миллиардов параметров, из которых на каждом шаге активны 12 миллиардов. Технические характеристики background model пока не раскрываются.

Ситуация в бенчмарках следующая. На FD-bench V1.5 — это проверка на качество живого взаимодействия, который проверяет работу с прерываниями, фоновой речью и репликами в сторону — TML-Interaction-Small набрал 77,8 балла против 46,8 у GPT-realtime-2.0 (minimal) и 54,3 у Gemini-3.1-flash-live. Еще интереснее на тестах визуальной проактивности, которые Thinking Machines адаптировала специально. На RepCount-A (схема по видео должна вслух считать отжимания или приседания) TML дал 35,4, GPT-realtime-2.0 — 1,3. На CueSpeak (модель должна сама заговорить в нужный момент, реагируя на словесный триггер пользователя) — 81,7 против 2,9. Конкуренты на этих задачах практически молчат.

Сейчас доступ к моделям есть только у избранных партнеров — Thinking Machines планирует в ближайшие месяцы открыть ограниченное превью для сбора обратной связи, а полноценный релиз запланирован до конца года. Для самой Мурати это второй открытый продукт после Tinker, инструмента для исследователей, который запустили в октябре 2025-го.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

1 час назад

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

Google отключил оператор inurl

2 часа назад

Google отключил оператор inurl

Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

3 часа назад

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

Microsoft выпустила версию PowerToys 0.100.0

5 часов назад

Microsoft выпустила версию PowerToys 0.100.0

Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения

Апдейт Telegram: форматирование ботов и Markdown-файлы

6 часов назад

Апдейт Telegram: форматирование ботов и Markdown-файлы

Telegram опубликовал крупное обновление с десятками новых функций, в том числе с поддержкой мессенджера на смарт-часах, в том числе с Wear OS, а также опциями для ботов, групп и встроенного браузера.