24 мая 2026, 17:54

NVIDIA ускорила языковую схема в 4 раза: вышла Nemotron-Labs Diffusion

3 мин

NVIDIA выпустила открытое семейство языковых моделей Nemotron-Labs Diffusion — на флагманском GPU B200 они генерируют 865 токенов в секунду, в 4 раза быстрее обычной токен-за-токеном генерации на том же железе и без потери качества. Линейка включает модели на 3, 8 и 14 миллиардов параметров, плюс мультимодальный вариант на 8 миллиардов с поддержкой картинок.

Главная идея — режим, который в NVIDIA называют self-speculation (самоспекуляция). Обычно для ускорения языковых моделей используют связку из двух моделей: маленькая быстро накидывает некоторое количество токенов вперед как черновик, большая проверяет их одним проходом. Если угадала — экономия, если нет — переделка. В Nemotron-Labs Diffusion черновик и проверяющий — это одна и та же модель в разных режимах работы. Параллельно генерирует черновик из нескольких токенов в диффузионном режиме, затем сама же его верифицирует в обычном авторегрессионном режиме. Никакой отдельной маленькой модели не нужно.

Экономия берется из того, как работают GPU. При обычной генерации каждый новый токен — это цельный проход через всю модель с загрузкой всех весов из памяти, и большую часть времени GPU ждет память, а не полагает. В режиме self-speculation за один проход обрабатывается сразу 5-7 токенов в среднем. Главное: при детерминированной генерации (temperature 0) результат побитово совпадает с обычной авторегрессией. То есть это не приближение и не компромисс — это бесплатное ускорение без изменения ответа.

По цифрам Nemotron-Labs Diffusion 8B дает на 1,2% больше средней точности, чем Qwen3 8B. На бенчмарке SPEED-Bench схема работает в 2,4 раза быстрее, чем Qwen3 8B с Eagle3 — это один из самых сильных методов спекулятивного декодинга в индустрии. Среднее число принятых токенов за один проход у Nemotron-Labs Diffusion — 5,46 (без дообучения) и 6,82 (после тонкой настройки через LoRA), у Eagle3 — 2,75. На задачах программирования, математики, рассуждений и мультиязычности разрыв шире: 8,69 против 2,81.

Сам решение NVIDIA в теории применим и к другим современным языковым моделям — все они авторегрессионные, и способ из предыдущей работы компании Efficient-DLM описывает, как добавить к готовой AR-модели диффузионные возможности через дообучение и модификация механизма внимания, не переписывая ее с нуля. Но на практике это требует доступа к весам и инфраструктуре continued pretraining, поэтому быстрее всего эффект может проявиться в открытых семействах вроде Llama, Qwen или DeepSeek. Закрытые модели вроде Claude, GPT или Gemini смогут получить такое же ускорение только если сами Anthropic, OpenAI или Google сочтут подход работающим для своих архитектур и решат применить его.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

nvidia nemotron Nemotron-Labs Diffusion

Читают сейчас

16 минут назад

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

1 час назад

Google отключил оператор inurl

Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

1 час назад

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

4 часа назад

Microsoft выпустила версию PowerToys 0.100.0

Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения

4 часа назад

Апдейт Telegram: форматирование ботов и Markdown-файлы

Telegram опубликовал крупное обновление с десятками новых функций, в том числе с поддержкой мессенджера на смарт-часах, в том числе с Wear OS, а также опциями для ботов, групп и встроенного браузера.