Google выпустила DiffusionGemma — открытую языковую схема, которая генерирует текст как картинку

3 мин
Google выпустила DiffusionGemma — открытую языковую схема, которая генерирует текст как картинку

Google DeepMind представила DiffusionGemma — экспериментальную модель с открытыми весами, которая отказывается от классической авторегрессии в пользу дискретной диффузии. Вместо того чтобы выдавать токены по одному слева направо, схема работает как генераторы изображений: начинает со случайного "шума" из токенов-заглушек и за несколько проходов уточняет целый блок текста размером до 256 токенов сразу. Веса уже доступны на Hugging Face под лицензией Apache 2.0.

В основе лежит архитектура Gemma 4 26B A4B — модель со смесью экспертов на 26 миллиардов параметров, из которых при выводе активны лишь 3,8 миллиарда. Благодаря этому квантованная релиз умещается в 18 ГБ видеопамяти и запускается на потребительских видеокартах. Главный выигрыш — скорость: Google заявляет до 4 раз более быструю генерацию относительно обычными авторегрессионными моделями, свыше 700 токенов в секунду на GeForce RTX 5090 и более 1000 токенов в секунду на одном ускорителе H100. Дело в том, что при локальном запуске для одного пользователя классические модели упираются в пропускную способность памяти, а диффузионный подход смещает узкое место в сторону вычислений, которые у современных видеокарт в избытке.

Ключевой механизм Google называет Uniform State Diffusion: модель делает несколько проходов по "холсту" из случайных токенов, на каждом фиксирует позиции, в которых уверена, и использует их как контекст для соседних. Для длинных ответов применяется блочно-авторегрессионная модель: полностью "расшумленный" блок из 256 токенов записывается в KV-кеш, после чего модель начинает свежий холст с учетом всей предыдущей истории. Двунаправленное внимание внутри блока дает побочный эффект, недоступный обычным моделям, — самокоррекцию: DiffusionGemma "видит" весь фрагмент целиком и может исправлять ошибки на лету, а не дописывать текст к уже зафиксированным токенам.

Возможности такого подхода Google показывает на судоку — задаче с жесткими взаимными ограничениями, где авторегрессионные модели традиционно буксуют. Базовая DiffusionGemma решает примерно 0% головоломок, но после простого дообучения по официальному рецепту на JAX доля правильных решений вырастает до 80%, причем дообученная схема сходится за меньшее число шагов. При этом компания честно признает компромисс: по всем бенчмаркам DiffusionGemma уступает обычной Gemma 4 26B A4B, и для задач, где важно максимальное качество, Google рекомендует стандартную схема.

Схема мультимодальная — принимает текст, изображения и видео, выдает текст, поддерживает системный промпт и режим рассуждений. Сопровождение в Hugging Face Transformers, vLLM, SGLang, MLX и Unsloth заявлена с первого дня, развернуть ее можно в Vertex AI Model Garden или через NVIDIA NIM, а квантованные версии в формате GGUF уже доступны для llama.cpp. Это начальный по-настоящему практичный текстовый диффузионник с открытыми весами от крупной лаборатории: год назад Google показывала Gemini Diffusion только в закрытом исследовательском превью, теперь же технологию можно запустить у себя на видеокарте.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Глава Microsoft объяснил, почему ИИ не обесценит людей

1 час назад

Глава Microsoft объяснил, почему ИИ не обесценит людей

Гендиректор Microsoft Сатья Наделла опубликовал в X программную статью о будущем компаний в экономике, которой управляет ИИ. Его основной вывод звучит так: чем мощнее становится искусственный интеллек

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

3 часа назад

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

Google отключил оператор inurl

4 часа назад

Google отключил оператор inurl

Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

5 часов назад

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

Microsoft выпустила версию PowerToys 0.100.0

7 часов назад

Microsoft выпустила версию PowerToys 0.100.0

Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения