Cerebras разогнал Google Gemma 4 до 1500 токенов/с — и научил видеть картинки

2 мин
Cerebras разогнал Google Gemma 4 до 1500 токенов/с — и научил видеть картинки

Организация Cerebras, известная гигантскими ИИ-чипами размером с кремниевую пластину, запустила модель Gemma 4 на своей платформе инференса со скоростью свыше 1500 токенов в секунду. Пока это приватное превью, совокупный доступ обещают открыть до конца месяца. Это не первая схема, которую Cerebras запускает на повышенной скорости, но первая с поддержкой мультимодальности: на прием она может получать не только текст, но и картинки.

Cerebras приводит примеры, где сочетание скорости и мультимодальности меняет ощущения от продукта:

  • разбор плотного дашборда или страницы документа с выделением главного и структурированным ответом — сразу, а не после паузы;

  • суммаризация длинного отчета или техзадания так быстро, что можно прочитать, среагировать и переспросить за один присест;

  • "скриншот → патч": схема получает сломанный интерфейс, исходник и ошибку из консоли и возвращает минимальную правку.

В цифрах Cerebras подает это так: их Gemma 4 выдает свыше 1500 токенов в секунду против примерно 100 у Claude Haiku — то есть быстрее в 15 раз при сопоставимом качестве. По индексу Artificial Analysis Intelligence Index Gemma 4 31B набирает 29 баллов против 30 у Haiku. Стоит держать в уме, что и само сравнение, и подбор референсной модели — это позиционирование вендора: Cerebras прямо предлагает мигрировать на Gemma 4 тем, кто сидит на Llama, GPT-OSS или Haiku.

Любопытная деталь для тех, кто следит за архитектурой. Чипы Cerebras традиционно хороши на разреженных вычислениях и заметно хуже чувствуют себя на плотных матрицах — а флагманская Gemma 4 31B как раз dense-модель, без смеси экспертов. Так что 1500 токенов в секунду на ней — знаковый результат для чипов Cerebras, которые как раз нацелены на оперативный и дешевый инференс.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

37 минут назад

Президент РФ подписал закон о штрафах за авторизацию через иностранные сервисы и нарушения рекомендательных технологий

Президент России подписал закон, который вводит административные штрафы за нарушения правил авторизации пользователей на российских сайтах. Кодекс об административных правонарушениях дополняется новым

ASUS возвращает шифрование памяти TSME на платы AM5 для Ryzen 9000

49 минут назад

ASUS возвращает шифрование памяти TSME на платы AM5 для Ryzen 9000

Организация ASUS опубликовала бета-версии BIOS для материнских плат с сокетом AM5, которые восстанавливают поддержку технологии Transparent Secure Memory Encryption™ для потребительских процессоров ли

Новые модели ChatGPT пугают даже правительство США: почему в след за Fable 5 не вышла GTP-5.6

1 час назад

Новые модели ChatGPT пугают даже правительство США: почему в след за Fable 5 не вышла GTP-5.6

Совсем недавно правительство США, увидев возможности выходящей версии ChatGPT 5.6, попросило компанию OpenAI отложить до неопределенного срока версия агента и предоставить его только тем компаниям, ко

1 час назад

Минцифры РФ разработало инициатива требований к оборудованию виртуальных АТС для нужд ОРМ

Минцифры РФ подготовило проект требований к оборудованию виртуальных телефонных станций (ВАТС). Документ определяет, каким условиям должны соответствовать системы коммутации в составе виртуальных АТС.

Ford вернула бывших инженеров для устранения недочётов, допущенных автоматизированными системами

1 час назад

Ford вернула бывших инженеров для устранения недочётов, допущенных автоматизированными системами

Ford вернула в штат бывших инженеров, чтобы обучить молодых сотрудников и перепрограммировать инструменты искусственного интеллекта, которые не справлялись со своей задачей, пишет Bloomberg. За послед