Тысячи токенов в секунду: Nvidia добавила чипы Groq в стойки Vera Rubin

2 мин
Тысячи токенов в секунду: Nvidia добавила чипы Groq в стойки Vera Rubin

На конференции GTC 2026 Nvidia показала новый тип серверных стоек — LPX, в которых 256 чипов Groq 3 LPU работают в связке со стойками Vera Rubin NVL72. Это начальный случай, когда Nvidia интегрирует сторонний процессор в свою платформу. Технологию Groq организация получила в конце 2025 года в контексте сделки на $20 млрд, вместе с основателем Groq Джонатаном Россом и президентом Санни Мадрой.

Идея в разделении труда: GPU Rubin обрабатывают входящие промпты (этап prefill), а LPU от Groq берут на себя генерацию токенов (этап decode). Пропускная способность SRAM-памяти у Groq 3 достигает 150 TB/s на процессор — это почти в 7 раз больше, чем 22 TB/s у HBM4-памяти в GPU Rubin. Каждый LPU выдает 1,2 петафлопса в FP8, но вмещает всего 500 МБ памяти — около в 500 раз меньше, чем у Rubin GPU. Следовательно их и нужно 256 штук в одной стойке, а для моделей с триллионом параметров — некоторое количество стоек.

Стойки LPX подключаются к NVL72 через интерконнект Spectrum-X. Согласно заявлению Яна Бака, вице-президента Nvidia по гиперскейлу, связка даёт возможность обслуживать модели с триллионом параметров на скорости в тысячи токенов в секунду на пользователя. При этом LPU пока не поддерживают CUDA нативно — они работают как ускоритель к платформе Vera NVL72.

Интеграция LPU практически заменила собственный инициатива Nvidia — чип Rubin CPX, анонсированный на Computex в прошлом году. От него отказались в пользу подхода Groq. Nvidia рассчитывает, что провайдеры инференса смогут брать за «премиальные токены» до $45 за миллион — втрое больше, чем нынешние $15 у OpenAI за модель GPT-5.4.

Nvidia — не единственная, кто идет этим путем. В пятницу AWS объявила о похожей связке: ускорители Trainium 3 для prefill и SRAM-чипы Cerebras WSE-3 для генерации токенов. Разделение инференса на две стадии с разным железом может превратиться из эксперимента в индустриальный тренд.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

21 минуту назад

«Яндекс» показал подборку промптов для подготовки школьников к экзаменам через «Алису AI»

«Яндекс» выпустил подборку промптов для подготовки к школьным экзаменам с помощью «Алисы AI». В экзаменационный период система «Промптхаб» и нейросеть помогают школьникам готовиться к Государственной

37 минут назад

Европейские компании запустили офисный пакет Euro-Office как альтернативу Microsoft Office

Коалиция европейских компаний и общественных организаций запустила Euro‑Office. Это офисный пакет для работы с документами, таблицами и презентациями. Инициатива разработан более чем десятью организац

После nanochat Карпати — nanocode: свой Claude Code за $200 на минималках

1 час назад

После nanochat Карпати — nanocode: свой Claude Code за $200 на минималках

Разработчик из команды torchtune (входит в Meta* — компания признана экстремистской и запрещена в России) Салман Мохаммади выложил nanocode — open-source библиотеку, которая даёт возможность обучить с

«Яндекс» и «СтопБорщевик» запустили ИИ-сервис для обнаружения борщевика на спутниковых снимках

1 час назад

«Яндекс» и «СтопБорщевик» запустили ИИ-сервис для обнаружения борщевика на спутниковых снимках

Специалисты из Школы анализа данных совместно с экспертами Центра технологий для общества «Яндекса» и движением «СтопБорщевик» запустили ИИ‑сервис для обнаружения зарослей борщевика Сосновского на спу

Организация «Решетнёв» освоила производство гибких печатных кабелей для спутников

2 часа назад

Организация «Решетнёв» освоила производство гибких печатных кабелей для спутников

Компания «Решетнёв» (входит в госкорпорацию «Роскосмос») создаёт гаджет с гибкими печатными кабелями собственного производства для спутника‑ретранслятора «Луч-5ВМ». В рамках проекта «Луч-5ВМ» на предп