9 июня 2026, 18:15
Xiaomi разогнали 1T-модель до 1200 tok/s на стандартных GPU
Китайские команды MiMo и TileRT опубликовали режим UltraSpeed для модели MiMo V2.5 Pro (1,02T параметров). На одном 8-карточном сервере со стандартными GPU, до ~1200 токенов в секунду. Cerebras выдаёт

6 мая 2026, 10:57
Gemma 4 стала быстрее в 3 раза без потери качества
Google открыла веса вспомогательных моделей для всей линейки Gemma 4 — E2B, E4B, 26B MoE и 31B Dense. Они доступны на Hugging Face и Kaggle под Apache 2.0 и уже работают с transformers, MLX, vLLM, SGL