
25 мая 2026, 13:28
Cerebras запустили Kimi K2.6 на скорости ~1000 токенов в секунду
Cerebras запустили Kimi K2.6 (1T open-weight) на своём чипе со скоростью 981 токен/с — в 6,7× быстрее лучших GPU-облаков. Запрос 10k токенов на вход и 500 токенов на появление обрабатывается за 5,6 се

6 мая 2026, 10:57
Gemma 4 стала быстрее в 3 раза без потери качества
Google открыла веса вспомогательных моделей для всей линейки Gemma 4 — E2B, E4B, 26B MoE и 31B Dense. Они доступны на Hugging Face и Kaggle под Apache 2.0 и уже работают с transformers, MLX, vLLM, SGL