
26 марта 2026, 10:16
3 бита хватит: Google ускорила работу LLM за счет сжатия кэша
Google Research представила TurboQuant — алгоритм, который сжимает внутренний кэш больших языковых моделей до 3 бит. Одновременно качество ответов модели не падает, а дообучение не требуется. Работу п