3 бита хватит: Google ускорила работу LLM за счет сжатия кэша

2 мин
3 бита хватит: Google ускорила работу LLM за счет сжатия кэша

Google Research представила TurboQuant — алгоритм, который сжимает внутренний кэш больших языковых моделей до 3 бит. Одновременно качество ответов модели не падает, а дообучение не требуется. Работу покажут на конференции ICLR 2026.

Когда языковая схема обрабатывает длинный текст, она сохраняет промежуточные информация в так называемом кэше "ключ-значение" (key-value cache). Чем длиннее контекст, тем больше памяти съедает этот кэш — и тем медленнее работает схема. TurboQuant решает проблему в два шага: сначала алгоритм PolarQuant переводит информация в полярные координаты и сжимает их основную часть, а затем однобитовый алгоритм QJL устраняет остаточные ошибки. Вместе они позволяют обойтись без дополнительных затрат памяти, которые обычно сопровождают квантизацию.

Авторы протестировали TurboQuant на открытых моделях Gemma и Mistral на стандартных бенчмарках для работы с длинным контекстом — LongBench, Needle In A Haystack, RULER и других. Результаты: объем кэша сокращается минимум в 6 раз, а вычисление механизма внимания ускоряется до 8 раз на GPU H100 (в 4-битном режиме по сравнению с 32-битным). На задачах поиска "иголки в стоге сена" — когда нужно найти один факт в огромном тексте — схема с TurboQuant отработала без ошибок.

Помимо языковых моделей, механизм применим и для векторного поиска — технологии, которая лежит в основе семантического поиска Google. TurboQuant показал лучшую точность по сравнению с существующими методами квантизации, при этом не требуя настройки под определённый набор данных.

Google подчёркивает, что TurboQuant — не просто инженерное решение, а фундаментальный алгоритмический результат с доказанной оптимальностью. По мере роста контекстных окон и масштабов поиска такие методы сжатия становятся критически важными для всей индустрии.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Экипаж лунной миссии «Артемида» II на космическом корабле «Орион» преодолел больше половины пути до Луны

1 час назад

Экипаж лунной миссии «Артемида» II на космическом корабле «Орион» преодолел больше половины пути до Луны

В НАСА сообщили, что экипаж лунной миссии «Артемида» II на космическом корабле «Орион» преодолел больше половины пути до Луны. В настоящий момент корабль находится приблизительно в 141 тыс. км от Луны

Представлен публике дистрибутив Netrunner 26 на Debian 13 «Trixie» и Linux 6.16

1 час назад

Представлен публике дистрибутив Netrunner 26 на Debian 13 «Trixie» и Linux 6.16

В начале апреля 2026 года разработчик проекта Nitrux Ури Эррера объявил о выпуске и общедоступности сборки Netrunner 26 (кодовое название Twilight), спустя более года после выхода Netrunner 25. Инициа

Версия библиотеки meshoptimizer 1.1

2 часа назад

Версия библиотеки meshoptimizer 1.1

2 апреля 2026 года разработчик Arseny Kapoulkine (zeux) представил обновление открытой библиотеки meshoptimizer 1.1. Исходный исходник проекта написан на C++ и JavaScript и опубликован на GitHub под л

Claude Code нашел 23-летний дефект в Linux

8 часов назад

Claude Code нашел 23-летний дефект в Linux

Николас Карлини, исследователь из Anthropic, рассказал на конференции [un]prompted 2026, что с помощью Claude Code обнаружил несколько удаленно эксплуатируемых уязвимостей в ядре Linux. Одна из них —

OpenAI приобрела популярное бизнес-шоу

8 часов назад

OpenAI приобрела популярное бизнес-шоу

Организация OpenAI приобрела популярное ток-шоу технологической индустрии TBPN — Technology Business Programming Network. Ведущим шоу станет главный политический стратег OpenAI Крис Лехейн. Ознакомить