6 мая 2026, 12:23

Представлена языковая схема с линейной сложностью вычислений и контекстом до 12 млн токенов

5 мин

Кратко: стартап Subquadratic представил SubQ 1M-Preview — первую языковую схема с линейной сложностью вычислений по сравнению с длины контекста. Заявлены контекст до 12 млн токенов, скорость в 52 раза выше FlashAttention и радикальное снижение стоимости. Независимых тестов пока нет (хотя стартап-компания заявляет о сторонней верификации своих бенчмарков), доступ закрыт. Техническое сообщество реагирует сдержанно: пока это амбициозный пресс-релиз, а не готовый инструмент.

Квадратичный рост затрат классических трансформеров () против линейного масштабирования архитектуры SubQ () — Квадратичный рост затрат классических трансформеров против линейного масштабирования архитектуры SubQ

Архитектура SubQ обеспечивает линейный увеличение затрат, что снижает нагрузку на GPU почти в 1000 раз на длинных контекстах по сравнению с классическими трансформерами. Источник: subq.ai

Главная архитектурная боль современных языковых моделей — квадратичная сложность механизма внимания. С ростом длины контекста вычислительные затраты и потребление памяти увеличиваются непропорционально быстро. Индустрия годами обходила ограничение «костылями»: поиск с дополненной генерацией (RAG), разбиение текста на фрагменты, векторные хранилища. Инженеры тратят много времени на обход ограничений современных LLM: частичный контекст, галлюцинации и дороговизна обработки длинных запросов.

Стартап-компания Subquadratic утверждает, что сломал этот барьер. Их архитектура обеспечивает линейный рост вычислений по сравнению с длины контекста. Звучит как мечта, но техническое сообщество пока держит паузу.

Ключевые заявления

Линейное масштабирование: Сложность вместо . Обработка миллионов токенов без взрывного роста затрат.
Контекст до 12 млн токенов: Флагманские модели обычно деградируют задолго до заявленных 1–2 млн. SubQ обещает стабильную точность на всём объёме.
Скорость и эффективность: Механизм SubQ Sparse Attention работает в 52 раза быстрее FlashAttention и требует на 63% меньше вычислительных ресурсов.
Точность: На тесте RULER 128K модель показала 95% (против 94,8% у Claude Opus 4.6). На сложном MRCR v2 (многошаговое рассуждение по разрозненным данным) исследовательская релиз набрала 83, а рабочая — 65,9. Для сравнения: GPT-5.5 — 74, Claude Opus 4.7 — 32,2. На SWE-Bench Verified результат составил 81,8 (Opus 4.6 — 80,8).

Важно: разрыв между исследовательской и рабочей версиями огромен. Насколько сильно качество «урезается» ради скорости в продакшене — публичный вопрос.

Стартап выпустил три продукта с закрытым доступом:

api: Полноконтекстный оболочку для разработчиков. Гигабайты текста — одним запросом.
SubQ Code: Агент для командной строки. Загружает весь репозиторий в одно окно контекста. Без мультиагентных оркестраций и сложных цепочек вызовов. Вопрос «где используется эта библиотека?» обрабатывается с учётом всей кодовой базы.
SubQ Search: Инструмент глубокого поиска по длинным документам. Позиционируется как замена тяжёлым RAG-системам для корпоративных знаний.

Всё доступно только в контексте закрытого тестирования. Публичного входа нет.

Реакция технического сообщества

Без открытых проверок дискуссия сместилась с «как внедрять» на «можно ли верить цифрам». В профильных обсуждениях доминируют следующие аргументы:

Скепсис к тестам

Цифры впечатляют, но инженеры отмечают: пока модель не покажет себя на реальном коде или юридическом договоре на 500 страниц с перекрёстными ссылками, доверять ранним результатам рано. История знает немало случаев «подгонки» под конкретные наборы данных.

Разрыв между исследовательской и рабочей версиями настораживает. Есть гипотеза, что высокая скорость достигается агрессивным прореживанием внимания, что может «срезать» важные детали в длинных зависимостях.

Экономика против качества

Главный фактический вопрос — цена. Если масштабирование действительно линейное, стоимость вывода модели должна упасть на порядки. Это откроет путь к анализу серверных логов в реальном времени или обработке годового архива обращений поддержки одним запросом. Но каков тариф за миллион токенов? Если он близок к текущим лидерам, преимущество нивелируется.

Тарифы не раскрыты, поэтому экономический эффект остаётся теоретическим.

SubQ Code: прорыв или иллюзия?

Мнения разработчиков разделились:

Оптимисты: «Наконец-то можно скачать весь монолит и спросить: как изменить логику, ничего не сломав?»
Скептики: «Длинный контекст ≠ глубокое понимание. Сможет ли схема корректно связать зависимости между разрозненными модулями? Риск уверенной генерации ошибочного кода на основе нерелевантных фрагментов никуда не делся.»

Команда и финансирование

В основе — исследователи из Meta, Google, Oxford, Cambridge, ByteDance и Adobe. Посевной раунд составил $29 млн при участии ранних инвесторов Anthropic, OpenAI и Stripe. Это серьёзная заявка, но даже сильные академические команды не застрахованы от проблем с масштабированием новых архитектур в рабочих средах.

Нет опыта практического использования

В открытом доступе нет ни одного независимого обзора, кейса или отзыва. Продукт находится в закрытом тестировании, доступ предоставляется по приглашениям. Любые заявления о «реальном опыте» сейчас — спекуляция.

Что это значит на практике?

Для разработчиков:

Следите за появлением модели в независимых рейтингах (LMSYS Chatbot Arena, открытые тесты сообщества).
Готовьтесь к сдвигу парадигмы: если заявления подтвердятся, классический RAG может уйти в нишевые задачи. Зачем искать фрагменты, если можно обработать весь массив?

Для бизнеса:

Экономика станет решающим фактором. Линейная стоимость контекста откроет сценарии, которые раньше были нерентабельны: анализ медицинских карт, расшифровок встреч, сплошной юридический аудит.
Риск зависимости от вендора. Закрытая архитектура означает цельный контроль поставщика над доступом и тарифами.

Результат

SubQ предлагает не эволюцию, а архитектурную революцию. Но революция требует доказательств.

Пока перед нами «чёрный ящик» с впечатляющей математикой на бумаге. Техническое сообщество занимает выжидательную позицию: «Хотим верить, но нужны воспроизводимые результаты».

Рекомендация проста: дождитесь публичного программный интерфейс и независимых замеров. Когда модель выйдет из закрытого контура, мы узнаем, станет ли линейное масштабирование новым стандартом или останется красивой лабораторной работой. А пока — отличная тема для дискуссии, но не средство для продакшена.

LLM большие языковые модели трансформеры контекстное окно RAG бенчмарки инференс нейросети ИИ SubQ

Читают сейчас

31 минуту назад

Глава Microsoft объяснил, почему ИИ не обесценит людей

Гендиректор Microsoft Сатья Наделла опубликовал в X программную статью о будущем компаний в экономике, которой управляет ИИ. Его основной вывод звучит так: чем мощнее становится искусственный интеллек

2 часа назад

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

3 часа назад

Google отключил оператор inurl

Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

3 часа назад

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

6 часов назад

Microsoft выпустила версию PowerToys 0.100.0

Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения