DeepSeek-V4: Тихий гигант

6 мин
DeepSeek-V4: Тихий гигант

Привет, ! 👋 Сегодня разбираем, что принесла новая релиз: прорыв или эволюция? Действительно ли «триллион параметров» — это не маркетинг? И главное — стоит ли переключаться с Claude или GPT?

Ключевые характеристики

Параметр

DeepSeek-V4 Flash

DeepSeek-V4 Pro

Общее количество параметров

~400 млрд

~1.6 трлн

Активные параметры на токен

~12 млрд

~49 млрд

Экспертов на слой (MoE)

96

384

Активных экспертов на токен

3

6

Контекстное окно

1 000 000 токенов

1 000 000 токенов

KV Cache (при 1M контексте)

~8% от V3.2

~10% от V3.2

Вычислительные затраты (FLOPs)

~22% от V3.2

~27% от V3.2

Модальности

Текст

Текст

Лицензия

MIT

MIT

Цена api (вход/выход)

$0.14 / $0.28 за 1M токенов

$1.74 / $3.48 за 1M токенов

Архитектура: почему «триллион» больше не пугает

MoE 3.0: библиотека экспертов, которая не шумит

Главная инновация — эволюция Mixture-of-Experts. Если в V3 было 256 экспертов на слой, то в V4-Pro их уже 384, но для генерации одного токена активируется только 6 из них.

Входной токен

[Роутинг-механизм] → выбирает 6 наиболее релевантных экспертов

Параллельная обработка в выбранных экспертах

Агрегация результатов → выходной токен

Что это даёт:

  • Знания модели масштаба триллиона параметров

  • Стоимость инференса как у модели на ~50 млрд параметров

  • Возможность локального запуска: INT4-квантование помещается в 1×RTX 4090 для Flash-версии

DSA2: как читать миллион токенов, не утонув в памяти

Задача длинных контекстов известна: квадратичная сложность внимания убивает эффективность. DeepSeek решила её через гибридный алгоритм внимания DSA2 (DeepSeek Sparse Attention 2), сочетающий:

Модуль

За что отвечает

CSA (Clustered Sparse Attention)

Группировка токенов в семантические кластеры

HCA (Hierarchical Context Aggregation)

Иерархическое сжатие дальних зависимостей

Локальное окно

Точная работа с ближайшим контекстом

Результат: при работе с 1 000 000 токенов:

  • Потребление памяти (KV Cache) — всего 10% от уровня V3.2

  • Вычислительные затраты — 27 процентов от базовой архитектуры

  • Точность извлечения (Needle-in-a-Haystack) — 97.3%

Аппаратная независимость: жизнь после CUDA?

Один из самых животрепещущих вопросов: удалось ли обойтись без экосистемы NVIDIA?

Ответ: частично — и это уже прорыв.

DeepSeek официально подтвердила: ✅ Валидация тонкозернистой параллелизации экспертов на NVIDIA H100/A100✅ Полная поддержка Huawei Ascend 910B и Cambricon MLU370✅ Оптимизация под будущие Ascend 950 (ожидается Q3 2026) — с прогнозируемым снижением стоимости инференса на 40-60%.

Почему это важно:

  • Доказана жизнеспособность обучения триллионных моделей без A100/H100

  • Китайская AI-индустрия демонстрирует готовность к «пост-CUDA» миру

  • Для разработчиков из регионов с ограничениями на импорт железа — это альтернатива


Бенчмарки: догнали, но не перегнали?

Самый честный раздел. Сравним с лидерами (данные на апрель 2026):

Бенчмарк

V4-Pro

V4-Flash

Claude Opus 4.6

GPT-5.5

V3 (для сравнения)

Apex Shortlist (рассуждения)

90.2%

84.1 процентов

92.8%

91.5%

78.3%

Codeforces (Elo)

3206

2987

3312

3289

2741

HumanEval

89.7%

85.2%

91.3%

90.8%

82.1%

SWE-bench Verified

78.4%

68.9%

82.1 процентов

81.3%

49.2%

MATH

91.8%

87.3%

93.1%

92.4%

84.6%

Needle-in-a-Haystack (1M)

97.3%

95.1%

84.2%

Критический разбор:

Где V4 сияет:

  • 🏆 Агентные сценарии: в бенчмарке Agentic Coding — SOTA среди открытых моделей

  • 🏆 Работа с длинным контекстом: 97%+ точность извлечения на 1M токенов

  • 🏆 Цена/качество: 5-10% от стоимости закрытых аналогов при 90% качества

Где ещё есть отставание:

  • ⚠️ Long CoT (длинные цепочки рассуждений): в сложных многошаговых задачах V4 всё ещё уступает Opus 4.6 в режиме «размышления»

  • ⚠️ Креативность и стиль: схема склонна к «сухому», формальному изложению — не лучший выбор для копирайтинга или поэзии

  • ⚠️ Мультимодальность: текст-онли. Нет нативной поддержки изображений, схем, скриншотов — серьёзное ограничение в 2026 году

💡 Вывод: если вам нужен надёжный «рабочий конь» для кода, аналитики и работы с документами — V4 идеален. Если же вы создаёте контент, работаете с визуальными данными или нуждаетесь в «человеческом» стиле — пока присмотритесь к Gemini 3.1 или GPT-5.5.


💰 Экономика: почему это меняет правила игры

Цены на api остаются низкими — и это стратегическое оружие DeepSeek:

DeepSeek-V4 Flash: • Входные токены: $0.14 / 1M • Выходные токены: $0.28 / 1M

DeepSeek-V4 Pro: • Входные токены: $1.74 / 1M
• Выходные токены: $3.48 / 1M

Для сравнения (апрель 2026): • GPT-5.5: ~15 / 1M вход, ~30 / 1M выход • Claude Opus 4.6: ~12 / 1M вход, ~25 / 1M появление

Что это значит на практике:

  • Проект с 10 млн токенов в месяц обойдётся в $3.48 на V4-Pro против $300+ на GPT-5.5

  • Возможность массового внедрения AI-агентов в стартапах и малом бизнесе

  • Стимул к самохостингу: веса под лицензией MIT на Hugging Face

    Практика: как начать работать с V4 уже сегодня

    Вариант 1: Через api (оперативный старт)

Пример запроса к DeepSeek api
import requests
response = requests.post (
https://программный интерфейс.deepseek.com/v1/chat/completions”,
headers={“Authorization”: “Bearer YOUR_KEY”},
json={
“model”: “deepseek-v4-pro”,
“messages”: [{“role”: “user”, “content”: “Проанализируй этот код…”}],
“max_tokens”: 4096,
“temperature”: 0.2 } )


Вариант 2: Локальное развёртывание (для контроля и приватности)

Требования для V4-Flash (INT4):
• GPU: 1×RTX 4090 (24 ГБ) или 2×3090
• RAM: 32 ГБ
• Диск: 50 ГБ SSD

Вариант 3: Гибридный (RAG + V4)
Документация

[Векторизация + фильтрация]

Топ-50 релевантных фрагментов

[DeepSeek-V4 с контекстом 32K]

Точный ответ + цитирование источников

Что дальше? Стратегия и слухи

Официально:

  • Фокус на демократизации доступа к длинному контексту

  • Развитие агентных фреймворков (встраивание с OpenClaw и другими)

  • Подготовка Ascend-оптимизированных версий к выходу Ascend 950

В кулуарах (неподтверждённо):

  • 🤫 DeepSeek R2: модель, обученная с акцентом на Long CoT и RLAIF — возможный ответ на o1 и Claude «reasoning»-режимы

  • 🤫 V4.5-Multimodal: работа над нативной поддержкой изображений и схем, выпуск ожидается Q4 2026

  • 🤫 Edge-версии: квантованные модели для мобильных устройств и браузерного инференса


✅ Чек-лист: стоит ли переходить на DeepSeek-V4?

Да, если вы:

  • Разрабатываете AI-агентов для работы с кодом или документами

  • Нуждаетесь в обработке контекста >128K токенов

  • Ограничены бюджетом на api-вызовы

  • Предпочитаете самохостинг и контроль над данными

  • Работаете в регионе с ограничениями на доступ к западным моделям

Пока нет, если вы:

  • Создаёте креативный контент (поэзия, маркетинг, сторителлинг)

  • Нуждаетесь в нативной работе с изображениями/видео

  • Требуете максимальной точности в сложных многошаговых рассуждениях

  • Уже инвестировали в пайплайны под GPT/Claude и не готовы к миграции


Вместо заключения: эволюция, которая меняет правила

DeepSeek-V4 — это не революция в стиле «шоковый выпуск» 2025 года. Это зрелая, сфокусированная эволюция, которая закрепляет открытые модели в мейнстриме.

🏆 Главное достижение: 90% возможностей лучших закрытых моделей — за 5-10% их стоимости, с открытыми весами и возможностью локального запуска.

Да, есть ограничения. Да, мультимодальность ещё впереди. Да, в креативе пока не догнали. Но для подавляющего большинства фактических задач — код, аналитика, документооборот, агентные сценарии — V4 уже сегодня является оптимальным выбором.

И самое важное: выход этой модели доказывает, что конкуренция в ИИ жива. Что открытые сообщества и независимые лаборатории могут бросать вызов технологическим гигантам. Что «доступный ИИ» — не лозунг, а инженерная реальность.


Что думаете? Уже тестируете V4? Или ждёте мультимодальную версию? Делитесь в комментариях — обсудим кейсы, баги и инсайты. 👇

Читают сейчас

От самописных скриптов к промышленной платформе: автоматизация международного хостинга на базе VMmanager и BILLmanager

26 минут назад

От самописных скриптов к промышленной платформе: автоматизация международного хостинга на базе VMmanager и BILLmanager

VPS.one — международный хостинг-провайдер, специализирующийся на виртуальных серверах (VPS) на базе KVM с SSD-накопителями и полным root-доступом. Организация работает с клиентами по всему миру, фокус

Perplexity раскрыла, как обучает поискового AI-агента на Qwen

34 минуты назад

Perplexity раскрыла, как обучает поискового AI-агента на Qwen

Команда Perplexity AI опубликовала техотчёт о создании своего поискового агента на базе моделей Qwen3.5. Результаты выглядят неожиданно сильными: схема Qwen3.5-397B после SFT и RL достигает 73,9% точн

На Alibaba выложили для продажи медицинские информация 500 тыс. добровольцев биобанка UK Biobank

48 минут назад

На Alibaba выложили для продажи медицинские информация 500 тыс. добровольцев биобанка UK Biobank

На сайте Alibaba продавали медицинские информация 500 тыс. добровольцев биобанка UK Biobank, который занимается сбором медицинской информации для исследований. В пакет данных вошли пол, возраст, дата

Xiaomi выпустила новую версию своих LLM-моделей: MiMo-V2.5

1 час назад

Xiaomi выпустила новую версию своих LLM-моделей: MiMo-V2.5

Два дня назад, 22 апреля, Xiaomi выпустила серию новых модели: MiMo-V2.5-Pro, MiMo-V2.5 и а также модели TTS и Speech Recognition. В этот же день Pro-модель появилась и в бенчмарке Artificial Analysis

1 час назад

ФАС РФ: оператор «Ловител» установил недискриминационный доступ к инфраструктуре жилых комплексов для операторов связи

Федеральная антимонопольная сервис (ФАС) РФ сообщила, что оператор «Ловител» (группы лиц ПИК) установил недискриминационный доступ к инфраструктуре жилых комплексов для операторов связи. Ознакомиться