1 час назад
DeepSeek-V4: Тихий гигант


Привет, ! 👋 Сегодня разбираем, что принесла новая релиз: прорыв или эволюция? Действительно ли «триллион параметров» — это не маркетинг? И главное — стоит ли переключаться с Claude или GPT?
Ключевые характеристики
Параметр | DeepSeek-V4 Flash | DeepSeek-V4 Pro |
|---|---|---|
Общее количество параметров | ~400 млрд | ~1.6 трлн |
Активные параметры на токен | ~12 млрд | ~49 млрд |
Экспертов на слой (MoE) | 96 | 384 |
Активных экспертов на токен | 3 | 6 |
Контекстное окно | 1 000 000 токенов | 1 000 000 токенов |
KV Cache (при 1M контексте) | ~8% от V3.2 | ~10% от V3.2 |
Вычислительные затраты (FLOPs) | ~22% от V3.2 | ~27% от V3.2 |
Модальности | Текст | Текст |
Лицензия | MIT | MIT |
Цена api (вход/выход) | $0.14 / $0.28 за 1M токенов | $1.74 / $3.48 за 1M токенов |
Архитектура: почему «триллион» больше не пугает
MoE 3.0: библиотека экспертов, которая не шумит
Главная инновация — эволюция Mixture-of-Experts. Если в V3 было 256 экспертов на слой, то в V4-Pro их уже 384, но для генерации одного токена активируется только 6 из них.
Входной токен
↓
[Роутинг-механизм] → выбирает 6 наиболее релевантных экспертов
↓
Параллельная обработка в выбранных экспертах
↓
Агрегация результатов → выходной токен
Что это даёт:
Знания модели масштаба триллиона параметров
Стоимость инференса как у модели на ~50 млрд параметров
Возможность локального запуска: INT4-квантование помещается в 1×RTX 4090 для Flash-версии
DSA2: как читать миллион токенов, не утонув в памяти
Задача длинных контекстов известна: квадратичная сложность внимания убивает эффективность. DeepSeek решила её через гибридный алгоритм внимания DSA2 (DeepSeek Sparse Attention 2), сочетающий:
Модуль | За что отвечает |
|---|---|
CSA (Clustered Sparse Attention) | Группировка токенов в семантические кластеры |
HCA (Hierarchical Context Aggregation) | Иерархическое сжатие дальних зависимостей |
Локальное окно | Точная работа с ближайшим контекстом |
Результат: при работе с 1 000 000 токенов:
Потребление памяти (KV Cache) — всего 10% от уровня V3.2
Вычислительные затраты — 27 процентов от базовой архитектуры
Точность извлечения (Needle-in-a-Haystack) — 97.3%
Аппаратная независимость: жизнь после CUDA?
Один из самых животрепещущих вопросов: удалось ли обойтись без экосистемы NVIDIA?
Ответ: частично — и это уже прорыв.
DeepSeek официально подтвердила: ✅ Валидация тонкозернистой параллелизации экспертов на NVIDIA H100/A100✅ Полная поддержка Huawei Ascend 910B и Cambricon MLU370✅ Оптимизация под будущие Ascend 950 (ожидается Q3 2026) — с прогнозируемым снижением стоимости инференса на 40-60%.
Почему это важно:
Доказана жизнеспособность обучения триллионных моделей без A100/H100
Китайская AI-индустрия демонстрирует готовность к «пост-CUDA» миру
Для разработчиков из регионов с ограничениями на импорт железа — это альтернатива
Бенчмарки: догнали, но не перегнали?
Самый честный раздел. Сравним с лидерами (данные на апрель 2026):
Бенчмарк | V4-Pro | V4-Flash | Claude Opus 4.6 | GPT-5.5 | V3 (для сравнения) |
|---|---|---|---|---|---|
Apex Shortlist (рассуждения) | 90.2% | 84.1 процентов | 92.8% | 91.5% | 78.3% |
Codeforces (Elo) | 3206 | 2987 | 3312 | 3289 | 2741 |
HumanEval | 89.7% | 85.2% | 91.3% | 90.8% | 82.1% |
SWE-bench Verified | 78.4% | 68.9% | 82.1 процентов | 81.3% | 49.2% |
MATH | 91.8% | 87.3% | 93.1% | 92.4% | 84.6% |
Needle-in-a-Haystack (1M) | 97.3% | 95.1% | — | — | 84.2% |
Критический разбор:
Где V4 сияет:
🏆 Агентные сценарии: в бенчмарке Agentic Coding — SOTA среди открытых моделей
🏆 Работа с длинным контекстом: 97%+ точность извлечения на 1M токенов
🏆 Цена/качество: 5-10% от стоимости закрытых аналогов при 90% качества
Где ещё есть отставание:
⚠️ Long CoT (длинные цепочки рассуждений): в сложных многошаговых задачах V4 всё ещё уступает Opus 4.6 в режиме «размышления»
⚠️ Креативность и стиль: схема склонна к «сухому», формальному изложению — не лучший выбор для копирайтинга или поэзии
⚠️ Мультимодальность: текст-онли. Нет нативной поддержки изображений, схем, скриншотов — серьёзное ограничение в 2026 году
💡 Вывод: если вам нужен надёжный «рабочий конь» для кода, аналитики и работы с документами — V4 идеален. Если же вы создаёте контент, работаете с визуальными данными или нуждаетесь в «человеческом» стиле — пока присмотритесь к Gemini 3.1 или GPT-5.5.
💰 Экономика: почему это меняет правила игры
Цены на api остаются низкими — и это стратегическое оружие DeepSeek:
DeepSeek-V4 Flash: • Входные токены: $0.14 / 1M • Выходные токены: $0.28 / 1M
DeepSeek-V4 Pro: • Входные токены: $1.74 / 1M
• Выходные токены: $3.48 / 1M
Для сравнения (апрель 2026): • GPT-5.5: ~30 / 1M выход • Claude Opus 4.6: ~
25 / 1M появление
Что это значит на практике:
Проект с 10 млн токенов в месяц обойдётся в $3.48 на V4-Pro против $300+ на GPT-5.5
Возможность массового внедрения AI-агентов в стартапах и малом бизнесе
Стимул к самохостингу: веса под лицензией MIT на Hugging Face
Практика: как начать работать с V4 уже сегодня
Вариант 1: Через api (оперативный старт)
Пример запроса к DeepSeek api
import requests
response = requests.post (
“https://программный интерфейс.deepseek.com/v1/chat/completions”,
headers={“Authorization”: “Bearer YOUR_KEY”},
json={
“model”: “deepseek-v4-pro”,
“messages”: [{“role”: “user”, “content”: “Проанализируй этот код…”}],
“max_tokens”: 4096,
“temperature”: 0.2 } )
Вариант 2: Локальное развёртывание (для контроля и приватности)
Требования для V4-Flash (INT4):
• GPU: 1×RTX 4090 (24 ГБ) или 2×3090
• RAM: 32 ГБ
• Диск: 50 ГБ SSD
Вариант 3: Гибридный (RAG + V4)
Документация
↓
[Векторизация + фильтрация]
↓
Топ-50 релевантных фрагментов
↓
[DeepSeek-V4 с контекстом 32K]
↓
Точный ответ + цитирование источников
Что дальше? Стратегия и слухи
Официально:
Фокус на демократизации доступа к длинному контексту
Развитие агентных фреймворков (встраивание с OpenClaw и другими)
Подготовка Ascend-оптимизированных версий к выходу Ascend 950
В кулуарах (неподтверждённо):
🤫 DeepSeek R2: модель, обученная с акцентом на Long CoT и RLAIF — возможный ответ на o1 и Claude «reasoning»-режимы
🤫 V4.5-Multimodal: работа над нативной поддержкой изображений и схем, выпуск ожидается Q4 2026
🤫 Edge-версии: квантованные модели для мобильных устройств и браузерного инференса
✅ Чек-лист: стоит ли переходить на DeepSeek-V4?
Да, если вы:
Разрабатываете AI-агентов для работы с кодом или документами
Нуждаетесь в обработке контекста >128K токенов
Ограничены бюджетом на api-вызовы
Предпочитаете самохостинг и контроль над данными
Работаете в регионе с ограничениями на доступ к западным моделям
Пока нет, если вы:
Создаёте креативный контент (поэзия, маркетинг, сторителлинг)
Нуждаетесь в нативной работе с изображениями/видео
Требуете максимальной точности в сложных многошаговых рассуждениях
Уже инвестировали в пайплайны под GPT/Claude и не готовы к миграции
Вместо заключения: эволюция, которая меняет правила
DeepSeek-V4 — это не революция в стиле «шоковый выпуск» 2025 года. Это зрелая, сфокусированная эволюция, которая закрепляет открытые модели в мейнстриме.
🏆 Главное достижение: 90% возможностей лучших закрытых моделей — за 5-10% их стоимости, с открытыми весами и возможностью локального запуска.
Да, есть ограничения. Да, мультимодальность ещё впереди. Да, в креативе пока не догнали. Но для подавляющего большинства фактических задач — код, аналитика, документооборот, агентные сценарии — V4 уже сегодня является оптимальным выбором.
И самое важное: выход этой модели доказывает, что конкуренция в ИИ жива. Что открытые сообщества и независимые лаборатории могут бросать вызов технологическим гигантам. Что «доступный ИИ» — не лозунг, а инженерная реальность.
Что думаете? Уже тестируете V4? Или ждёте мультимодальную версию? Делитесь в комментариях — обсудим кейсы, баги и инсайты. 👇
Читают сейчас

26 минут назад
От самописных скриптов к промышленной платформе: автоматизация международного хостинга на базе VMmanager и BILLmanager
VPS.one — международный хостинг-провайдер, специализирующийся на виртуальных серверах (VPS) на базе KVM с SSD-накопителями и полным root-доступом. Организация работает с клиентами по всему миру, фокус

34 минуты назад
Perplexity раскрыла, как обучает поискового AI-агента на Qwen
Команда Perplexity AI опубликовала техотчёт о создании своего поискового агента на базе моделей Qwen3.5. Результаты выглядят неожиданно сильными: схема Qwen3.5-397B после SFT и RL достигает 73,9% точн

48 минут назад
На Alibaba выложили для продажи медицинские информация 500 тыс. добровольцев биобанка UK Biobank
На сайте Alibaba продавали медицинские информация 500 тыс. добровольцев биобанка UK Biobank, который занимается сбором медицинской информации для исследований. В пакет данных вошли пол, возраст, дата

1 час назад
Xiaomi выпустила новую версию своих LLM-моделей: MiMo-V2.5
Два дня назад, 22 апреля, Xiaomi выпустила серию новых модели: MiMo-V2.5-Pro, MiMo-V2.5 и а также модели TTS и Speech Recognition. В этот же день Pro-модель появилась и в бенчмарке Artificial Analysis
1 час назад
ФАС РФ: оператор «Ловител» установил недискриминационный доступ к инфраструктуре жилых комплексов для операторов связи
Федеральная антимонопольная сервис (ФАС) РФ сообщила, что оператор «Ловител» (группы лиц ПИК) установил недискриминационный доступ к инфраструктуре жилых комплексов для операторов связи. Ознакомиться