16 марта 2026, 13:13
Себастьян Рашка запустил визуальный справочник архитектур LLM — от DeepSeek до GLM-5

Себастьян Рашка, автор бестселлера Build a Large Language Model (From Scratch) и рассылки Ahead of AI на 168 000 подписчиков, запустил открытый визуальный каталог архитектур больших языковых моделей — LLM Architecture Gallery. На одной странице собраны диаграммы и карточки более чем 40 моделей: от Llama 3 и DeepSeek V3 до свежих Qwen3.5, GLM-5 и Nemotron 3 Super.
Для каждой модели указаны масштаб (общее число параметров и количество активных), тип декодера (dense, sparse MoE или гибрид), алгоритм внимания (GQA, MLA, sliding-window и другие) и ключевая архитектурная особенность. Карточки ведут на config.json модели на HuggingFace, техрепорт и — для части моделей — реализацию "с нуля" из репозитория Рашки на GitHub.
Если смотреть на каталог как на карту трендов, бросаются в глаза некоторое количество вещей. Архитектура DeepSeek V3 с многоголовым латентным вниманием (MLA) и смесью экспертов (MoE) практически стала отраслевым шаблоном — ее в той или другой форме воспроизвели Mistral 3 Large, Kimi K2 и GLM-5. Классические dense-модели вытесняются разреженными MoE на крупных масштабах, а на переднем крае уже появляются гибриды с линейным вниманием: Gated DeltaNet в Qwen3.5, слои Mamba-2 в Nemotron 3 от NVIDIA, Lightning Attention в триллионном Ling 2.5 от Ant Group.
Рашка не связан ни с одной из крупных лабораторий — с 2022 года он работал в Lightning AI, а сейчас ведет независимую исследовательскую лабораторию RAIR Lab. Галерея обновляется — последнее апдейт датировано 14 марта. Баг-репорты и предложения по моделям принимаются через трекер на GitHub.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас

51 минуту назад
Китайский разработчик роботов UBTech Robotics готов платить $18 млн в год главному учёному по робототехнике
Китайская компания-разработчик человекоподобных роботов UBTech Robotics ищет главного учёного по робототехнике, предлагая зарплату до $18 млн в год. Компания указывает, что эта должность будет определ

59 минут назад
Claude смог запустить промышленный CPU Intel на обычной материнской плате — ИИ полностью переписал BIOS
Моддер с форума Overclock.net с помощью Claude целиком переписал BIOS материнской платы ASUS Z790 и загрузил Windows 11 на серверном 12-ядерном процессоре Intel Bartlett Lake Core 9 273PQE, который In

1 час назад
В OpenClaw за полтора месяца нашли шесть дыр в одном модуле. И это не конец
В подсистеме подключения устройств OpenClaw — ИИ-агента с 348 000 звезд на GitHub — за шесть недель обнаружили шесть уязвимостей класса CWE-863 (некорректная авторизация). Последняя, CVE-2026-33579 с

1 час назад
В Steam тестируют аналитика FPS на конкретном ПК до покупки игры пользователем
Valve тестирует в Steam средство для анализа FPS на конкретном ПК до покупки игры пользователем, сообщил датамайнер dex3108 на форуме ResetEra, обнаруживший строки кода этой функции. Сама организация

2 часа назад
Microsoft вложит $10 млрд в японские ИИ-проекты
До 2029 года Microsoft планирует инвестировать $10 млрд в инфраструктуру искусственного интеллекта и облачных вычислений Японии, пишет местное информационное агентство Kyodo News со ссылкой на вице-пр