
11 июня 2026, 12:00
Xiaomi выпустили MiMo Code — своего coding-агента
Вслед за Kimi ещё одна китайская компания обзавелась своим агентом. Основной упор в релизной статье китайцы делают на Max Mode: на каждом шаге агент генерирует 5 параллельных планов действий, а модель

1 июня 2026, 09:01
MiniMax M3 обошла GPT-5.5 на SWE-Bench Pro и выйдет с открытыми весами
MiniMax M3 вышла сегодня — это мощная языковая модель, которая одновременно предлагает frontier-уровень в кодировании и агентных задачах, контекст до 1 миллиона токенов и нативную мультимодальность (и

27 мая 2026, 13:49
Свежий тест производительности DeepSWE: GPT-5.5 — 70%, Opus 4.7 — 54%
Новый тест производительности DeepSWE показал, что GPT-5.5 решает 70% задач по разработке ПО, тогда как Claude Opus 4.7 — 54%. На SWE-Bench Pro картина была ровно обратной: там Opus 4.7 занимал первое

21 мая 2026, 19:12
Выпуск Qwen3.7-Max: лучше Claude Opus 4.6 на SWE-bench Pro
Alibaba выпустила Qwen3.7-Max — закрытую флагманскую модель для долгоживущих агентов. В тестах: 35 часов автономной работы, 1158 вызовов инструментов, 10x ускорение CUDA-ядра. На SWE-bench Pro — 60.6,

13 мая 2026, 17:17
В Kodacode добавили Claude Opus 4.7
Передовая модель от Anthropic стала заметным шагом вперёд в программировании: в тестах на реальных задачах Cursor зафиксировал рост с 58% до 70%, CodeRabbit отметил улучшение recall на 10% при стабиль

6 мая 2026, 11:21
SubQ: первая LLM с контекстом в 12 млн токенов
Организация Subquadratic выпустила схема SubQ 1M-Preview — первую, по их словам, LLM на целиком субквадратичной архитектуре. Речь про SSA (Subquadratic Sparse Attention): вместо того чтобы сравнивать

21 апреля 2026, 14:04
В KodaCode теперь доступна топовая open source схема Kimi K2.6
По бенчмаркам схема держится рядом с закрытыми SOTA-моделями: SWE-Bench Pro — 58.6, SWE-Bench Verified — 80.2, топ среди open-source моделей. Сильные результаты и на BrowseComp и математических бенчах

10 апреля 2026, 19:59
Anthropic научили Sonnet консультироваться с Opus
Anthropic выпустили advisor tool — инструмент, который позволяет запустить Opus как советника внутри задачи, которую выполняет Sonnet или Haiku. Работает так: Sonnet ведёт задачу от начала до конца —

7 апреля 2026, 19:57
Z.ai выпустили GLM-5.1 — open-source схема, заточенную под долгие агентные задачи
Z.ai выпустили GLM-5.1 — новую флагманскую схема под MIT-лицензией, ориентированную на агентные инженерные задачи. По SWE-Bench Pro она набирает 58.4% против 57.3% у Claude Opus 4.6 и 57.7% у GPT-5.4.