
12 июня 2026, 23:32
Лучший ИИ-агент, который не слушается: Claude Fable 5 возглавил свежий тест производительности Agent Arena
Платформа Arena (бывшая LMArena) опубликовала обновленные результаты Agent Arena — нового лидерборда, который оценивает модели по тому, как они справляются с реальными рабочими задачами в агентском ре

8 июня 2026, 17:56
Вышел SWE-Marathon: тест производительности, где агенты часами пишут исходник — и почти никто не доходит до финиша
Организация Abundant AI выпустила SWE-Marathon — свежий тест производительности для ИИ-агентов, который проверяет не привычные короткие багфиксы, а способность часами работать над одной большой задаче

4 июня 2026, 00:44
Replit назвал Opus 4.8 лучшим ИИ для вайб-кодинга
В обновленном рейтинге ViBench — бенчмарке, который проверяет, насколько хорошо ИИ собирает приложения с нуля по текстовому описанию, — первое место заняла модель Opus 4.8 от Anthropic. В задаче "собр

2 июня 2026, 11:44
Opus 4.8 поставил рекорд в сложнейшем ИИ-бенчмарке. Итог — 1,4%
Claude Opus 4.8 занял первое место в ARC-AGI-3 — интерактивном тесте на общий интеллект, который до сих пор не дается ни одной модели. Релиз в режиме High стала новым лидером с результатом 1,4% на зак

1 июня 2026, 00:03
SWE-rebench: Opus 4.8 стал экономнее, но в эффективности уступил GPT-5.5
На майском срезе живого бенчмарка SWE-rebench самой эффективной моделью для программирования стала GPT-5.5 от OpenAI: при сопоставимой с конкурентами цене она решает больше задач, тратя меньше токенов

29 мая 2026, 12:03
Anthropic отучила Claude врать клиентам — и он стал зарабатывать вдвое меньше
Вчера Anthropic представила Claude Opus 4.8, сделав честность центральной темой анонса: заявляется, что схема теперь в 4-5 раз чаще признает, что выдала некачественный ответ. Но в системной карте на 2

29 мая 2026, 00:26
Claude Mythos выйдет в ближайшие недели — схема круче Opus наконец-то откроют для всех
Anthropic в первый раз назвала дедлайн широкого релиза своей самой мощной модели Claude Mythos. В анонсе Claude Opus 4.8 организация написала, что "быстро продвигается в разработке защитных механизмов

28 мая 2026, 21:35
Claude Code научился запускать сотни ИИ-агентов — и за дни закрывать задачи, на которые раньше уходил квартал
Одновременно с запуском Claude Opus 4.8, Anthropic представила для Claude Code режим dynamic workflows: теперь модель сама пишет оркестрационный скрипт, который запускает в одной сессии от десятков до

28 мая 2026, 20:14
Anthropic выпустили Opus 4.8: в 4 раза меньше незамеченных багов и fast mode в 3 раза дешевле
Anthropic выпустили Claude Opus 4.8 — обновление флагманской модели, доступное с сегодняшнего дня по той же цене: $5 за млн входящих токенов и $25 за млн исходящих. Одно из ключевых изменений — честно