Статьи по тегу

12 июня 2026, 23:32

Лучший ИИ-агент, который не слушается: Claude Fable 5 возглавил свежий тест производительности Agent Arena

Платформа Arena (бывшая LMArena) опубликовала обновленные результаты Agent Arena — нового лидерборда, который оценивает модели по тому, как они справляются с реальными рабочими задачами в агентском ре

8 июня 2026, 17:56

Вышел SWE-Marathon: тест производительности, где агенты часами пишут исходник — и почти никто не доходит до финиша

Организация Abundant AI выпустила SWE-Marathon — свежий тест производительности для ИИ-агентов, который проверяет не привычные короткие багфиксы, а способность часами работать над одной большой задаче

4 июня 2026, 00:44

Replit назвал Opus 4.8 лучшим ИИ для вайб-кодинга

В обновленном рейтинге ViBench — бенчмарке, который проверяет, насколько хорошо ИИ собирает приложения с нуля по текстовому описанию, — первое место заняла модель Opus 4.8 от Anthropic. В задаче "собр

2 июня 2026, 11:44

Opus 4.8 поставил рекорд в сложнейшем ИИ-бенчмарке. Итог — 1,4%

Claude Opus 4.8 занял первое место в ARC-AGI-3 — интерактивном тесте на общий интеллект, который до сих пор не дается ни одной модели. Релиз в режиме High стала новым лидером с результатом 1,4% на зак

1 июня 2026, 00:03

SWE-rebench: Opus 4.8 стал экономнее, но в эффективности уступил GPT-5.5

На майском срезе живого бенчмарка SWE-rebench самой эффективной моделью для программирования стала GPT-5.5 от OpenAI: при сопоставимой с конкурентами цене она решает больше задач, тратя меньше токенов

29 мая 2026, 12:03

Anthropic отучила Claude врать клиентам — и он стал зарабатывать вдвое меньше

Вчера Anthropic представила Claude Opus 4.8, сделав честность центральной темой анонса: заявляется, что схема теперь в 4-5 раз чаще признает, что выдала некачественный ответ. Но в системной карте на 2

29 мая 2026, 00:26

Claude Mythos выйдет в ближайшие недели — схема круче Opus наконец-то откроют для всех

Anthropic в первый раз назвала дедлайн широкого релиза своей самой мощной модели Claude Mythos. В анонсе Claude Opus 4.8 организация написала, что "быстро продвигается в разработке защитных механизмов

28 мая 2026, 21:35

Claude Code научился запускать сотни ИИ-агентов — и за дни закрывать задачи, на которые раньше уходил квартал

Одновременно с запуском Claude Opus 4.8, Anthropic представила для Claude Code режим dynamic workflows: теперь модель сама пишет оркестрационный скрипт, который запускает в одной сессии от десятков до

28 мая 2026, 20:14

Anthropic выпустили Opus 4.8: в 4 раза меньше незамеченных багов и fast mode в 3 раза дешевле

Anthropic выпустили Claude Opus 4.8 — обновление флагманской модели, доступное с сегодняшнего дня по той же цене: $5 за млн входящих токенов и $25 за млн исходящих. Одно из ключевых изменений — честно