Claude стал «меньше думать» и чаще ошибаться по данным анализа логов

2 мин
Claude стал «меньше думать» и чаще ошибаться по данным анализа логов

Анализ 6 852 сессий Claude Code, проведённый AI-директором из AMD, показал заметные изменения в поведении модели Anthropic за период январь–март.

Основной вывод — снижение глубины рассуждений. Медианная длина reasoning-цепочек упала около с 2200 до 600 символов, что указывает на сокращение «бюджета мышления» модели.

Параллельно наблюдается резкий увеличение числа программный интерфейс-вызовов — почти в 80 раз с февраля по март. Это означает, что схема стала чаще компенсировать недостаток рассуждений повторными запросами и итерациями вместо одного глубокого ответа.

Равным образом изменилось поведение при решении задач. Claude стал чаще «сдаваться», запрашивать продолжение или уточнение, а число таких случаев зафиксировано на уровне 173 за короткий период, тогда как ранее они практически не встречались.

Отдельно отмечается снижение метрики reads-per-edit — с 6.6 до 2.0. Это означает, что модель стала реже изучать исходник или файлы перед внесением изменений, что напрямую влияет на качество работы в программировании.

Равным образом выросло число противоречий в ответах: схема чаще меняет позицию в ходе рассуждения, что снижает стабильность решений.

Занимательный фактор — зависимость от времени суток. Худшие результаты фиксируются в вечерние часы по PST, что может указывать на влияние загрузки инфраструктуры на качество работы модели.

В совокупности это создаёт картину не «сломавшейся» модели, а скорее перегруженной системы, где качество поведения зависит от ресурсов и условий инференса.

По данным автора, Anthropic частично подтвердила наличие подобных эффектов, что делает наблюдение одним из наиболее детальных публичных аудитов поведения LLM в реальных условиях.

Читают сейчас

Динозавр на HighLoad++: Зачем мы несем службу каталогов на конференцию, где правят бал микросервисы и Kafka

14 минут назад

Динозавр на HighLoad++: Зачем мы несем службу каталогов на конференцию, где правят бал микросервисы и Kafka

Много лет ты читаешь отчёты с HighLoad++, следишь за докладами и обсуждениями в кулуарах, но все это обычно воспринимается как что-то, наблюдаемое со стороны. Момент же, когда твоя собственная заявка

OpenAI o3 помогла раскрыть 18 редких детских болезней

28 минут назад

OpenAI o3 помогла раскрыть 18 редких детских болезней

Исследователи из Бостонской детской больницы, Гарвардского университета и OpenAI заново разобрали 376 случаев редких генетических болезней у детей, которые специалисты годами не могли решить, — и с по

31 минуту назад

У Счётной палаты появились вопросы по IT-закупкам Минфина и Федерального казначейства

Счётная палата выявила ряд нарушений в работе департамента информационных технологий Минфина в контексте проверки использования средств федерального бюджета на закупку ИКТ‑оборудования (в частности, с

Актуальный Gradle для Java-разработчика

45 минут назад

Актуальный Gradle для Java-разработчика

Продолжаем цикл вебинаров, посвященных современному Gradle для Java-разработчика! Тема следующего вебинара: "Тесты прошли. Теперь собираем это в один отчёт". Ознакомиться далее

Апдейт проекта KillerPDF 1.5.0 — редактора PDF с открытым исходным кодом для Windows 10/11

53 минуты назад

Апдейт проекта KillerPDF 1.5.0 — редактора PDF с открытым исходным кодом для Windows 10/11

В середине июня 2026 года вышло апдейт открытого проекта KillerPDF 1.5.0. Это бесплатный легковесный мобильный редактор PDF для Windows 10/11. Исходный исходник решения написан на С# и опубликован на