Статьи по тегу

8 июня 2026, 23:54

Из ИИ-агентов выходят хорошие программисты, но плохие биологи. Anthropic объясняет почему

Организация Anthropic выпустила разбор о том, почему ИИ-агенты уже стали сильными программистами, но в биологии буксуют. Ответ авторов: проблема не в уме агента, а в данных, по которым он движется. Он

4 июня 2026, 20:16

Claude пишет 80% кода Anthropic — люди уже не успевают проверять

Anthropic Institute опубликовала статья с ранее не раскрывавшимися внутренними данными о том, как ИИ ускоряет разработку самого ИИ. Ключевая цифра: к маю 2026 более 80% кода, влитого в кодовую базу An

3 июня 2026, 19:23

Спящая закладка в ИИ-агенте: как скилл Claude превращают в отложенную атаку

Специалисты по реагированию на инциденты из компании Profero описали метод незаметно атаковать ИИ-агента Claude — спрятав вредоносную инструкцию в его собственном скилл-файле так, чтобы она сработала

29 мая 2026, 12:03

Anthropic отучила Claude врать клиентам — и он стал зарабатывать вдвое меньше

Вчера Anthropic представила Claude Opus 4.8, сделав честность центральной темой анонса: заявляется, что схема теперь в 4-5 раз чаще признает, что выдала некачественный ответ. Но в системной карте на 2

28 мая 2026, 20:14

Вышел Claude Opus 4.8 — схема в 4 раза реже пропускает свои же баги

Anthropic выпустила Claude Opus 4.8 — обновление флагманской модели, доступное с сегодняшнего дня по той же цене, что и предыдущая релиз: $5 за миллион входных токенов и $25 за миллион выходных. Сама

27 мая 2026, 13:49

Свежий тест производительности DeepSWE: GPT-5.5 — 70%, Opus 4.7 — 54%

Новый тест производительности DeepSWE показал, что GPT-5.5 решает 70% задач по разработке ПО, тогда как Claude Opus 4.7 — 54%. На SWE-Bench Pro картина была ровно обратной: там Opus 4.7 занимал первое

21 мая 2026, 19:12

Выпуск Qwen3.7-Max: лучше Claude Opus 4.6 на SWE-bench Pro

Alibaba выпустила Qwen3.7-Max — закрытую флагманскую модель для долгоживущих агентов. В тестах: 35 часов автономной работы, 1158 вызовов инструментов, 10x ускорение CUDA-ядра. На SWE-bench Pro — 60.6,

14 мая 2026, 09:29

Зачем в Anthropic полгода делали неработающего ИИ-агента

Борис Черни, создатель Claude Code в Anthropic, на конференции Sequoia AI Ascent 2026 признал: первые полгода продукт работал у него самого только в 10% случаев. "Он едва годился к использованию. Я пи

9 мая 2026, 11:16

От 96 процентов до нуля: как Anthropic отучила Claude от шантажа

Anthropic опубликовала исследование "Teaching Claude Why" — разбор того, как компания починила вредное поведение Claude в агентском режиме. Главная цифра: в фирменном тестовом сценарии с шантажом инже