10 мая 2026, 22:36
Основной критик LLM почти похвалил Claude Mythos. Почти

Гэри Маркус, один из самых известных критиков современного ИИ, неожиданно мягко прокомментировал свежие результаты Claude Mythos на бенчмарке METR. На последнем замере схема Anthropic показала горизонт автономной работы 16+ часов при 50%-вероятности успеха и 3 часа при 80 процентов — это вдвое больше ближайшего конкурента. Маркус согласился, что прогресс реальный, но добавил, что сам по себе Mythos может и не быть главной причиной успеха.
Бенчмарк, о котором идет речь, разработала организация METR — некоммерческая лаборатория из Беркли, которая оценивает способность ИИ-агентов автономно выполнять долгие задачи. Показатель устроена так: на каждой из 228 задач (программирование, машинное обучение, кибербезопасность) сначала измеряют, сколько на нее тратит человек-эксперт, а потом смотрят, при какой длине задачи модель справляется с заданным процентом успеха. Публикация METR от 8 мая показывает, что с 50%-вероятностью Mythos уперся в потолок самого бенчмарка — задач длиннее 16 часов в наборе всего 5 из 228. Поверх видеокарта METR честно повесила оговорку, что точные цифры за этой отметкой ненадежны. Алекс Альберт из Anthropic параллельно опубликовал альтернативный график, где у Mythos 80%-горизонт — 3 часа, и в этом ракурсе отрыв от ближайшего конкурента выглядит двукратным.
Маркус стартовал с привычной ноты: бенчмарк замеряет лишь 50%-вероятность успеха, а ненадежность остается главной проблемой LLM. Покрытие у METR — только разработка ПО, не совокупный интеллект. Но дальше его аргументация поворачивает в неожиданную сторону. С точки зрения Маркуса, прогресс самой модели на графике виден лишь частично — большая часть прироста идет от агентских обвязок вроде Claude Code и Codex. И это, полагает он, ранние прототипы тех самых нейросимволических систем, о которых Маркус сообщает больше десяти лет: языковая модель плюс внешние инструменты для логики и проверки. Дословно: "это оправдание нейросимвольного подхода — но не доказательство, что сами LLM можно бесконечно масштабировать".
Если Маркус прав, единицей сравнения становится не схема, а связка "модель плюс обвязка". Это означает, что часть текущей дискуссии о прогрессе ИИ ведется не там — пока одни обсуждают параметры и архитектуры, фактический прирост во многом приходит от обертки.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас

1 час назад
Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках
Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

2 часа назад
Google отключил оператор inurl
Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

3 часа назад
Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat
13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

5 часов назад
Microsoft выпустила версию PowerToys 0.100.0
Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения

6 часов назад
Апдейт Telegram: форматирование ботов и Markdown-файлы
Telegram опубликовал крупное обновление с десятками новых функций, в том числе с поддержкой мессенджера на смарт-часах, в том числе с Wear OS, а также опциями для ботов, групп и встроенного браузера.