4 июня 2026, 00:44

Replit назвал Opus 4.8 лучшим ИИ для вайб-кодинга

2 мин

В обновленном рейтинге ViBench — бенчмарке, который проверяет, насколько хорошо ИИ собирает приложения с нуля по текстовому описанию, — первое место заняла модель Opus 4.8 от Anthropic. В задаче "собрать приложение с нуля" она показала 87,8%, обойдя GPT-5.5 от OpenAI (86,5%). Бенчмарк ведет команда из платформы вайб-кодинга Replit наряду с Georgian AI Lab и Университетом Карнеги — Меллона.

ViBench отличается от привычных тестов вроде SWE-bench тем, что измеряет не умение дописать код или починить дефект, а способность агента собрать работающее приложение полностью — с базой данных, авторизацией и интерфейсом. Проверяет результат не набор юнит-тестов, а отдельный ИI-агент, который открывает готовое приложение в браузере и кликает по нему так, как это делал бы живой потребитель. Показатель Pass@1 показывает долю приложений, которые с первой попытки работают идеально, без единого бага и пропущенной функции. ViBench был представлен публике на конференции CAIS '26 и стал первым открытым бенчмарком такого рода.

В свежем прогоне Opus 4.8 и GPT-5.5 образуют отдельную лигу: между ними меньше двух процентных пунктов, а дальше идет резкий обрыв. Третье место с большим отставанием у GLM 5.1 (66,2%), за ним кучно расположились GPT-5.4 Mini, Gemini 3.5 Flash, Kimi K2.6 и DeepSeek V4 Pro — все в районе 60%. Замыкает список MiniMax M2.7 с 17,6%, но эта же модель оказалась в разы дешевле всех остальных: один прогон обходится в 14 центов против двух долларов у лидеров.

Важная оговорка: этот снапшот покрывает только задачу создания с нуля (Zero-to-One) и прогнан на расширенном наборе из 24 приложений, тогда как в исходной статье их было 15. Часть новых приложений разработчики сами называли по сравнению с простыми, а две другие задачи бенчмарка — доработка фич поверх готового кода — в этом прогоне еще не выложены. В первой версии бенчмарка даже лидеры — Opus 4.6 и GPT-5.2 — не дотягивали до 50% Pass@1 на всех задачах сразу, а ни одна открытая схема не брала и 12%. Отдельно авторы отмечали, что модели накапливают ошибки, когда дорабатывают собственный сгенерированный исходник. Насколько быстро новое поколение закрывает эти провалы, станет видно, когда на лидерборд подъедут остальные срезы.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Claude Opus 4.8 GPT-5.5 ViBench

Читают сейчас

57 минут назад

Глава Microsoft объяснил, почему ИИ не обесценит людей

Гендиректор Microsoft Сатья Наделла опубликовал в X программную статью о будущем компаний в экономике, которой управляет ИИ. Его основной вывод звучит так: чем мощнее становится искусственный интеллек

2 часа назад

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

3 часа назад

Google отключил оператор inurl

Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

4 часа назад

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

6 часов назад

Microsoft выпустила версию PowerToys 0.100.0

Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения