7 марта 2026, 11:21
GPT-5.4 стал лучшим ИИ для вайб-кодинга

GPT-5.4 занял первое место на Vibe Code Bench v1.1 с результатом 67,42% — на 5,7 п.п. выше предыдущего лидера GPT-5.3 Codex (61,77%). Третье место — у Claude Opus 4.6 без режима рассуждений с 57,57%. Бенчмарк измеряет не умение дописать функцию или починить баг, а способность модели собрать работающее веб-приложение целиком — от пустой папки до развернутого сервиса — по текстовому описанию.
Набор включает 100 промптов на приложения, разделенных на публичную и тестовую части. Каждая задача предполагает, что схема с нуля строит программа в изолированной среде с доступом к браузеру, терминалу и типичным продакшен-сервисам — аутентификации, базам данных, платежным системам и почте arXiv. Среди заданий — аналоги популярных сервисов (например, социальная сеть Zeeter, напоминающая X), трекеры привычек и порталы управления классом. На каждое приложение модели дается до пяти часов. Готовый результат проверяет отдельный агент-оценщик: он пытается пользоваться приложением как человек и выставляет балл по числу работающих функций.
Отдельный занимательный срез — стоимость одной попытки. Vals AI приводят кривые "точность — стоимость" и "точность — задержка": больше денег и времени повышают итог, но с убывающей отдачей. Одновременно Claude Opus 4.6 добирается до результатов, близких к топу, при меньших затратах и задержках, чем GPT-5.3 Codex и GPT-5.4. Иными словами, лидерство GPT-5.4 по точности не означает лидерство по эффективности — для разработчиков, считающих токены, это значимый нюанс.
Но даже у лидера картина далека от "вайб-кодинг решен". Приблизительно треть решений у GPT-5.4 все еще проваливается, а распределение результатов по приложениям следующее: они либо работают хорошо (87–100 процентов тестов), либо не работают почти полностью (0–12,5%). Однако скорость прогресса в бенчмарке впечатляет — еще полгода назад лучший итог был вдвое ниже.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас

48 минут назад
Китайский разработчик роботов UBTech Robotics готов платить $18 млн в год главному учёному по робототехнике
Китайская компания-разработчик человекоподобных роботов UBTech Robotics ищет главного учёного по робототехнике, предлагая зарплату до $18 млн в год. Компания указывает, что эта должность будет определ

55 минут назад
Claude смог запустить промышленный CPU Intel на обычной материнской плате — ИИ полностью переписал BIOS
Моддер с форума Overclock.net с помощью Claude целиком переписал BIOS материнской платы ASUS Z790 и загрузил Windows 11 на серверном 12-ядерном процессоре Intel Bartlett Lake Core 9 273PQE, который In

1 час назад
В OpenClaw за полтора месяца нашли шесть дыр в одном модуле. И это не конец
В подсистеме подключения устройств OpenClaw — ИИ-агента с 348 000 звезд на GitHub — за шесть недель обнаружили шесть уязвимостей класса CWE-863 (некорректная авторизация). Последняя, CVE-2026-33579 с

1 час назад
В Steam тестируют аналитика FPS на конкретном ПК до покупки игры пользователем
Valve тестирует в Steam средство для анализа FPS на конкретном ПК до покупки игры пользователем, сообщил датамайнер dex3108 на форуме ResetEra, обнаруживший строки кода этой функции. Сама организация

2 часа назад
Microsoft вложит $10 млрд в японские ИИ-проекты
До 2029 года Microsoft планирует инвестировать $10 млрд в инфраструктуру искусственного интеллекта и облачных вычислений Японии, пишет местное информационное агентство Kyodo News со ссылкой на вице-пр