19 марта 2026, 09:25
Grok 4.20 вышел из беты: лидер по честности, но не по интеллекту

xAI официально вывела Grok 4.20 из статуса беты. Модель, которая тестировалась с 17 февраля, теперь доступна в четырех режимах: Auto (автоматический выбор между быстрым и экспертным), Fast (быстрые ответы), Expert (глубокие рассуждения) и Heavy (мультиагентный режим с четырьмя параллельными агентами). Новинка достпна через веб-версию, мобильное приложение и специальный раздел в X.

По данным Artificial Analysis Intelligence Index v4.0, рассуждающая релиз Grok 4.20 набирает 48 баллов — это 8-е место среди всех протестированных моделей. Лидируют Gemini 3.1 Pro Preview и GPT-5.4 с 57 баллами, а прямой конкурент Claude Opus 4.6 набирает 53. Одновременно в отдельных тестах картина иная: на бенчмарке IFBench (следование инструкциям) Grok 4.20 занял первое место с результатом 83%, а на τ²-Bench Telecom (агентное использование инструментов) — второе с 97%, уступив лишь GLM-5.
Но главный козырь модели — фактическая достоверность. В тесте AA-Omniscience, который измеряет склонность модели выдумывать ответы, Grok 4.20 представил 78% (количество случаев, когда модель честно говорила, что не знает ответ) — абсолютный рекорд среди всех протестированных ИИ. Иными словами, Grok врёт реже всех, но думает не лучше всех.
Месяц бета-тестирования прошел с тремя обновлениями: Beta 2 от 3 марта улучшила следование инструкциям и добавила поддержку LaTeX, а билд 0309 от 10 марта стал стабильной версией для api. xAI обещает дальнейшие улучшения — в частности, кодинга для игр и интеграции с X в реальном времени.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас

51 минуту назад
Китайский разработчик роботов UBTech Robotics готов платить $18 млн в год главному учёному по робототехнике
Китайская компания-разработчик человекоподобных роботов UBTech Robotics ищет главного учёного по робототехнике, предлагая зарплату до $18 млн в год. Компания указывает, что эта должность будет определ

59 минут назад
Claude смог запустить промышленный CPU Intel на обычной материнской плате — ИИ полностью переписал BIOS
Моддер с форума Overclock.net с помощью Claude целиком переписал BIOS материнской платы ASUS Z790 и загрузил Windows 11 на серверном 12-ядерном процессоре Intel Bartlett Lake Core 9 273PQE, который In

1 час назад
В OpenClaw за полтора месяца нашли шесть дыр в одном модуле. И это не конец
В подсистеме подключения устройств OpenClaw — ИИ-агента с 348 000 звезд на GitHub — за шесть недель обнаружили шесть уязвимостей класса CWE-863 (некорректная авторизация). Последняя, CVE-2026-33579 с

1 час назад
В Steam тестируют аналитика FPS на конкретном ПК до покупки игры пользователем
Valve тестирует в Steam средство для анализа FPS на конкретном ПК до покупки игры пользователем, сообщил датамайнер dex3108 на форуме ResetEra, обнаруживший строки кода этой функции. Сама организация

2 часа назад
Microsoft вложит $10 млрд в японские ИИ-проекты
До 2029 года Microsoft планирует инвестировать $10 млрд в инфраструктуру искусственного интеллекта и облачных вычислений Японии, пишет местное информационное агентство Kyodo News со ссылкой на вице-пр