
27 марта 2026, 23:00
Кто убедительнее — GPT-5.4 или Claude Opus 4.6? Свежий тест производительности стравил 15 моделей
Исследователь Лех Мазур опубликовал LLM Persuasion Benchmark — тест производительности, в котором 15 языковых моделей спорят друг с другом на дискуссионные темы и пытаются сдвинуть позицию оппонента.

19 марта 2026, 09:25
Grok 4.20 вышел из беты: лидер по честности, но не по интеллекту
xAI официально вывела Grok 4.20 из статуса беты. Схема, которая тестировалась с 17 февраля, теперь доступна в четырех режимах: Auto (автоматический выбор между быстрым и экспертным), Fast (быстрые отв