
19 марта 2026, 23:26
GPT-5.2 не смогла сложить 5+7. Как эзотерические языки обнулили передовые модели
ИИ-лаборатория Lossfunk представила EsoLang-Bench — бенчмарк из 80 задач на пяти эзотерических языках программирования: Brainfuck, Befunge-98, Whitespace, Unlambda и Shakespeare. Пять фронтирных модел

10 марта 2026, 07:01
ИИ пишет исходник, но не может его поддерживать: представлен публике начальный CI-бенчмарк для ИИ-агентов
Исследователи из Alibaba Group и Университета Сунь Ятсена представили SWE-CI — первый тест производительности, оценивающий способность ИИ-агентов не просто писать исходник, а поддерживать его в долгос

26 февраля 2026, 17:21
Учёные провели симуляцию геополитических конфликтов с нейросетями вместо государств, всё закончилось ядерной войной
Королевский колледж Лондона провёл исследование, в контексте которого симулировал геополитические конфликты, где вместо государств использовались популярные нейросети. ИИ мог выбирать любые инструмент

23 февраля 2026, 21:24
Модели набирали 80% на бенчмарке OpenAI. Оказалось, они просто запомнили решения
Компания OpenAI перестала применять SWE-bench Verified — один из самых популярных бенчмарков для оценки того, насколько хорошо ИИ справляется с реальными задачами по программированию. Компания сама со

22 февраля 2026, 10:52
ChatGPT может получить подписку за $100
В коде веб-приложения ChatGPT обнаружили упоминание нового тарифного плана Pro Lite стоимостью $100 в месяц. Находку сделал Тибор Блахо — исследователь, известный точными утечками об обновлениях OpenA