Статьи по тегу

19 марта 2026, 23:26

GPT-5.2 не смогла сложить 5+7. Как эзотерические языки обнулили передовые модели

ИИ-лаборатория Lossfunk представила EsoLang-Bench — бенчмарк из 80 задач на пяти эзотерических языках программирования: Brainfuck, Befunge-98, Whitespace, Unlambda и Shakespeare. Пять фронтирных модел

10 марта 2026, 07:01

ИИ пишет исходник, но не может его поддерживать: представлен публике начальный CI-бенчмарк для ИИ-агентов

Исследователи из Alibaba Group и Университета Сунь Ятсена представили SWE-CI — первый тест производительности, оценивающий способность ИИ-агентов не просто писать исходник, а поддерживать его в долгос

26 февраля 2026, 17:21

Учёные провели симуляцию геополитических конфликтов с нейросетями вместо государств, всё закончилось ядерной войной

Королевский колледж Лондона провёл исследование, в контексте которого симулировал геополитические конфликты, где вместо государств использовались популярные нейросети. ИИ мог выбирать любые инструмент

23 февраля 2026, 21:24

Модели набирали 80% на бенчмарке OpenAI. Оказалось, они просто запомнили решения

Компания OpenAI перестала применять SWE-bench Verified — один из самых популярных бенчмарков для оценки того, насколько хорошо ИИ справляется с реальными задачами по программированию. Компания сама со

22 февраля 2026, 10:52

ChatGPT может получить подписку за $100

В коде веб-приложения ChatGPT обнаружили упоминание нового тарифного плана Pro Lite стоимостью $100 в месяц. Находку сделал Тибор Блахо — исследователь, известный точными утечками об обновлениях OpenA