Математик разработал задачу, неподвластную ИИ. GPT-5.4 ее решила

3 мин
Математик разработал задачу, неподвластную ИИ. GPT-5.4 ее решила

Польский математик Бартош Наскрэнцки, вице-декан факультета математики и информатики Познаньского университета имени Адама Мицкевича, еще в июле 2025 года публично называл ИИ "очень продвинутым калькулятором", неспособным к глубокому математическому мышлению. Для бенчмарка FrontierMath от Epoch AI он разработал задачу высшей сложности (Tier 4), в которую вложил 20 лет экспертизы — на стыке теории Галуа, алгебраической геометрии и арифметики. Перед подачей он протестировал ее на o4-mini-high, убедился, что схема не справляется, и специально "подкрутил" сложность. Проблема была спроектирована как нерешаемая.

GPT-5.4 в режиме xhigh ее решила. Epoch AI запустила модель на задаче 11 раз независимо — 10 попыток провалились, каждая шла по своему пути, но ни одна не достигла ключевого прорыва. На 11-й попытке схема нашла паттерн связи между арифметикой и геометрией задачи и применила, согласно заявлению Наскрэнцки, "один красивый трюк с суммированием", который позволил обойтись без самого тяжёлого математического аппарата. Наскрэнцки оценил суммарный объем вычислений во всех 11 запусках в 5–15 млн токенов с рассуждениями — эквивалент многочасовой исследовательской сессии. Решение он назвал "хорошей математикой, написанной чисто", а сам опыт — своим личным "Move 37", по аналогии с легендарным ходом AlphaGo.

Наскрэнцки опубликовал формальный разбор всех 11 попыток под заголовком "Анализ производительности повторных попыток LLM на исследовательской математической задаче". В нем он подчеркивает: результат 1 из 11 — это хрупкий рубеж возможностей, а не надежная способность. Но "ранние ласточки", по его выражению, обычно указывают на качественный сдвиг, который становится стабильным в следующих поколениях моделей. В тот же день он использовал GPT-5.4 для работы над иной идеей — и модель нашла контрпример, на обнаружение которого у него ушли бы месяцы.

В контексте FrontierMath прогресс выглядит стремительно. Когда бенчмарк запустили в конце 2024 года, лучшие модели решали менее 2% задач. Теренс Тао называл их "невероятно сложными" и прогнозировал, что ИИ не справится с ними ещё годы. Сейчас GPT-5.4 Pro показывает 50% на уровнях 1–3 и 38% на Tier 4 — почти вдвое больше, чем GPT-5.2 несколькими месяцами ранее. Всего хотя бы раз решены 42 процентов из 48 задач Tier 4. Одновременно на FrontierMath: Open Problems — задачах, которые не решил вообще никто, — модель набрала ноль.

Важная оговорка: FrontierMath финансируется OpenAI, у которой есть эксклюзивный доступ к большей части задач и решений. Однако проблема Наскрэнцки находилась в наборе, удерживаемом Epoch AI, — то есть OpenAI не могла обучаться на ее решении. Еще одна любопытная деталь: на иной задаче Tier 4 схема GPT-5.4 нашла препринт 2011 года, о существовании которого не знал даже автор задачи, — и использовала его как шорткат к решению. Это уже не подгонка под ответ — это иной тип способности: археология научной литературы, до которой люди просто не добрались.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Глава Microsoft объяснил, почему ИИ не обесценит людей

3 часа назад

Глава Microsoft объяснил, почему ИИ не обесценит людей

Гендиректор Microsoft Сатья Наделла опубликовал в X программную статью о будущем компаний в экономике, которой управляет ИИ. Его основной вывод звучит так: чем мощнее становится искусственный интеллек

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

5 часов назад

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

Google отключил оператор inurl

6 часов назад

Google отключил оператор inurl

Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

7 часов назад

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

Microsoft выпустила версию PowerToys 0.100.0

9 часов назад

Microsoft выпустила версию PowerToys 0.100.0

Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения