24 мая 2026, 14:37

ИИ-агент DeepMind закрыл 9 математических задач. Цена — приблизительно $200 на задачу

3 мин

Google DeepMind опубликовал препринт про агента AlphaProof Nexus, который автономно нашел формальные доказательства для 9 из 353 открытых задач из каталога венгерского математика Пола Эрдёша. Медианная стоимость успешной попытки — приблизительно $200, разброс от $20 до $800.

Среди решенных — задача #12 Эрдёша и Шаркози из 1970 года, которая была открыта 56 лет: построить бесконечное множество натуральных чисел, в котором ни одно число не делит сумму двух больших. И проблема #125 из 1996-го — про плотность сумм специально построенных множеств в системах счисления с основаниями 3 и 4. Доказательства не банальные: например, для #125 агент построил аргумент, опирающийся на близость степеней тройки и четверки (3^m ≈ 4^k).

Эрдёшем агент не ограничился. По другим направлениям результаты такие:

44 из 492 открытых гипотез из онлайн-энциклопедии целочисленных последовательностей OEIS;
15-летняя проблема о функциях Гильберта в алгебраической геометрии;
улучшенная оценка сходимости для одного из алгоритмов выпуклой оптимизации;
проблема #57 из известного списка открытых задач британского математика Бена Грина;
текущие исследования по квантовой оптике с Марио Кренном и по теории графов.

Архитектура простая. На вход агент получает Lean-файл с теоремой, где вместо доказательства стоит пустая заглушка. Gemini 3.1 Pro генерирует наброски доказательства, Lean-компилятор проверяет каждый шаг и возвращает ошибки обратно в модель, цикл повторяется. В полной версии поверх работает эволюционный механизм: пул субагентов берет наброски из общей базы, а отдельные экземпляры Gemini 3.0 Flash сравнивают эти наброски между собой и выставляют им Elo-рейтинги — как в шахматах. Дополнительно агент может вызывать AlphaProof, олимпиадную систему DeepMind на обучении с подкреплением, как средство для отдельных подцелей.

Самое интересное в препринте — раздел, где DeepMind проверяет, нужны ли вообще все навороты их архитектуры. Они взяли те же 9 задач и прогнали на них упрощённые версии агента: без эволюционного алгоритма, без вызова AlphaProof, на меньших моделях. Результат неудобный для самих авторов: связка из одного Gemini 3.1 Pro и Lean-компилятора закрыла все 9 задач — на сложных дороже, но закрыла. Сам AlphaProof в одиночку, без LLM сверху, не решил ни одной даже при бюджете $60 на задачу. Меньшие модели (Gemini 3.0 Flash и Flash-Lite) тоже не справились ни с чем. Разработчики прямо пишут о "сдвиге от специализированных обученных систем к простым агентным циклам по мере роста возможностей LLM". На фоне того, что за последние четыре месяца задачи Эрдёша уже закрывали GPT-5.2 в связке с Aristotle, внутренняя модель OpenAI, агент Aletheia от того же DeepMind и даже любитель с ChatGPT Pro за подписку $200 в месяц, формулировка звучит как тихое признание: специализированные доказательные системы свою эпоху отыгрывают.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

google deepmind gemini 3.1 pro

Читают сейчас

40 минут назад

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

1 час назад

Google отключил оператор inurl

Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

2 часа назад

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

4 часа назад

Microsoft выпустила версию PowerToys 0.100.0

Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения

5 часов назад

Апдейт Telegram: форматирование ботов и Markdown-файлы

Telegram опубликовал крупное обновление с десятками новых функций, в том числе с поддержкой мессенджера на смарт-часах, в том числе с Wear OS, а также опциями для ботов, групп и встроенного браузера.