ИИ-сообщество представило крошечный трансформер для складывания 10-значных чисел

2 мин
ИИ-сообщество представило крошечный трансформер для складывания 10-значных чисел

Участники открытого челленджа AdderBoard довели минимальный трансформер, способный складывать два 10-значных числа, до 130 параметров — в 47 раз меньше исходной модели на 6 080 параметров. Модель достигает 100%-й точности на тестовой выборке из 10 000 примеров.

Все началось с эксперимента Димитриса Папаилиопулоса, профессора Висконсинского университета и исследователя Microsoft Research. В феврале он дал Claude Code и Codex одинаковое задание: обучить самый маленький трансформер, который складывает 10-значные числа с точностью не ниже 99%. Claude Code вернул схема на 6 080 параметров, Codex — на 1 644. Папаилиопулос описал эксперимент в посте "Сложение под давлением" и открыл лидерборд для всех желающих.

Сообщество быстро включилось в гонку. В лидерборде два трека: обученные модели, где веса находит алгоритм оптимизации, и модели с аналитически заданными весами — конструктивные доказательства того, что архитектура в общем способна представлять сложение. Рекорд среди обученных моделей — 311 параметров при точности 99,999%, среди аналитических — те самые 130. Ключевые приемы: факторизация ранга 1 и 3, разделение эмбеддингов, синусоидальное позиционное кодирование и обнаружение переноса через ReLU.

ЗПроблема выглядит тривиально, но для авторегрессивного трансформера сложение требует трех вещей одновременно: выравнивания цифр через механизм внимания, поразрядной арифметики в MLP-слое и пробрасывания переноса через последовательную генерацию. Участники обнаружили резкий фазовый переход точности в районе 800 параметров и выяснили, что однослойные архитектуры при равном бюджете обходят двухслойные.

AdderBoard — по сути, исследование нижней границы возможностей трансформеров на задаче, которую человек решает в столбик. Лидерборд открыт: любой может предложить свою схема через GitHub, пройти верификацию и попасть в таблицу.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

OpenRouter Fusion обошел GPT-5.5 и Opus 4.8 — за счет совещания моделей

10 минут назад

OpenRouter Fusion обошел GPT-5.5 и Opus 4.8 — за счет совещания моделей

Сервис-агрегатор OpenRouter, через который авторы обращаются к сотням нейросетей по единому api, встроил в свой интерфейс режим Fusion. Его суть в том, что на запрос отвечает не одна схема, а группа и

Представлена игра Pac-Hunt — это Pac-Man (Пакман), но игрок там — призрак

20 минут назад

Представлена игра Pac-Hunt — это Pac-Man (Пакман), но игрок там — призрак

Универсальный инденер-программист (generalist Software Engineer) под ником Garrit представил открытую онлайн-игру Pac-Hunt (код на GitHub). Это классический Pac-Man (Пакман), но игрок там — призрак. О

Глава Microsoft объяснил, почему ИИ не обесценит людей

7 часов назад

Глава Microsoft объяснил, почему ИИ не обесценит людей

Гендиректор Microsoft Сатья Наделла опубликовал в X программную статью о будущем компаний в экономике, которой управляет ИИ. Его основной вывод звучит так: чем мощнее становится искусственный интеллек

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

9 часов назад

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

Google отключил оператор inurl

10 часов назад

Google отключил оператор inurl

Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос