Sakana AI выпустили Fugu Ultra: японская LLM обходит часть западных флагманов

2 мин
Sakana AI выпустили Fugu Ultra: японская LLM обходит часть западных флагманов

Sakana AI основали в 2023 году Дэвид Ха и Лайон Джонс, экс-инженеры Google, причём Джонс входит в число восьми авторов оригинальной статьи про трансформеры. В апреле организация уже показывала Marlin: агента, который самостоятельно копает тему до 8 часов и выдаёт отчёт с презентацией.

Fugu стал их следующим продуктом с уже знакомой идеей «несколько моделей вместо одной». Но это не просто агрегатор поверх чужих api: сама Fugu остаётся маленький языковой моделью, обученной вызывать другие LLM. То есть вместо того чтобы вручную прописывать механизмы, роли и рабочие процессы моделей, как это обычно делают, Sakana обучили модельку, которая решает, кого вызвать, в какой роли и с какими подзадачами, и делает это адаптивно под конкретный запрос.

Fugu Ultra работает иначе. Она генерирует на естественном языке целый workflow: делит задачу на подзадачи, распределяет их по нескольким моделям и сама может выступить одним из воркеров, то есть рекурсивно вызвать себя.

На бенчмарках Fugu Ultra обходит Opus 4.8 на LiveCodeBench. На GPQA-Diamond она выходит на уровень Mythos Preview. А вот на SWE-Bench Pro и Humanity's Last Exam впереди именно Fable 5.

Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-агентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

Читают сейчас

39 минут назад

Президент РФ подписал закон о штрафах за авторизацию через иностранные сервисы и нарушения рекомендательных технологий

Президент России подписал закон, который вводит административные штрафы за нарушения правил авторизации пользователей на российских сайтах. Кодекс об административных правонарушениях дополняется новым

ASUS возвращает шифрование памяти TSME на платы AM5 для Ryzen 9000

51 минуту назад

ASUS возвращает шифрование памяти TSME на платы AM5 для Ryzen 9000

Организация ASUS опубликовала бета-версии BIOS для материнских плат с сокетом AM5, которые восстанавливают поддержку технологии Transparent Secure Memory Encryption™ для потребительских процессоров ли

Новые модели ChatGPT пугают даже правительство США: почему в след за Fable 5 не вышла GTP-5.6

1 час назад

Новые модели ChatGPT пугают даже правительство США: почему в след за Fable 5 не вышла GTP-5.6

Совсем недавно правительство США, увидев возможности выходящей версии ChatGPT 5.6, попросило компанию OpenAI отложить до неопределенного срока версия агента и предоставить его только тем компаниям, ко

1 час назад

Минцифры РФ разработало инициатива требований к оборудованию виртуальных АТС для нужд ОРМ

Минцифры РФ подготовило проект требований к оборудованию виртуальных телефонных станций (ВАТС). Документ определяет, каким условиям должны соответствовать системы коммутации в составе виртуальных АТС.

Ford вернула бывших инженеров для устранения недочётов, допущенных автоматизированными системами

1 час назад

Ford вернула бывших инженеров для устранения недочётов, допущенных автоматизированными системами

Ford вернула в штат бывших инженеров, чтобы обучить молодых сотрудников и перепрограммировать инструменты искусственного интеллекта, которые не справлялись со своей задачей, пишет Bloomberg. За послед