8 июня 2026, 23:54

Из ИИ-агентов выходят хорошие программисты, но плохие биологи. Anthropic объясняет почему

3 мин

Компания Anthropic выпустила разбор о том, почему ИИ-агенты уже стали сильными программистами, но в биологии буксуют. Ответ авторов: проблема не в уме агента, а в данных, по которым он движется. Они сравнивают это с ездой на машине по старинному городу, построенному до эпохи автомобилей, — улочки красивые, но узкие и кривые. Программная инфраструктура изначально создавалась под "машины" и хорошо подходит агентам: версионирование кода, документированные программный оболочку, пакетные менеджеры. А биоинформатика осталась лоскутным набором баз данных со своими форматами, идентификаторами и одноразовыми скриптами.

Узкое место, с точки зрения авторов, — не способность агента рассуждать, а отсутствие надежных детерминистических инструментов для запросов к биоданным. Пример из исследования: база NCBI Virus, откуда вирусологи берут последовательности для диагностики и слежения за вспышками. Сейчас это особенно остро — в ДРК идет вспышка Эболы, вызванная вирусом Бундибугио, и к концу мая ВОЗ насчитала более 1000 подтвержденных и подозреваемых случаев и более чем 200 смертей. Чтобы понять, насколько новый вирус отличается от прежних и сработают ли против него существующие тесты и лекарства, нужно сравнить его геномы с историческими. А первый шаг этого анализа — ручные клики по фильтрам в устаревшем веб-интерфейсе, который агенту дается с трудом.

Похожую боль недавно описывал Андрей Карпати. В докладе о софте в эпоху ИИ он рассказал, как вайб-кодил веб-приложение: сам код оказался самой легкой частью, а на подключение авторизации, платежей и деплоя ушла неделя кликанья по браузерным дашбордам. Документация все время отправляла "перейдите по ссылке, нажмите на выпадающее меню". Вывод Карпати — так быть не должно, надо строить для агентов. Авторы Anthropic называют это "налогом на клики" и отмечают, что биологи живут с ним давно: логика фильтрации NCBI Virus существует только внутри веб-интерфейса — это раздражает людей и катастрофично для агентов.

Чтобы измерить масштаб проблемы, исследователи собрали тест производительности VirBench — 120 запросов на поиск вирусных последовательностей по 40 патогенам с вручную выверенными правильными ответами. Затем прогнали через него научных агентов на базе Claude Sonnet 4, Claude Opus 4.7, Biomni, Edison Analysis, GPT-5.2-pro и GPT-5.5. Средняя точность разошлась от 16,9% до 91,3% — при том что для сборки датасета планка практически 100%, ведь один пропущенный геном может исказить вывод. Хуже того, агенты были нестабильны: на один и тот же запрос про Эболу Sonnet 4 в первом прогоне вернул 106 последовательностей вместо нужных 266, во втором — 15, в третьем — всего 5.

Решением стал детерминистический инструмент gget virus, который команда сделала вместе с сотрудниками NCBI. Он берет на себя всю грязную работу: согласует несколько разных api (REST, Datasets, E-utilities), правильно разбивает большие выборки на части и повторяет логику фильтров из веб-интерфейса. Когда агентам дали к нему доступ, точность выросла выше 90% у всех, а у GPT-5.5 достигла 99,7%; разброс между прогонами почти исчез. Основной вывод авторов: детерминистический слой сделал выбор модели куда менее важным — дешевая модель с правильным инструментом догоняет дорогой флагман.

Сами разработчики признают: модели улучшаются быстро, и легко представить близкое будущее, когда инструменты вроде gget virus станут не нужны — агенты научатся сами разбираться в запутанных базах. Но даже тогда, считают они, гонять агента через один и тот же хаос каждый раз — слишком дорого, медленно и трудно проверяемо. Следовательно главный урок не про конкретный инструмент: биологические базы данных пора проектировать с расчетом на то, что одними из основных их пользователей станут агенты.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

anthropic Claude Opus GPT-5.5

Читают сейчас

40 минут назад

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

1 час назад

Google отключил оператор inurl

Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

2 часа назад

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

4 часа назад

Microsoft выпустила версию PowerToys 0.100.0

Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения

5 часов назад

Апдейт Telegram: форматирование ботов и Markdown-файлы

Telegram опубликовал крупное обновление с десятками новых функций, в том числе с поддержкой мессенджера на смарт-часах, в том числе с Wear OS, а также опциями для ботов, групп и встроенного браузера.