GPT-5.4 протестировали на самых сложных интерфейсах в мире — схема справилась

2 мин
GPT-5.4 протестировали на самых сложных интерфейсах в мире — схема справилась

Стартап Pace, который строит ИИ-агентов для страховых компаний, протестировал GPT-5.4 на реальных легаси-порталах страховщиков — системах, которым по 20 лет, с перегруженными интерфейсами и крошечными кнопками. Согласно заявлению компании, схема справилась: GPT-5.4 точно кликает по нужным элементам, удерживает контекст на протяжении сотен шагов и запоминает расположение элементов интерфейса между сессиями.

Страхование — одна из самых сложных сред для computer use. Рабочие процессы здесь — это не 5 действий, а сотни: навигация по меню, ввод структурированных данных, сверка с PDF-документами, обработка исключений в разных системах. Предыдущие модели, согласно заявлению Pace, "теряли нить" на середине таких цепочек. GPT-5.4, по утверждению компании, удерживает контекст до конца. Сама OpenAI заявляет, что схема получила контекстное окно в 1,05 млн токенов и нативную поддержку компакции — сжатия контекста для длинных агентных сессий.

Pace выделяет четыре ключевых улучшения: точность кликов на перегруженных экранах, рассуждение на длинных цепочках действий, скорость итерации (быстрее прогоняются тысячи тестов) и память — агент запоминает пространственную раскладку интерфейса и не пересчитывает её каждый раз. На бенчмарке OSWorld-Verified, который измеряет способность модели управлять десктопом через скриншоты, GPT-5.4 набрала 75% против 47,3% у GPT-5.2 — это выше человеческого показателя в 72,4%.

Pace — не стартап-однодневка: в декабре компания объявила о работе с Prudential Financial, где ИИ-агенты уже автоматизируют обслуживание полисов страхования жизни. Подход Pace — не заменять 20-летние системы, а строить агентов, которые работают в тех же интерфейсах, что и живые операторы. Но реальная надёжность computer use в продакшене пока остается открытым вопросом — даже 75% на OSWorld-Verified означают, что каждая четвертая проблема заканчивается ошибкой, а значит надо искать решения, как их избегать.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Китайский разработчик роботов UBTech Robotics готов платить $18 млн в год главному учёному по робототехнике

51 минуту назад

Китайский разработчик роботов UBTech Robotics готов платить $18 млн в год главному учёному по робототехнике

Китайская компания-разработчик человекоподобных роботов UBTech Robotics ищет главного учёного по робототехнике, предлагая зарплату до $18 млн в год. Компания указывает, что эта должность будет определ

Claude смог запустить промышленный CPU Intel на обычной материнской плате — ИИ полностью переписал BIOS

59 минут назад

Claude смог запустить промышленный CPU Intel на обычной материнской плате — ИИ полностью переписал BIOS

Моддер с форума Overclock.net с помощью Claude целиком переписал BIOS материнской платы ASUS Z790 и загрузил Windows 11 на серверном 12-ядерном процессоре Intel Bartlett Lake Core 9 273PQE, который In

В OpenClaw за полтора месяца нашли шесть дыр в одном модуле. И это не конец

1 час назад

В OpenClaw за полтора месяца нашли шесть дыр в одном модуле. И это не конец

В подсистеме подключения устройств OpenClaw — ИИ-агента с 348 000 звезд на GitHub — за шесть недель обнаружили шесть уязвимостей класса CWE-863 (некорректная авторизация). Последняя, CVE-2026-33579 с

В Steam тестируют аналитика FPS на конкретном ПК до покупки игры пользователем

1 час назад

В Steam тестируют аналитика FPS на конкретном ПК до покупки игры пользователем

Valve тестирует в Steam средство для анализа FPS на конкретном ПК до покупки игры пользователем, сообщил датамайнер dex3108 на форуме ResetEra, обнаруживший строки кода этой функции. Сама организация

Microsoft вложит $10 млрд в японские ИИ-проекты

2 часа назад

Microsoft вложит $10 млрд в японские ИИ-проекты

До 2029 года Microsoft планирует инвестировать $10 млрд в инфраструктуру искусственного интеллекта и облачных вычислений Японии, пишет местное информационное агентство Kyodo News со ссылкой на вице-пр