2 часа назад

Claude Sonnet 5 оказался самой прожорливой по токенам моделью Anthropic

3 мин

Artificial Analysis прогнала Claude Sonnet 5 по независимым тестам и обнаружила неприятный побочный эффект апгрейда: на максимальном уровне рассуждений модель стала обходиться в задачах приблизительно вдвое дороже предшественника. Sonnet 4.6 (max) стоил $1,14 за задачу в индексе интеллекта AA, Sonnet 5 (max) - уже $2,29. Одновременно сам индекс вырос всего на 6 пунктов, с 47 до 53 баллов.

Речь про Artificial Analysis Intelligence Index v4.1 - сводный тест из девяти замеров: агентная работа (GDPval-AA v2, Terminal-Bench v2.1), инструменты и банковские сценарии (τ³-Banking), код (SciCode), знания и рассуждения (Humanity's Last Exam, GPQA Diamond, CritPt, AA-Omniscience) и работа с длинным контекстом (AA-LCR). С результатом 53 балла Sonnet 5 занял пятое место в общем рейтинге - вровень с GPT-5.5 (high), но позади GPT-5.5 (xhigh), Opus 4.7, Opus 4.8 и Fable 5 (отмечена в рейтинге как не доступная схема, но Anthropic возвращает ее уже сегодня).

Подорожание не связано с тарифом: базовая цена за миллион токенов у Sonnet 5 та же, что у Sonnet 4.6, - $3 за вход и $15 за выход. Дело в том, что модель стала функционировать гораздо усерднее: на задачах индекса она тратит приблизительно на 40% больше токенов на выходе, чем предшественник, а в агентных тестах на знания (AA-Briefcase и GDPval-AA) делает примерно втрое больше "ходов". На максимальном уровне рассуждений это доходит до 6-кратной разницы с low-режимом на одном только GDPval-AA. В среднем на задачу уходит около 69 тысяч токенов - больше только у пары легковесных моделей OpenAI, GPT-5.4 mini и nano, которые вообще славятся многословностью.

На фоне этого Sonnet 5 проигрывает собственному старшему брату по соотношению цены и результата: Opus 4.8 (max) набирает больше баллов (56 против 53) и при этом стоит дешевле - $1,80 за задачу против $2,29. По подсчетам Artificial Analysis, это около на 15% дороже, чем Opus 4.8, - хотя более дорогая и медленная схема здесь как раз оказывается выгоднее по чистой экономике.

Но не все так однозначно в пользу Opus. На агентных задачах "офисной" работы - AA-Briefcase и GDPval-AA Sonnet 5 обходит Opus 4.8 и уступает только Fable 5, которая находится в иной ценовой категории. То есть лишние токены и шаги не выброшены впустую, просто конвертируются в результат неравномерно: в физических рассуждениях CritPt Sonnet 5 добрался лишь до 17% (плюс 14 пунктов к предшественнику), но все еще заметно отстает от GLM-5.2, Opus, Fable и GPT-5.5.

Смягчить эффект должна вводная скидка: до 1 сентября Anthropic держит цену на треть ниже стандартной - $2 за миллион входных токенов и $10 за выходных вместо $3/$15. Плюс у Sonnet 5 появился пятый уровень усилия, xhigh, - теперь линейка режимов у Sonnet и Opus сравнялась. Так что реальная стоимость использования сильно зависит от того, насколько агрессивно выставлен эффорт, а сравнение "в лоб" на максимуме показывает скорее потолок цены, чем типичный скрипт.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Claude Sonnet 5 Sonnet 5 Anthropic Claude

Читают сейчас

21 минуту назад

Китайская ИИ-модель GLM-5.2 приблизилась к Claude Mythos в поиске уязвимостей. Что это меняет для ИБ

13 июня китайская организация Zhipu AI представила открытую языковую схема GLM-5.2. Вскоре после релиза результаты независимых тестов привлекли внимание специалистов по информационной безопасности: в

24 минуты назад

VIP-билет даром: исследователь с помощью Claude взломал компанию по продаже билетов на фестивали США

Исследователь Иэн Кэрролл в апреле получил доступ уровня суперадминистратора к системе Front Gate Tickets — компании, которая продает билеты почти на все крупные музыкальные фестивали США, от Lollapal

44 минуты назад

Диски с играми для PlayStation перестанут выпускать в 2028 году

Диски с играми для консолей PlayStation прекратят производить с января 2028 года, предупредила Sony. Японская организация объяснила это подход продолжением смещения потребительских предпочтений и инду

56 минут назад

Кому хорошо от высоких цен на хранилище? Экспорт Южной Кореи рекордно вырос на фоне ИИ-бума

Южная Корея показала рекорд, которого не было почти полвека. По предварительным данным, экспорт страны в июне вырос на 70,9 процентов год к году, до $102,25 млрд - это самый крупный скачок с октября 1

1 час назад

Bigme презентовала смартфон‑ридер HiBreak Dual 2 с двумя экранами разных типов

Китайская Bigme представила смартфон-ридер HiBreak Dual 2 с двумя экранами: 6,13-дюймовым на электронных чернилах и 5-дюймовым ЖК-дисплеем. Монитор E-Ink поддерживает цветной контент. Ознакомиться дал