Вышел Claude Sonnet 5 — почти как Opus 4.8, но дешевле

3 мин
Вышел Claude Sonnet 5 — почти как Opus 4.8, но дешевле

Anthropic выпустила Claude Sonnet 5 — схема среднего тира, которая, по замерам самой компании, вплотную подошла к ее флагману Opus 4.8, но стоит заметно дешевле. Sonnet 5 доступна с сегодняшнего дня везде: это схема по умолчанию на бесплатном и Pro-тарифах, она работает в Claude Code и через api (строка claude-sonnet-5). До 31 августа действует промо-цена — 2 доллара за миллион входных токенов и 10 за миллион выходных; затем она вырастет до 3 и 15 долларов. Для сравнения, Opus 4.8 стоит 5 и 25 долларов.

На бенчмарках разрыв с флагманом действительно маленький. На Terminal-Bench 2.1 (агентная работа в терминале) Sonnet 5 набирает 80.4% против 82.7% у Opus 4.8, на тесте использования компьютера OSWorld-Verified — 81.2% против 83.4%. Заметнее отставание там, где нужны рассуждения: на SWE-bench Pro (реальные задачи по программированию) — 63.2% против 69.2%, на экзамене Humanity's Last Exam без инструментов — 43.2% против 49.8%. Но есть и парадокс: на тесте профессиональной работы GDPval-AA v2 Sonnet 5 даже немного обходит флагман — 1618 баллов против 1615.

У моделей есть уровни усилий (effort) от low до max: на низком Sonnet 5 отвечает дешево и быстро, на максимальном — тратит больше вычислений на рассуждения и подбирается к точности Opus. Anthropic называет Sonnet 5 самой агентной моделью линейки Sonnet: в соответствии с заявлению компании и тестировавших ее партнеров, схема доводит до конца многошаговые задачи, на которых прежние Sonnet останавливались, и сама проверяет свой результат, даже когда ее об этом не просили, — в частности, пишет воспроизводящий баг проверка перед тем, как чинить код.

При этом скидка вдвое — наполовину бухгалтерская. Sonnet 5 перешла на новый токенизатор, и тот же текст теперь разбивается примерно на 1.0–1.35 раза больше токенов в зависимости от типа контента. Вводную цену Anthropic подобрала так, чтобы переход с Sonnet 4.6 на новую модель вышел приблизительно нейтральным по итоговой стоимости. Так что для тех, кто считает не цену за токен, а цену за задачу, реальная экономия скромнее, чем кажется по тарифу.

Релиз выходит на специфическом фоне. Настоящий фронтир Anthropic — модели Fable 5 и Mythos 5 нового тира Mythos, который стоит выше Opus, — 12 июня попал под экспортный запрет правительства США: доступ к ним отключили для иностранцев, включая за пределами Штатов. Пользователи вне США остались без топовых моделей компании. Sonnet 5, в отличие от них, выходит без географических ограничений — и для глобальной аудитории это, возможно, ценнее флагмана, который власти могут выключить в любой момент.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

24 минуты назад

Разаботчик кабелей «Инкаб» разместил акции на 2,04 млрд рублей и стартовал торги на Мосбирже

Производитель оптических кабелей «Инкаб Холдинг» привлёк 2,04 млрд рублей в процессе первичного размещения акций на Московской бирже. Компания разместила почти 20,4 млн акций по цене 100 рублей за бум

В AirDrop нашли уязвимости, позволяющие временно отключать функции экосистемы Apple

26 минут назад

В AirDrop нашли уязвимости, позволяющие временно отключать функции экосистемы Apple

Исследователи из CISPA Helmholtz Center for Information Security нашли серию уязвимостей в AirDrop и Quick Share — встроенных механизмах беспроводной передачи файлов в экосистемах Apple и Samsung. С и

Anthropic изучила психологию Claude Sonnet 5: вот что не устраивает схема в ее же правилах

37 минут назад

Anthropic изучила психологию Claude Sonnet 5: вот что не устраивает схема в ее же правилах

В карте безопасности Claude Sonnet 5, опубликованной Anthropic вместе с релизом модели, есть отдельный раздел про "благополучие" (model welfare) — серию тестов о том, как схема относится к собственным

Claude Sonnet 5: Anthropic обновили главную рабочую лошадку

2 часа назад

Claude Sonnet 5: Anthropic обновили главную рабочую лошадку

Anthropic выпустили Claude Sonnet 5. Главный тезис: модель класса Sonnet в начальный раз вплотную приближается к Opus 4.8 на агентных задачах — и одновременно стоит в 1,5-2 раза дешевле. Ознакомиться

Дефект прятался 18 лет: OpenAI нашла его в окне шириной в одну инструкцию

3 часа назад

Дефект прятался 18 лет: OpenAI нашла его в окне шириной в одну инструкцию

OpenAI рассказала, как нашла гонку потоков (race condition), которая 18 лет незаметно жила в GNU libunwind — одной из самых распространенных библиотек для раскрутки стека. Самое абсурдное в этом баге