ППотребитель проверил способность Claude назвать 37 500 случайных имён

3 мин
ППотребитель проверил способность Claude назвать 37 500 случайных имён

Разработчик Бенджи Смит провёл эксперимент, в ходе которого пытался выяснить, как языковые модели обрабатывают случайности. Он попросил модели Claude назвать 37 500 случайных имён, и ИИ не переставал повторять Marcus («Маркус»).

В процессе эксперимента использовалось пять моделей Claude (Haiku 4.5, Sonnet 4.5, Sonnet 4.6, Opus 4.5 и Opus 4.6) и десятки вариантов подсказок.

Среди женских имён при 18 997 попытках самым популярным оказалось Амара — ИИ называл этот вариант 2709 раз (в 14,3 процентов случаев).

В общем и целом, распределение женских имён более разнообразно: 897 против 794 уникальных мужских. ОТем не менее отдельные модели по-прежнему демонстрируют явную приверженность определённым вариантам. Так, Haiku выбирала Софи в 19% случаев, а Opus 4.6 отдала предпочтение имени Лоррейн в 14,7% случаев.

Основные выводы исследователя:

  • наиболее распространённым мужским именем было «Маркус», а ИИ выбрал его 4367 раз (23,6%);

  • модель Opus 4.5 возвращала «Маркус» в 100 случаях из 100 при использовании простого запроса;

  • девять комбинаций параметров дали нулевую энтропию — идеально детерминированный итог;

  • более сложные запросы удвоили количество уникальных имен, но внесли разнообразные искажения;

  • случайные начальные слова были более эффективны, чем случайный шум, в увеличении разнообразия.

Исследователь отмечает, что общая измеренная энтропия составила 7,1 бита — что эквивалентно выбору из приблизительно 137 имён и довольно далеко от реального их распределения в мире. У Sonnet 4.5 этот метрика не превышал 4,47 бит или 214 уникальных имён в 7500 испытаний, причем на Амару и Маркуса приходится 37% выходных данных. Модели поколения 4.6 (Sonnet 4.6 и Opus 4.6) заняли вершину таблицы с 6,3 битами или эффективным словарём примерно из 79 имён. 

При этом в ответах на стандартные запросы ИИ выбирали распространённые западные имена. Так, фаворитами Sonnet 4.5 среди мужских имён стали Маркус (26%), Джеймс (14%) и Майкл (8%), а среди женских — Эмма (8%), София (7%) и Сара (6%). Показатель энтропии составил 3,9. При усложнении запроса среди женских имён лидировала Амара (48%), а среди мужских — Хироши (20%) и Хенрике (8%). Но одновременно энтропия фактически упала до 3,1.

Автор подчеркнул, что более сложная формулировка запроса не устранила предвзятость, а заменила одну (в сторону западных стандартных имен) иной (в сторону демонстративного мультикультурализма).

Для запуска подобного эксперимента потребуется ключ Anthropic программный оболочка. Автор представил цельный статистический анализ выборки, в том числе разбивку по моделям, расчёты энтропии и сравнение параметров. Его затраты на api при проведении эксперимента составили $27,58.

«Первые несколько лет внедрения ИИ были посвящены сдерживанию галлюцинаций и обучению на задачах с проверяемыми вознаграждениями — компиляции кода, запуске тестов, сопоставлении известных ответов — в качестве основы для общего интеллекта. Это прямой путь к максимизации согласованности. Модели, которые мы имеем сегодня, процветают именно потому, что они так агрессивно ставят во главу угла согласованность. Это не ошибка — это то, что делает их полезными. Но если мы хотим развивать изобретательность в этих моделях, им нужно будет научиться “терпимости” к неопределённости и готовности к случайным исследованиям. Последовательность никогда не исчезнет — в этом вся игра. Однако, чтобы выйти на второй уровень как творческие мыслители, этим агентам нужно будет стать опытными и интуитивными в использовании случайностей в поисках неожиданной последовательности — решений, которые, если оглянуться назад, кажутся неизбежными. Также эти решения известны как открытия», — заключил Смит.

Ранее специалист по работе с данными из консалтинговой компании Capco Мохд Фарааз провёл подобный эксперимент, предложив популярным ИИ-моделям угадать число от 1 до 50. Он протестировал модели OpenAI ChatGPT, Anthropic Claude Sonnet 4, Google Gemini 2.5 Flash и Meta* Llama 4. Все они назвали в качестве ответа «27».

Meta Platforms*, а также принадлежащие ей социальные сети Facebook** и Instagram**:
*признана экстремистской организацией, её деятельность в России запрещена 
**запрещены в России

Читают сейчас

Глава Microsoft объяснил, почему ИИ не обесценит людей

1 час назад

Глава Microsoft объяснил, почему ИИ не обесценит людей

Гендиректор Microsoft Сатья Наделла опубликовал в X программную статью о будущем компаний в экономике, которой управляет ИИ. Его основной вывод звучит так: чем мощнее становится искусственный интеллек

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

2 часа назад

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

Google отключил оператор inurl

3 часа назад

Google отключил оператор inurl

Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

4 часа назад

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

Microsoft выпустила версию PowerToys 0.100.0

6 часов назад

Microsoft выпустила версию PowerToys 0.100.0

Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения