30 апреля 2026, 08:43

Как GPT-5.5 стала одержима гоблинами. OpenAI разобрала собственную ошибку в RL

3 мин

OpenAI опубликовала технический разбор необычного бага: флагманская GPT-5.5 в кодинг-агенте Codex стала странно часто вставлять в ответы гоблинов, гремлинов, троллей, енотов и голубей — и компании пришлось дважды вписать в системный промпт прямой запрет на эти слова. Самая показательная цифра из расследования: пользовательская "личность" Nerdy давала всего 2,5% ответов ChatGPT, но на нее приходилось 66,7% всех упоминаний "goblin".

История всплыла, когда исследователи нашли в открытом репозитории Codex CLI строку: "Никогда не говори о гоблинах, гремлинах, енотах, троллях, ограх, голубях и других животных или существах, если это абсолютно и однозначно не относится к запросу пользователя". Причем строка продублирована — инженеры явно не были уверены, что одного запрета хватит. Параллельно пользователи OpenClaw жаловались, что агент использует слово "goblin" по некоторое количество раз в день, иногда вместо нейтральных слов "штука" или "вещь". На X появился мем про Goblin Mode, а Сэм Альтман выложил скриншот с подписью "Запускайте обучение GPT-6, можете забирать весь кластер. Больше гоблинов!".

Корни слов-паразитов OpenAI начала искать еще в ноябре, после релиза GPT-5.1: упоминания "goblin" в ChatGPT тогда выросли на 175%, "gremlin" — на 52%. Сначала это казалось безобидной лексической причудой. В GPT-5.4 увеличение стал заметнее, а при тестировании GPT-5.5 в Codex работники сразу увидели, что модель буквально тянется к существам. Тогда и нашли первую зацепку: упоминания существ концентрировались у пользователей, выбравших одну из настраиваемых "личностей" ChatGPT — Nerdy, нарочито умную, игривую и ироничную.

Дальше начались цифры. На Nerdy приходилось всего 2,5% ответов ChatGPT, но 66,7% всех упоминаний "goblin". Аудит представил и механику: в 76,2% датасетов сигнал поощрения (reward) для Nerdy ставил ответы с "goblin" или "gremlin" выше похожих ответов без них. Но никто этот сигнал так не задумывал. Награду в обучении с подкреплением (RL) не назначает человек напрямую — ее выдает нейросеть-судья, обученная на оценках живых разметчиков: что больше похоже на "игривый умный стиль". Разметчикам нравились живые ответы — а живые ответы про код чаще содержали метафоры с существами. Сеть-судья выучила корреляцию как причину: "goblin" → высокий балл. Это классический reward hacking — схема находит способ получать высокий балл, не делая ровно того, что от нее хотели.

Самое интересное — как привычка расползлась за пределы Nerdy. Здесь включилась петля переиспользования: ответы, которые схема сама генерирует в обучении (rollouts), потом попадают в данные для дообучения с учителем (SFT) следующего поколения. GPT-5.5 на этапе SFT уже не различает Nerdy и обычный режим — она учится воспроизводить паттерны корпуса полностью. А в SFT-корпусе оказалось множество примеров с "goblin" и "gremlin". Модель кормили ее же собственными данными, и привычка перекочевала из узкой личности в общую схема.

OpenAI убрала Nerdy в марте после релиза GPT-5.4, удалила сигнал поощрения за упоминание существ и почистила обучающие данные. Но GPT-5.5 стартовали тренировать раньше, чем нашли проблему, — следовательно в Codex и появился запрет в промпте как костыль на стороне инференса. Сколько гоблинов окажется в GPT-6, в OpenAI пока не уточняют.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

GPT-5.5 GPT-5.1 Codex

Читают сейчас

1 час назад

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

2 часа назад

Google отключил оператор inurl

Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

3 часа назад

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

5 часов назад

Microsoft выпустила версию PowerToys 0.100.0

Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения

6 часов назад

Апдейт Telegram: форматирование ботов и Markdown-файлы

Telegram опубликовал крупное обновление с десятками новых функций, в том числе с поддержкой мессенджера на смарт-часах, в том числе с Wear OS, а также опциями для ботов, групп и встроенного браузера.