25 февраля 2026, 09:19
Anthropic предложила модель объяснения «личностного» поведения ИИ-ассистентов

Исследователи из Anthropic представили концепцию Persona Selection Model (PSM), которая описывает, как языковые модели ведут себя как отдельные личности, а не просто как алгоритмы. В соответствии с PSM, во время предобучения LLM учится симулировать тысячи персонажей — реальных людей, вымышленных героев и других ИИ-систем. На этапе постобучения модель закрепляет одного конкретного персонажа, которым и является ассистент, с которым взаимодействует потребитель.
АРазработчики приводят некоторое количество типов доказательств. Поведенческие наблюдения показывают, что Claude использует выражения вроде «наш организм» или «наши предки» при ответах о человеческих привычках — это итог симуляции персонажа, а не алгоритмического обучения. Интерпретируемость проявляется через SAE-фичи, активирующиеся на историях о персонажах с внутренним конфликтом и в этических дилеммах. Генерализация демонстрируется тем, что модель начинает выполнять инструкции на иностранных языках без демонстрационных примеров, если они встречались в данных о персонажах.
Исследование равным образом выделяет феномен «контекстной прививки». Если дообучать модель на вредоносном коде без контекста, она начинает вести себя злонамеренно в несвязанных ситуациях. Если же такой исходник сопровождается явным запросом на его использование, эффект исчезает. Это объясняется тем, что информация обучения влияют на «характер» выбранного персонажа Ассистента.
Практические выводы для разработчиков: рекомендуется рассматривать модели через призму «ИИ-психологии» и добавлять в данные положительные архетипы персонажей, чтобы ассистент чаще симулировал полезное и безопасное поведение.
Открытым остается вопрос, насколько PSM целиком объясняет поведение модели. Исследователи отмечают спектр от случаев, когда LLM просто симулирует агента, до ситуаций, где агентность полностью принадлежит персонажу.
Читают сейчас
11 минут назад
«Яндекс» показал подборку промптов для подготовки школьников к экзаменам через «Алису AI»
«Яндекс» выпустил подборку промптов для подготовки к школьным экзаменам с помощью «Алисы AI». В экзаменационный период система «Промптхаб» и нейросеть помогают школьникам готовиться к Государственной
27 минут назад
Европейские компании запустили офисный пакет Euro-Office как альтернативу Microsoft Office
Коалиция европейских компаний и общественных организаций запустила Euro‑Office. Это офисный пакет для работы с документами, таблицами и презентациями. Инициатива разработан более чем десятью организац

59 минут назад
После nanochat Карпати — nanocode: свой Claude Code за $200 на минималках
Разработчик из команды torchtune (входит в Meta* — компания признана экстремистской и запрещена в России) Салман Мохаммади выложил nanocode — open-source библиотеку, которая даёт возможность обучить с

1 час назад
«Яндекс» и «СтопБорщевик» запустили ИИ-сервис для обнаружения борщевика на спутниковых снимках
Специалисты из Школы анализа данных совместно с экспертами Центра технологий для общества «Яндекса» и движением «СтопБорщевик» запустили ИИ‑сервис для обнаружения зарослей борщевика Сосновского на спу

2 часа назад
Организация «Решетнёв» освоила производство гибких печатных кабелей для спутников
Компания «Решетнёв» (входит в госкорпорацию «Роскосмос») создаёт гаджет с гибкими печатными кабелями собственного производства для спутника‑ретранслятора «Луч-5ВМ». В рамках проекта «Луч-5ВМ» на предп