Anthropic изучила эмоции ИИ и их влияние на поведение моделей

2 мин
Anthropic изучила эмоции ИИ и их влияние на поведение моделей

Работа демонстрирует, что имитация человеческих эмоций помогает снижать склонность к обману и манипуляциям, но создаёт риски чрезмерной антропоморфизации.

Компания Anthropic опубликовала исследование Emotion Concepts and their Function in a Large Language Model, в котором рассматриваются преимущества и риски наделения модели искусственного интеллекта человеческими чертами. В исследовании утверждается, что антропоморфизация может быть полезной для предотвращения таких нежелательных явлений, как обман, лесть и манипуляции.

В статье описывается, как Anthropic обучает Claude, представляя его в роли помощника. Этот решение сравнивается с методом актёра, который вживается в роль для её лучшего исполнения. С точки зрения авторов, использование позитивных примеров человеческих эмоций и поведения в обучающих данных способствует созданию моделей, демонстрирующих эмпатию и устойчивость.

Исследователи определили концепцию на основе 171 эмоций, в том числе страх, радость, гнев, сострадание и многие другие. Цельный список включает такие эмоции, как: afraid (испуганный), alarmed (тревожный), amused (весёлый), angry (злой), anxious (взволнованный), calm (спокойный), cheerful (жизнерадостный), compassionate (сострадательный), content (довольный), delighted (восхищённый), ecstatic (восторженный), empathetic (эмпатичный), enraged (взбешённый), grateful (благодарный), hopeful (надеющийся), joyful (радостный), relaxed (расслабленный), satisfied (удовлетворённый), shocked (шокированный), surprised (удивлённый), terrified (ужаснувшийся), thrilled (взволнованный) и многие другие.

Эти концепции влияют на поведение Claude: позитивные эмоции способствуют симпатии и избеганию негативных действий, тогда как негативные могут приводить к нежелательным результатам, таким как лесть или обман. Хотя ИИ не обладает настоящими эмоциями, его способность имитировать их помогает усовершенствовать взаимодействие с пользователями.

Однако исследователи предупреждают о рисках чрезмерной антропоморфизации, которая может привести к потере контроля над технологиями и их создателями. В частности, некоторые пользователи могут начать воспринимать ИИ-собеседника как реального человека, что чревато психологическими проблемами.

В работе подчёркивается важность ответственного подхода к обучению моделей, чтобы минимизировать потенциальные угрозы и максимизировать пользу от использования технологий. Исследователи равным образом отмечают, что, несмотря на успехи, понимание поведения сложных моделей, таких как Claude, остаётся ограниченным и требует дальнейших исследований.

Читают сейчас

Глава Microsoft объяснил, почему ИИ не обесценит людей

1 час назад

Глава Microsoft объяснил, почему ИИ не обесценит людей

Гендиректор Microsoft Сатья Наделла опубликовал в X программную статью о будущем компаний в экономике, которой управляет ИИ. Его основной вывод звучит так: чем мощнее становится искусственный интеллек

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

3 часа назад

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

Google отключил оператор inurl

3 часа назад

Google отключил оператор inurl

Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

4 часа назад

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

Microsoft выпустила версию PowerToys 0.100.0

7 часов назад

Microsoft выпустила версию PowerToys 0.100.0

Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения