Microsoft несколько месяцев советовала обучать ИИ на пиратских книгах о Гарри Поттере

2 мин
Microsoft несколько месяцев советовала обучать ИИ на пиратских книгах о Гарри Поттере

Microsoft на протяжении нескольких месяцев советовала обучать ИИ на пиратских книгах о Гарри Поттере. В ноября 2024 старший менеджер по продуктам Microsoft Пуджей Камат опубликовала в блоге компании пост, в котором рекомендовала разработчикам языковых моделей использовать датасет с текстами всех семи книг серии.

Статья Камат рассказывала о новой функции Azure SQL DB, которая упрощала интеграцию генеративного ИИ в приложения с помощью нескольких строк кода и библиотек вроде LangChain. Автор подчёркивала популярность книг Джоан Роулинг и предлагала обучать на них модели со ссылкой на датасет Kaggle, где книги были ошибочно помечены как общественное достояние (этот набор позже удалили).

С помощью книг Камат рекомендовала обучать модели извлечению релевантных фрагментов, в частности, закусок из волшебного мира: этот запрос требовал от модели извлечь из текста все названия волшебных лакомств, таких как конфеты «Берти Боттс» и шоколадные лягушки.

В качестве практического примера Камат загрузила тексты в Azure Blob Storage и сгенерировала фанфик, где Гарри в поезде знакомится с другом, который объясняет ему, как работает векторная сопровождение SQL от Microsoft. К тексту прилагалось ИИ-сгенерированное изображение Гарри с логотипом Microsoft.

Пост Камат полтора года просуществовал незамеченным правообладателями, в том числе саму Роулинг. Причина, вероятно, заключается в низкой популярности датасета — приблизительно 10 тысяч загрузок. Пост был удалён после критики на Hacker News, но его архив доступен в сети.

Читают сейчас

Глава Microsoft объяснил, почему ИИ не обесценит людей

1 час назад

Глава Microsoft объяснил, почему ИИ не обесценит людей

Гендиректор Microsoft Сатья Наделла опубликовал в X программную статью о будущем компаний в экономике, которой управляет ИИ. Его основной вывод звучит так: чем мощнее становится искусственный интеллек

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

2 часа назад

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

Google отключил оператор inurl

3 часа назад

Google отключил оператор inurl

Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

4 часа назад

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

Microsoft выпустила версию PowerToys 0.100.0

6 часов назад

Microsoft выпустила версию PowerToys 0.100.0

Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения