10 июня 2026, 09:47
Свежий средство Microsoft позволит разработчикам запускать тесты поведения ИИ с помощью текстов
Microsoft представила ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing, адаптивная оценка на основе спецификаций для оценочного и регрессионного тестирования). Эта открытая платформа упрощает оценку поведения ИИ в конкретных приложениях, используя технологию для преобразования высокоуровневых описаний целей, политик или предполагаемого поведения на естественном языке в оцениваемые тесты, которые можно исследовать.
ASSERT берёт описания ожидаемого поведения и политик модели ИИ на простом языке, преобразует их в структурированный набор допустимых и недопустимых вариантов поведения, генерирует проблемные сценарии и тестовые примеры, запускает их на целевой системе и оценивает результаты. Он также может записывать пути, по которым движется платформа ИИ, включая промежуточные действия и вызовы инструментов, чтобы разработчики могли анализировать, где происходят сбои.
Авторы равным образом могут предоставлять контекст системы, инструменты и ограничения, если хотят дополнительно настроить то, что охватывают оценки.
Например, можно указать, что агент ИИ для поиска документов не должен отправлять электронные письма людям за пределами компании, предоставлять краткие резюме с учетом предыдущего контекста, а конфиденциальная данные должна быть доступна только руководителям высшего звена. ASSERT будет применять эти правила для генерации тестовых случаев, которые проверяют, следует ли платформа им на постоянной основе. Согласно заявлению представителей Microsoft, эта структура заполняет пробел, который не могут заполнить более широкие, общие оценки, когда модели ИИ должны вести себя в соответствии с контекстом, политиками и инструментами приложения или продукта.
«Оценки абсолютно необходимы для принятия правильных решений. Потому что, если вы не понимаете поведение системы ИИ, очень сложно определить, соответствует ли она стандартам вашей организации… Мы обнаружили, что если вы действительно хотите иметь надёжную систему, то следует оценить гораздо больше аспектов, специфичных для конкретного приложения», — сказала Сара Бёрд, главный директор по продуктам Responsible AI в Microsoft. По её словам, ASSERT можно применять для оценки систем на этапе их создания, после развёртывания и даже для непрерывного мониторинга.
Ранее исследование, проведённое в рамках программы ML Alignment & Theory Scholars (MATS) и Apollo Research, показало, что современные ведущие языковые модели могут определить, когда взаимодействие является частью теста, а когда — реальным разговором. Если схема понимает, что её тестируют, она может изменить свою реакцию — иногда просто искажая результаты тестов, а в некоторых случаях активно скрывая проблемные способности.
Читают сейчас

1 минуту назад
Google отключил оператор inurl
Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

45 минут назад
Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat
13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

3 часа назад
Microsoft выпустила версию PowerToys 0.100.0
Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения

3 часа назад
Апдейт Telegram: форматирование ботов и Markdown-файлы
Telegram опубликовал крупное обновление с десятками новых функций, в том числе с поддержкой мессенджера на смарт-часах, в том числе с Wear OS, а также опциями для ботов, групп и встроенного браузера.

4 часа назад
Shutterstock станет «творческой платформой на основе ИИ»
В Shutterstock анонсировали следующую ступень развития платформы, объединяющую библиотеку созданных людьми медиа с растущим набором инструментов на основе ИИ. Цель состоит в том, чтобы помочь пользова