Apple + Google =? Купертиновцы представили Apple Foundation Model с интеграцией Gemini

4 мин
Apple + Google =? Купертиновцы представили Apple Foundation Model с интеграцией Gemini

Apple представила масштабное обновление своей нейросетевой архитектуры — Apple Foundation Model. По сути, разработчики создали новые модели совместно с Google, переложив самые тяжелые облачные задачи на их инфраструктуру

Вся эта конструкция создавалась прежде всего ради Siri. Голосовой ассистент наконец-то получил возможности, которые индустрия считает базовыми.

Главные обновления Siri:

  • Работа с контекстом. Ассистент теперь нормально удерживает нить разговора, понимает, что происходит на экране устройства, и связывает реплики между собой. Разжевывать каждый запрос заново больше не нужно.

  • Генерация изображений. Картинки теперь можно создавать прямо через голосовые или текстовые команды внутри интерфейса.

  • Поиск в сети. Если локальной базы не хватает, ассистент идет искать информацию в интернете в реальном времени.

Тяжелые запросы Apple теперь официально перенаправляет в облако Google, тогда как на самом устройстве крутятся более простые локальные задачи.

Архитектурный каталог семейства AFM 3

Локальные модели

AFM 3 Core (~3 млрд параметров). Плотная (dense) базовая модель нового поколения, оптимизированная под Apple silicon для работы на смартфоне или ноутбуке. В слепых тестах ее текстовые ответы пользователи выбирали в два раза чаще прошлогоднего аналога (45,6% предпочтений против 23,3%);

AFM 3 Core Advanced (20 млрд параметров). Флагманская локальная схема. Традиционные LLM такого веса требуют, чтобы все веса находились в оперативной памяти (DRAM), что сжигает ресурсы устройства. Инженеры Apple применили метод Instruction-Following Pruning (IFP): полная модель хранится в постоянной флеш-памяти (NAND). Поскольку гонять веса туда-сюда под каждый токен слишком медленно, модель выбирает нужных экспертов под весь запрос целиком и лишь периодически обновляет их в процессе генерации. В результате активируется всего от 1 до 4 млрд параметров, что позволило уложиться в рамки для разных устройств.

Облачные модели

Все серверные решения работают под защитой сквозной приватности Private Cloud Compute (PCC), гарантирующей, что информация пользователей не сохраняются.

  • AFM 3 Cloud. Серверная мультимодальная схема, построенная на базе доработанной архитектуры Parallel-Track Mixture-of-Experts (PT-MoE). Фокус сделан на стабилизации обучения и качестве удержания контекста при длинных запросах;

  • ADM 3 Cloud (Image). Диффузионная модель для генерации графики, Genmoji и сложной обработки фото. Расширяется под конкретные задачи с помощью специализированных адаптеров (в частности, для функции Spatial Reframing в приложении «Фото»);

  • AFM 3 Cloud Pro. Самая мощная нейросеть в каталоге для сложных логических рассуждений, математики и работы автономных ИИ-агентов. Ее масштабы потребовали от Apple расширения инфраструктуры PCC: модель оптимизирована под GPU NVIDIA внутри инфраструктуры Google Cloud, но работает под строгим контролем протоколов безопасности Apple.

Подавляющее большинство параметров модели — это «экспертные» веса, связанные с блоками обратной подачи (FFN) в архитектуре сложенного трансформатора. Ресурс.

Что это дает в дополнение к Siri

Помимо контекстного поиска и прочего, мультимодальность AFM 3 Core Advanced существенно улучшила системные фичи.

В частности, стали качественнее экспрессивные голоса (Text-to-Speech). В тестах по шкале MOS новая схема генерации голоса получила оценку 4,15 (прирост на 0,28 по сравнению с текущим продакшеном). В сценариях разговорной речи оценка поднялась до 4,24 против 3,82 у старой системы.

Не отстает и повышение точности диктовки. Новая архитектура при распознавании речи обходит старый движок по всем метрикам форматирования (расстановка пунктуации, капитализация, обработка заиканий и пауз). Качество пунктуации пользователи оценили выше старого решения в 50,2% случаев.

Для сжатия моделей без потери качества Apple применила метод квантования при обучении (Quantization Aware Training), что позволило запустить их на коммерческих чипах компании с минимальным оверхедом.

Облачная инфраструктура для ваших проектов

Виртуальные машины в Москве, Санкт-Петербурге и Новосибирске с оплатой по потреблению.

Подробнее →

Что с этим не так

Во-первых, апдейт ценный, и пользоваться устройствами станет удобнее. С другой — Siri научилась понимать контекст, искать информацию в интернете и генерировать графику только сейчас. По-хорошему, все это она должна была уметь условно год назад, на самом старте интеграции нейросетей в смартфоны.

Apple просто закрыла очевидный долг перед пользователями, догнав по фичам конкурентов, которые давно умеют работать в таком режиме.

Читают сейчас

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

43 минуты назад

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

Microsoft выпустила версию PowerToys 0.100.0

3 часа назад

Microsoft выпустила версию PowerToys 0.100.0

Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения

Апдейт Telegram: форматирование ботов и Markdown-файлы

3 часа назад

Апдейт Telegram: форматирование ботов и Markdown-файлы

Telegram опубликовал крупное обновление с десятками новых функций, в том числе с поддержкой мессенджера на смарт-часах, в том числе с Wear OS, а также опциями для ботов, групп и встроенного браузера.

Shutterstock станет «творческой платформой на основе ИИ»

4 часа назад

Shutterstock станет «творческой платформой на основе ИИ»

В Shutterstock анонсировали следующую ступень развития платформы, объединяющую библиотеку созданных людьми медиа с растущим набором инструментов на основе ИИ. Цель состоит в том, чтобы помочь пользова

Версия открытого редактора звука Audacity 3.7.8

7 часов назад

Версия открытого редактора звука Audacity 3.7.8

11 июня 2026 года состоялся выпуск открытого редактора звука Audacity 3.7.8, предоставляющего средства для редактирования звуковых файлов (Ogg Vorbis, FLAC, MP3 и WAV), записи и оцифровки звука, измен