19 мая 2026, 20:38
ИИ собрал рабочую ОС за 12 часов: представлена Gemini 3.5 Flash

На конференции I/O 2026 Google показал новое семейство моделей Gemini 3.5. Первой вышла младшая релиз — 3.5 Flash, и компания сразу назвала ее своей сильнейшей моделью для агентов и кодинга. Но посмотрим на бенчмарки.
Где 3.5 Flash действительно вне конкуренции — это агентские задачи и работа с инструментами. На MCP Atlas (многошаговые сценарии через внешние инструменты) она набирает 83,6%, обходя и Claude Opus 4.7, и GPT-5.5. На Finance Agent v2 — 57,9% против примерно 51% у обоих конкурентов и 43% у своего же 3.1 Pro. Сильна она и в мультимодальности: 83,6% на MMMU-Pro и 84,2% на CharXiv — лучшие результаты в таблице. По кодингу Flash обгоняет 3.1 Pro (76,2% против 70,3% на Terminal-Bench 2.1), но здесь ее уже опережает GPT-5.5 с 78,2%.
А вот в глубоком рассуждении и длинном контексте картина обратная. На академическом тесте Humanity's Last Exam новая Flash набирает 40,2% — меньше, чем прошлый флагман 3.1 Pro (44,4%) и Claude Opus 4.7 (46,9%). На головоломках ARC-AGI-2 — 72,1% против 77,1% у 3.1 Pro. На GDPval-AA, где модели сравнивают по Elo-рейтингу как шахматистов на экономически ценной работе, у Flash 1656 — ниже, чем у Claude Sonnet 4.6 (1676), Opus 4.7 (1753) и GPT-5.5 (1769). Логика простая: это скоростной агентский "рабочий конь", а не чемпион по сложным размышлениям.
Зато по скорости разрыв огромный. По замерам независимого сервиса Artificial Analysis, 3.5 Flash выдает 289 токенов в секунду — больше чем вчетверо быстрее Claude Opus 4.7 (67 токенов/с) и GPT-5.5 (71), и вдвое быстрее самого Gemini 3.1 Pro (135). Одновременно по общему индексу интеллекта Artificial Analysis модель держится вровень с 3.1 Pro и Claude Opus 4.7. Все это, по словам Google, за долю стоимости конкурентов.
Самую наглядную демонстрацию организация показала на своей агентской платформе Antigravity — среде, где ИИ-агенты пишут исходник самостоятельно. Google поручил агентам на Antigravity 2.0 и Gemini 3.5 Flash собрать работающую операционную систему с нуля. Итог: 12 часов работы, 93 параллельных субагента, больше 15 тысяч обращений к модели, 2,6 млрд обработанных токенов — и меньше чем на $1000 кредитов программный интерфейс. Агенты написали каждую строку кода сами: от ядра до системы управления процессами и памятью. Вместе с моделью Google увеличил саму Antigravity: появились консольная релиз и SDK, нативная поддержка голоса через аудиомодели Gemini, десктопное приложение Antigravity 2.0 и интеграции с Google AI Studio, Android, Firebase и вебом.
3.5 Flash уже раскатывается всем пользователям в приложении Gemini и в AI-режиме Поиска Google, а разработчикам доступна через Antigravity и Gemini программный интерфейс. Старшая Gemini 3.5 Pro уже проходит внутреннее тестирование в Google и ожидается в пределах месяца.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас

16 минут назад
Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках
Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

1 час назад
Google отключил оператор inurl
Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

1 час назад
Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat
13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

4 часа назад
Microsoft выпустила версию PowerToys 0.100.0
Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения

4 часа назад
Апдейт Telegram: форматирование ботов и Markdown-файлы
Telegram опубликовал крупное обновление с десятками новых функций, в том числе с поддержкой мессенджера на смарт-часах, в том числе с Wear OS, а также опциями для ботов, групп и встроенного браузера.