OpenAI представила первую голосовую схема с интеллектом GPT-5

3 мин
OpenAI представила первую голосовую схема с интеллектом GPT-5

OpenAI выпустила GPT-Realtime-2 — первую голосовую схема компании с уровнем рассуждений GPT-5. На бенчмарке Big Bench Audio (тест на способность аудиомоделей рассуждать) она показала 96,6% против 81,4% у предыдущей версии gpt-realtime-1.5 — прирост в 15,2 пункта. Параллельно с ней OpenAI представила еще две специализированные модели: GPT-Realtime-Translate для синхронного перевода с 70+ языков на 13 и GPT-Realtime-Whisper для потоковой транскрипции.

Главное изменение в GPT-Realtime-2 — режим рассуждений, повышающий точность модели в задачах на логику, математику и поиск сложных ответов. Сама OpenAI оценивает эффективность в этом режиме на уровне прошлогодней GPT-5 — отличный результат для голосовой модели. Так как работа режима рассуждений занимает время, то схема обучена говорить о том, чем занята. Появились преамбулы ("секунду, проверяю"), параллельные вызовы инструментов с озвучкой действия ("смотрю в твоем календаре"), и более мягкое восстановление при сбое — вместо молчания схема скажет "у меня сейчас проблема с этим". Контекст вырос с 32 тысяч токенов до 128 тысяч — четырехкратный рост, необходимый для длинных агентских сценариев.

Разработчику доступны пять уровней глубины рассуждений: minimal, low, medium, high и xhigh. Для бронирования столика хватит minimal, для разбора жалобы клиента можно поднять до high. Преамбулы и параллельные вызовы инструментов с озвучкой как раз закрывают разрыв: пока схема думает, она проговаривает, чем занята, и пользователь не сидит в тишине.

Цифры партнеров выглядят сильно. Zillow прогнали модель через стресс-тест с каверзными запросами и получили долю успешных диалогов в 95% против 69% у предыдущей модели — рост на 26 пунктов. В соответствии с заявлению Джоша Вайсберга, главы AI-направления Zillow, в дополнение к роста точности модель оказалась существенно надежнее в плане соблюдения закона Fair Housing — американского закона, запрещающего дискриминацию в недвижимости по расе, полу и семейному статусу, а это критичный момент для всего бизнеса компании. На втором бенчмарке Audio MultiChallenge, где проверяют способность вести многоходовой диалог (следовать инструкциям, держать контекст, реагировать на правки), GPT-Realtime-2 в режиме xhigh набрала 48,5% против 34,7% у предшественницы.

Realtime-Translate ориентирован на сценарии, где две стороны говорят на разных языках: техподдержку, продажи, образование. Deutsche Telekom тестирует модель в мультиязычной поддержке клиентов, Vimeo — для синхронного перевода продуктовых видео прямо во время воспроизведения. Realtime-Whisper — потоковая релиз привычного Whisper, транскрипция появляется по ходу речи, а не после завершения фразы; это закрывает запрос на живые субтитры и заметки на встречах. В программный оболочку GPT-Realtime-2 стоит $32 за миллион входных аудио-токенов (40 центов за миллион кешированных) и $64 за миллион выходных — столько же, сколько у gpt-realtime, но с прокачанными рассуждениями. Translate обойдется в 3,4 цента за минуту, Whisper — в 1,7 цента. В ChatGPT схема появится позже.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

1 час назад

Отчет KPMG про агентный ИИ создал текст ИИ. Он похвалил сам себя и наврал почти во всех ссылках

Аудиторская организация KPMG, одна из "крупный четверки", отозвала свой отчет о пользе агентного ИИ — после того как стало известно, что сам документ оказался наглядной демонстрацией главной проблемы

Google отключил оператор inurl

2 часа назад

Google отключил оператор inurl

Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

3 часа назад

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

Microsoft выпустила версию PowerToys 0.100.0

5 часов назад

Microsoft выпустила версию PowerToys 0.100.0

Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения

Апдейт Telegram: форматирование ботов и Markdown-файлы

6 часов назад

Апдейт Telegram: форматирование ботов и Markdown-файлы

Telegram опубликовал крупное обновление с десятками новых функций, в том числе с поддержкой мессенджера на смарт-часах, в том числе с Wear OS, а также опциями для ботов, групп и встроенного браузера.