
OpenAI выпустил три голосовых модели: одна рассуждает, вторая переводит в реальном времени, третья транскрибирует
OpenAI добавил (https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/) в Realtime API три новых аудиомодели: GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper.
GPT-Realtime-2 — главная новинка. Это первая голосовая модель OpenAI с рассуждением уровня GPT-5, контекстным окном 128К токенов и поддержкой параллельных вызовов инструментов прямо во время разговора.
Модель умеет произносить короткие фразы вроде "сейчас проверю" пока выполняет запрос, и регулировать стиль речи в зависимости от ситуации. На бенчмарке Big Bench Audio с высоким уровнем рассуждения она набирает 96.6% против 81.4% у предыдущей версии.
GPT-Realtime-Translate переводит речь из более чем 70 входных языков в 13 выходных, сохраняя смысл даже при региональных произношениях и профессиональной терминологии.
GPT-Realtime-Whisper транскрибирует речь в текст прямо во время того, как человек говорит. Полезно для живых субтитров, заметок с совещаний, протоколирования и инструментов для людей с нарушениями слуха.
Все три модели доступны через Realtime API, потестировать можно в Playground на платформе OpenAI.
Ежедневные подборки промптов, свежие новости и материалы об ИИ — там, где удобно. Без спама, только редакционный отбор.