Важное примечание: OpenAI не делала официального объявления. Окончательное название модели, точное поведение уровней и дата запуска не подтверждены компанией.
Текущие голосовые режимы ChatGPT — Standard Voice и Advanced Voice Mode — работают по одностороннему принципу. Модель должна дождаться, пока пользователь закончит говорить, прежде чем ответить. Архитектура GPT-Bidi-1 (BiDi) позволяет модели обрабатывать два аудиопотока одновременно: ваш и свой собственный.
Ключевые различия в поведении, отмеченные в демонстрациях:
Внутренняя цель OpenAI — устранить разрыв между голосовым стеком ChatGPT (который отставал от текстовых моделей, уже имеющих уровень рассуждений GPT-5.5) и обеспечить паритет в интеллекте в реальном времени.
GPT-Bidi-1 — первая голосовая модель OpenAI, вводящая три выбираемых уровня интеллекта и скорости для голосового режима:
| Уровень | Описание |
|---|---|
| High | Максимальная глубина рассуждений, более медленный ответ — для сложных аналитических задач |
| Medium | Сбалансированный компромисс между интеллектом и скоростью |
| Instant | Максимально быстрый ответ, пониженный уровень рассуждений — для быстрых или времячувствительных задач |
Система уровней позволяет пользователям настраивать глубину взаимодействия в зависимости от задержки, аналогично тому, как текстовые модели ChatGPT предлагают различные уровни рассуждений. Например, быстрый запрос погоды будет использовать Instant, а глубокая мозговая атака — High.
При выборе GPT-Bidi-1 голосовой пузырь/индикатор волновой формы меняет цвет на жёлтый вместо текущего цвета по умолчанию. Модель появляется в селекторе моделей как новый параметр с пометкой «Bidi (Latest)», располагаясь рядом со Standard Voice и Advanced Voice Mode, а не заменяя их.
gpt-bidi-1 в коде. Конкурентный контекст: Ускоренное развитие двунаправленного голоса является прямым ответом на достижения Google (Gemini Live с возможностью перебивания), Anthropic и стартапов, создающих голосовых агентов в реальном времени. OpenAI стремится достичь паритета в голосовом взаимодействии с текстовым интеллектом, который уже обеспечивает рассуждения уровня GPT-5.5.
Comments
0 comments