Застереження: OpenAI не робила офіційного оголошення. Остаточна назва моделі, точна поведінка рівнів і дата випуску залишаються непідтвердженими компанією.
Поточні голосові режими ChatGPT — Standard Voice та Advanced Voice Mode — працюють за покроковою парадигмою. Модель повинна чекати, поки користувач закінчить говорити, перш ніж відповісти. Архітектура GPT-Bidi-1 (BiDi — bidirectional) дозволяє моделі обробляти два аудіопотоки одночасно: ваш і власний.
Ключові відмінності в поведінці, зафіксовані в демонстраціях:
Внутрішньою метою OpenAI було подолати розрив між голосовим стеком ChatGPT, який відставав від текстових моделей (уже на рівні міркувань GPT-5.5), і забезпечити паритет у розмовному інтелекті в реальному часі.
GPT-Bidi-1 — це перша голосова модель OpenAI, яка впроваджує три вибіркові рівні інтелекту та швидкості для голосу:
| Рівень | Опис |
|---|---|
| High | Максимальна глибина міркувань, повільніша відповідь — для складних аналітичних завдань |
| Medium | Збалансований компроміс між інтелектом і швидкістю |
| Instant | Найшвидша можлива відповідь, знижене міркування — для звичайних або термінових запитів |
Система рівнів дозволяє користувачам налаштовувати глибину взаємодії порівняно із затримкою залежно від завдання, подібно до того, як текстові моделі ChatGPT пропонують різні рівні міркувань. Наприклад, швидкий запит про погоду використовуватиме Instant, тоді як глибокий мозковий штурм перемкнеться на High.
Коли GPT-Bidi-1 вибрано, індикатор голосової бульбашки/хвилі змінює колір на жовтий замість поточного стандартного кольору. Модель з'являється в селекторі моделей у налаштуваннях як нова опція з позначкою "Bidi (Latest)" поряд із існуючими Standard Voice та Advanced Voice Mode, не замінюючи їх.
gpt-bidi-1. Конкурентний контекст: Поштовх до двоспрямованого голосу є прямою відповіддю на досягнення Google (Gemini Live із перериваннями), Anthropic та стартапів, що створюють голосових агентів реального часу. OpenAI прагне досягти паритету в голосовій взаємодії зі своїм текстовим інтелектом, який уже забезпечує міркування рівня GPT-5.5.
Comments
0 comments