Let op: OpenAI heeft geen officiële aankondiging gedaan. De uiteindelijke naam, het exacte gedrag van de niveaus en de uitroldatum worden niet door het bedrijf bevestigd.
De huidige spraakmodi van ChatGPT – Standaard Spraak en Geavanceerde Spraakmodus – werken in een beurt-voor-beurt-paradigma. Het model moet wachten tot de gebruiker is uitgesproken voordat het kan reageren. De bidirectionele (BiDi) architectuur van GPT-Bidi-1 stelt het model in staat om twee audiostreams tegelijk te verwerken: die van jou en die van zichzelf.
Belangrijke gedragsverschillen die in demonstraties zijn gerapporteerd:
OpenAI's interne doel was om de kloof te dichten tussen ChatGPT's spraakstack – die achterliep op de tekstmodellen (al op GPT-5.5-niveau van redeneren) – en gelijkwaardigheid te bereiken in realtime conversationele intelligentie.
GPT-Bidi-1 is het eerste OpenAI-spraakmodel dat drie instelbare intelligentie- en snelheidsniveaus voor spraak introduceert:
| Niveau | Beschrijving |
|---|---|
| Hoog (High) | Maximale redeneerdiepte, tragere respons – voor complexe analysetaken |
| Medium | Gebalanceerde afweging tussen intelligentie en snelheid |
| Direct (Instant) | Snelst mogelijke respons, verminderd redeneervermogen – voor alledaagse of tijdgevoelige interacties |
Het niveausysteem stelt gebruikers in staat om de interactiediepte versus latentie af te stemmen op de taak, vergelijkbaar met hoe de tekstmodellen van ChatGPT verschillende redeneerniveaus bieden. Een snelle weervraag gebruikt bijvoorbeeld Direct, terwijl een diepgaande brainsstormsessie overschakelt naar Hoog.
Wanneer GPT-Bidi-1 is geselecteerd, verandert de spraakbel/golfvormindicator naar geel in plaats van de huidige standaardkleur. Het model verschijnt in de modelkiezer van de instellingen als een nieuwe optie met het label "Bidi (Nieuwste)" naast de bestaande Standaard Spraak en Geavanceerde Spraakmodus, in plaats van deze te vervangen.
gpt-bidi-1. Concurrentiecontext: De bidirectionele spraakpush is een direct antwoord op de vooruitgang van Google (Gemini Live met onderbrekingen), Anthropic en realtime spraakagenten van startups. OpenAI wil de spraakinteractie op gelijk niveau brengen met zijn tekstintelligentie, die al GPT-5.5-niveau van redeneren aandrijft.
Comments
0 comments