Forbehold: OpenAI har ikke kommet med noen offisiell kunngjøring. Modellens endelige navn, nøyaktige nivåoppførsel og lanseringsdato er fortsatt ubekreftet av selskapet.
Dagens talemoduser i ChatGPT – Standard Voice og Advanced Voice Mode – opererer i et turtakingsparadigme. Modellen må vente på at brukeren blir ferdig med å snakke før den kan svare. GPT-Bidi-1s toveis (BiDi) arkitektur gjør at modellen kan behandle to lydstrømmer samtidig: din og sin egen.
Viktige atferdsforskjeller rapportert i demonstrasjoner:
OpenAIs interne mål var å tette gapet mellom ChatGPTs talestabel – som lå etter tekstmodellene (allerede på GPT-5.5-klasses resonnering) – og levere paritet i sanntids samtaleforståelse.
GPT-Bidi-1 er den første talemodellen fra OpenAI som introduserer tre valgbare intelligens- og hastighetsnivåer for tale:
| Nivå | Beskrivelse |
|---|---|
| Høy | Maksimal resonneringsdybde, tregere respons – for komplekse analyseoppgaver |
| Mellom | Balansert avveining mellom intelligens og hastighet |
| Instant | Raskest mulig respons, redusert resonnering – for uformelle eller tidskritiske interaksjoner |
Nivåsystemet lar brukere skreddersy interaksjonsdybde versus responstid per oppgave, på samme måte som ChatGPTs tekstmodeller tilbyr ulike resonneringsnivåer. For eksempel ville et raskt værsøk bruke Instant, mens en dyp idémyldringsøkt ville bytte til Høy.
Når GPT-Bidi-1 er valgt, endres taleboblen/bølgeformindikatoren til gul i stedet for den nåværende standardfargen. Modellen vises i innstillingens modellvelger som et nytt alternativ merket «Bidi (Latest)» sammen med eksisterende Standard Voice og Advanced Voice Mode, snarere enn å erstatte dem.
gpt-bidi-1. Konkurransemessig kontekst: Satsingen på toveis tale er et direkte svar på fremskritt fra Google (Gemini Live med avbrytelser), Anthropic og sanntids taleløsninger fra oppstartsselskaper. OpenAI kappløper for å bringe taleinteraksjon på nivå med tekstintelligensen, som allerede driver GPT-5.5-klasses resonnering.
Comments
0 comments