OpenAI arbeitet an GPT Bidi 1, einem bidirektionalen Sprachmodell, das gleichzeitig zuhören und sprechen kann. Das Modell verarbeitet Unterbrechungen mitten im Satz, ohne einzufrieren oder den Ton zu verlieren.

Create a landscape editorial hero image for this Studio Global article: Search & fact-check with cited sources for What is OpenAI's GPT-Bidi-1 bidirectional voice model for ChatGPT, including how it was discovere. Article summary: OpenAI's **GPT-Bidi-1** is a next-generation bidirectional voice model for ChatGPT, discovered via code and UI references in the ChatGPT web and mobile apps. It represents the largest voice-mode upgrade ever for ChatGPT,. Topic tags: general, general web, user generated. Style: premium digital editorial illustration, source-backed research mood, clean composition, high detail, modern web publication hero. Use reference image context only for broad subject, composition, and topical grounding; do not copy the exact image. Avoid: logos, brand marks, copyrighted characters, real person likenesses, fake screenshots, UI text, readable text, watermarks, charts with fa
OpenAI bereitet das größte Sprach-Upgrade für ChatGPT vor: ein bidirektionales Audiomodell mit dem internen Codenamen GPT-Bidi-1. Anders als alle bisherigen Sprachmodi von ChatGPT, die darauf warten, dass ein Nutzer ausgesprochen hat, bevor sie antworten, kann GPT-Bidi-1 gleichzeitig zuhören und sprechen – es nimmt Unterbrechungen auf, korrigiert Fehler in Echtzeit und passt seine Antworten an, ohne dass die Audiospur unterbrochen wird.
Dieser Artikel erklärt, wie GPT-Bidi-1 entdeckt wurde, was es von turn-basierten Sprachmodellen unterscheidet, welche drei Intelligenzstufen es einführt, wie sich die ChatGPT-Oberfläche verändert und in welchem wettbewerblichen Umfeld es entwickelt wird. Das Modell wurde von OpenAI noch nicht offiziell angekündigt; alle Details stammen aus Codefunden, UI-Verweisen, Nutzerberichten und Medienanalysen.
Die Entdeckungskette begann mit dem Entwickler M1Astra, der als erster Verweise auf gpt-bidi-1 im App-Code von ChatGPT fand und die Entdeckung auf X teilte. Die Tracking-Seite TestingCatalog bestätigte daraufhin die Modellbezeichnung zusammen mit einem Ankündigungstext, der „die nächste Generation von Voice“ und einen „großen Sprung in der Intelligenz“ beschreibt.
Code- und UI-Elemente wurden anschließend sowohl im Web- als auch im mobilen ChatGPT-Client gefunden. Ab Ende Juni 2026 liefen erste limitierte Tests mit einer kleinen Nutzergruppe. Vom 22. bis 24. Juni 2026 tauchten mehrere Nutzerberichte und Demonstrationsvideos auf, die das bidirektionale Modell in der Praxis zeigten.
Wichtig: OpenAI hat das Modell nicht offiziell angekündigt. Der endgültige Name, das genaue Verhalten der Stufen und der Veröffentlichungstermin sind vom Unternehmen noch nicht bestätigt.
Die aktuellen ChatGPT-Sprachmodi – Standard Voice und Advanced Voice Mode – arbeiten in einem turn-basierten Paradigma. Das Modell muss warten, bis der Nutzer ausgesprochen hat, bevor es antworten kann. GPT-Bidi-1s bidirektionale (BiDi) Architektur ermöglicht es dem Modell, zwei Audioströme gleichzeitig zu verarbeiten: den des Nutzers und den eigenen.
Wichtige Verhaltensunterschiede, die in Demonstrationen berichtet wurden:
OpenAIs internes Ziel war es, die Lücke zwischen dem Sprach-Stack von ChatGPT – der hinter den Textmodellen (bereits auf GPT-5.5-Niveau) hinterherhinkte – zu schließen und eine gleichwertige Echtzeit-Gesprächsintelligenz zu liefern.
GPT-Bidi-1 ist das erste OpenAI-Sprachmodell, das drei wählbare Intelligenz- und Geschwindigkeitsstufen für die Sprachausgabe einführt:
| Stufe | Beschreibung |
|---|---|
| High | Maximale logische Tiefe, langsamere Antwort – für komplexe Analyseaufgaben |
| Medium | Ausgewogener Kompromiss zwischen Intelligenz und Geschwindigkeit |
| Instant | Schnellstmögliche Antwort, reduzierte Logik – für beiläufige oder zeitkritische Interaktionen |
Das Stufensystem ermöglicht es Nutzern, die Interaktionstiefe im Vergleich zur Latenz pro Aufgabe anzupassen, ähnlich wie die Textmodelle von ChatGPT verschiedene logische Ebenen bieten. Eine schnelle Wetterabfrage würde beispielsweise die Instant-Stufe nutzen, während eine tiefgehende Brainstorming-Sitzung auf High umschalten würde.
Wenn GPT-Bidi-1 ausgewählt ist, wechselt die Sprachblase bzw. die Wellenformanzeige auf Gelb statt der aktuellen Standardfarbe. Das Modell erscheint im Einstellungen-Modellwähler als neue Option mit der Bezeichnung "Bidi (Latest)" neben dem bestehenden Standard Voice und Advanced Voice Mode, anstatt diese zu ersetzen.
gpt-bidi-1. Wettbewerbskontext: Die bidirektionale Sprachinitiatve ist eine direkte Reaktion auf Fortschritte von Google (Gemini Live mit Unterbrechungen), Anthropic und Echtzeit-Sprachagenten von Start-ups. OpenAI will die Sprachinteraktion auf das Niveau seiner Textintelligenz bringen, die bereits GPT-5.5-Logik antreibt.
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
OpenAI arbeitet an GPT Bidi 1, einem bidirektionalen Sprachmodell, das gleichzeitig zuhören und sprechen kann.
OpenAI arbeitet an GPT Bidi 1, einem bidirektionalen Sprachmodell, das gleichzeitig zuhören und sprechen kann. Das Modell verarbeitet Unterbrechungen mitten im Satz, ohne einzufrieren oder den Ton zu verlieren.
GPT Bidi 1 führt erstmals drei wählbare Intelligenzstufen für die Sprachausgabe ein: High, Medium und Instant.
Loading comments...
Comments
0 comments