AntwortenVeröffentlichtvor 12 StundenLast edited vor 11 Stunden23 Quellen

GPT-Bidi-1: OpenAI bereitet bidirektionales Sprachmodell für ChatGPT vor – gleichzeitig hören und sprechen

OpenAI arbeitet an GPT Bidi 1, einem bidirektionalen Sprachmodell, das gleichzeitig zuhören und sprechen kann. Das Modell verarbeitet Unterbrechungen mitten im Satz, ohne einzufrieren oder den Ton zu verlieren.

Suchen und Fakten prüfen mit Studio Global AI Mehr Trendseiten ansehen

9.0K0

OpenAI's ChatGPT GPT-Bidi-1 bidirectional voice model concept illustration — Search & fact-check with cited sources for What is OpenAI's GPT-Bidi-1 bidirectional voice model for ChatGPT, including how it was discovereConceptual representation of OpenAI's next-generation bidirectional voice model, GPT-Bidi-1, for ChatGPT.
KI-Prompt
Create a landscape editorial hero image for this Studio Global article: Search & fact-check with cited sources for What is OpenAI's GPT-Bidi-1 bidirectional voice model for ChatGPT, including how it was discovere. Article summary: OpenAI's **GPT-Bidi-1** is a next-generation bidirectional voice model for ChatGPT, discovered via code and UI references in the ChatGPT web and mobile apps. It represents the largest voice-mode upgrade ever for ChatGPT,. Topic tags: general, general web, user generated. Style: premium digital editorial illustration, source-backed research mood, clean composition, high detail, modern web publication hero. Use reference image context only for broad subject, composition, and topical grounding; do not copy the exact image. Avoid: logos, brand marks, copyrighted characters, real person likenesses, fake screenshots, UI text, readable text, watermarks, charts with fa
openai.com

OpenAI bereitet das größte Sprach-Upgrade für ChatGPT vor: ein bidirektionales Audiomodell mit dem internen Codenamen GPT-Bidi-1. Anders als alle bisherigen Sprachmodi von ChatGPT, die darauf warten, dass ein Nutzer ausgesprochen hat, bevor sie antworten, kann GPT-Bidi-1 gleichzeitig zuhören und sprechen – es nimmt Unterbrechungen auf, korrigiert Fehler in Echtzeit und passt seine Antworten an, ohne dass die Audiospur unterbrochen wird.

Dieser Artikel erklärt, wie GPT-Bidi-1 entdeckt wurde, was es von turn-basierten Sprachmodellen unterscheidet, welche drei Intelligenzstufen es einführt, wie sich die ChatGPT-Oberfläche verändert und in welchem wettbewerblichen Umfeld es entwickelt wird. Das Modell wurde von OpenAI noch nicht offiziell angekündigt; alle Details stammen aus Codefunden, UI-Verweisen, Nutzerberichten und Medienanalysen.

Wie GPT-Bidi-1 entdeckt wurde

Die Entdeckungskette begann mit dem Entwickler M1Astra, der als erster Verweise auf gpt-bidi-1 im App-Code von ChatGPT fand und die Entdeckung auf X teilte. Die Tracking-Seite TestingCatalog bestätigte daraufhin die Modellbezeichnung zusammen mit einem Ankündigungstext, der „die nächste Generation von Voice“ und einen „großen Sprung in der Intelligenz“ beschreibt.

Code- und UI-Elemente wurden anschließend sowohl im Web- als auch im mobilen ChatGPT-Client gefunden. Ab Ende Juni 2026 liefen erste limitierte Tests mit einer kleinen Nutzergruppe. Vom 22. bis 24. Juni 2026 tauchten mehrere Nutzerberichte und Demonstrationsvideos auf, die das bidirektionale Modell in der Praxis zeigten.

Wichtig: OpenAI hat das Modell nicht offiziell angekündigt. Der endgültige Name, das genaue Verhalten der Stufen und der Veröffentlichungstermin sind vom Unternehmen noch nicht bestätigt.

Wie sich bidirektionale Sprachsteuerung von turn-basierten Modellen unterscheidet

Die aktuellen ChatGPT-Sprachmodi – Standard Voice und Advanced Voice Mode – arbeiten in einem turn-basierten Paradigma. Das Modell muss warten, bis der Nutzer ausgesprochen hat, bevor es antworten kann. GPT-Bidi-1s bidirektionale (BiDi) Architektur ermöglicht es dem Modell, zwei Audioströme gleichzeitig zu verarbeiten: den des Nutzers und den eigenen.

Wichtige Verhaltensunterschiede, die in Demonstrationen berichtet wurden:

Unterbrechungen verarbeiten: Das Modell kann Unterbrechungen mitten im Satz aufnehmen und seine Antwort dynamisch anpassen, ohne einzufrieren oder die Audiospur zu verlieren.
Echtzeit-Korrektur: In Tests zählte GPT-Bidi-1 zusammen mit einem Nutzer von 1 bis 10 und wechselte sofort zum Rückwärtszählen, als der Nutzer mitten im Durchgang unterbrach.
Natürliche Überlappungen: Der Assistent kann sprechen, während der Nutzer noch redet, was den Austausch einer echten Unterhaltung näherbringt.

OpenAIs internes Ziel war es, die Lücke zwischen dem Sprach-Stack von ChatGPT – der hinter den Textmodellen (bereits auf GPT-5.5-Niveau) hinterherhinkte – zu schließen und eine gleichwertige Echtzeit-Gesprächsintelligenz zu liefern.

Drei wählbare Intelligenzstufen

GPT-Bidi-1 ist das erste OpenAI-Sprachmodell, das drei wählbare Intelligenz- und Geschwindigkeitsstufen für die Sprachausgabe einführt:

Stufe	Beschreibung
High	Maximale logische Tiefe, langsamere Antwort – für komplexe Analyseaufgaben
Medium	Ausgewogener Kompromiss zwischen Intelligenz und Geschwindigkeit
Instant	Schnellstmögliche Antwort, reduzierte Logik – für beiläufige oder zeitkritische Interaktionen

Das Stufensystem ermöglicht es Nutzern, die Interaktionstiefe im Vergleich zur Latenz pro Aufgabe anzupassen, ähnlich wie die Textmodelle von ChatGPT verschiedene logische Ebenen bieten. Eine schnelle Wetterabfrage würde beispielsweise die Instant-Stufe nutzen, während eine tiefgehende Brainstorming-Sitzung auf High umschalten würde.

Visuelle Änderungen an der Sprachoberfläche

Wenn GPT-Bidi-1 ausgewählt ist, wechselt die Sprachblase bzw. die Wellenformanzeige auf Gelb statt der aktuellen Standardfarbe. Das Modell erscheint im Einstellungen-Modellwähler als neue Option mit der Bezeichnung "Bidi (Latest)" neben dem bestehenden Standard Voice und Advanced Voice Mode, anstatt diese zu ersetzen.

Entwicklungszeitplan und Wettbewerbskontext

Anfang 2026: OpenAI begann intern mit der Entwicklung der BiDi-Architektur.
5. März 2026: The Information berichtete, dass OpenAI ein bidirektionales Audiomodell entwickelt, um seine Sprachassistenten zu verbessern.
7. Mai 2026: OpenAI kündigte GPT-Realtime-2 in der API an – das erste Sprachmodell mit GPT-5-Klassenlogik, das die Grundlage für bidirektionale Fähigkeiten legte.
16.–17. Juni 2026: M1Astra und TestingCatalog entdeckten erstmals öffentlich Code-Verweise auf gpt-bidi-1.
22.–24. Juni 2026: Es tauchten Nutzerberichte und Demonstrationsvideos auf, die funktionierendes bidirektionales Verhalten zeigten. Mehrere Medien berichteten, dass ein breiterer Rollout noch in derselben Woche erfolgen könnte.

Wettbewerbskontext: Die bidirektionale Sprachinitiatve ist eine direkte Reaktion auf Fortschritte von Google (Gemini Live mit Unterbrechungen), Anthropic und Echtzeit-Sprachagenten von Start-ups. OpenAI will die Sprachinteraktion auf das Niveau seiner Textintelligenz bringen, die bereits GPT-5.5-Logik antreibt.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Suchen und Fakten prüfen mit Studio Global AI

Die Leute fragen auch

Wie lautet die kurze Antwort auf „GPT-Bidi-1: OpenAI bereitet bidirektionales Sprachmodell für ChatGPT vor – gleichzeitig hören und sprechen“?

OpenAI arbeitet an GPT Bidi 1, einem bidirektionalen Sprachmodell, das gleichzeitig zuhören und sprechen kann.

Was sind die wichtigsten Punkte, die zuerst validiert werden müssen?

Was soll ich als nächstes in der Praxis tun?

GPT Bidi 1 führt erstmals drei wählbare Intelligenzstufen für die Sprachausgabe ein: High, Medium und Instant.

Quellen

Comments

0 comments

Loading comments...

← Back to Trending