What should I do next in practice?

Na rozdíl od stávajících režimů (Standard Voice, Advanced Voice) zvládá BiDi model zpracovávat dva audio proudy současně.

studioglobal

← Back to Trending

AnswersPublished12 hours agoLast edited 11 hours ago23 sources

GPT-Bidi-1: Vše, co víme o obousměrném hlasovém modelu OpenAI pro ChatGPT

OpenAI připravuje GPT Bidi 1, obousměrný hlasový model, který umí zároveň naslouchat i mluvit a reagovat na přerušení během věty. Model byl objeven v kódu ChatGPT díky vývojáři M1Astra a serveru TestingCatalog; oficiální oznámení zatím nepadlo.

Search & fact-check with Studio Global AI Browse more Trending pages

14K0

OpenAI's ChatGPT GPT-Bidi-1 bidirectional voice model concept illustration — Search & fact-check with cited sources for What is OpenAI's GPT-Bidi-1 bidirectional voice model for ChatGPT, including how it was discovereConceptual representation of OpenAI's next-generation bidirectional voice model, GPT-Bidi-1, for ChatGPT.
AI Prompt
Create a landscape editorial hero image for this Studio Global article: Search & fact-check with cited sources for What is OpenAI's GPT-Bidi-1 bidirectional voice model for ChatGPT, including how it was discovere. Article summary: OpenAI's **GPT-Bidi-1** is a next-generation bidirectional voice model for ChatGPT, discovered via code and UI references in the ChatGPT web and mobile apps. It represents the largest voice-mode upgrade ever for ChatGPT,. Topic tags: general, general web, user generated. Style: premium digital editorial illustration, source-backed research mood, clean composition, high detail, modern web publication hero. Use reference image context only for broad subject, composition, and topical grounding; do not copy the exact image. Avoid: logos, brand marks, copyrighted characters, real person likenesses, fake screenshots, UI text, readable text, watermarks, charts with fa
openai.com

OpenAI připravuje vůbec největší upgrade hlasového režimu pro ChatGPT: obousměrný audio model s interním označením GPT-Bidi-1. Na rozdíl od všech dosavadních hlasových režimů ChatGPT, které čekají, až uživatel domluví, než začnou odpovídat, GPT-Bidi-1 umí poslouchat a mluvit zároveň – vstřebává přerušení, v reálném čase opravuje chyby a přizpůsobuje své odpovědi, aniž by došlo k výpadku audia.

Tento článek shrnuje, jak byl GPT-Bidi-1 objeven, čím se liší od stávajících hlasových režimů, jaké tři úrovně inteligence zavádí, jak se změní vizuální podoba rozhraní a v jakém konkurenčním kontextu vzniká. Model zatím nebyl oficiálně oznámen společností OpenAI – všechny informace pocházejí z nálezů v kódu, zmínek v uživatelském rozhraní, reportů uživatelů a analýz médií.

Jak byl GPT-Bidi-1 objeven

Řetězec objevu odstartoval vývojář M1Astra, který jako první narazil na reference na gpt-bidi-1 v kódu aplikace ChatGPT a sdílel svůj nález na síti X. Server TestingCatalog následně potvrdil výskyt tohoto modelového řetězce spolu s textem, který model popisoval jako „další generaci hlasu“ a „zásadní skok v inteligenci“.

Kód a prvky rozhraní byly následně nalezeny jak ve webové, tak v mobilní verzi ChatGPT. Koncem června 2026 začaly omezené testy proudit k malé skupině uživatelů. Mezi 22. a 24. červnem 2026 se pak objevilo několik uživatelských reportů a demonstračních videí, která ukazovala model v praxi – včetně obousměrné komunikace.

Důležité upozornění: OpenAI nevydala žádné oficiální oznámení. Konečný název modelu, přesné chování jednotlivých úrovní ani datum uvedení nebyly společností potvrzeny.

Jak se obousměrný hlas liší od stávajících modelů

Současné hlasové režimy ChatGPT – Standard Voice a Advanced Voice Mode – fungují na principu střídání se v rozhovoru. Model musí počkat, až uživatel domluví, a teprve pak může odpovědět. Obousměrná (BiDi) architektura modelu GPT-Bidi-1 umožňuje zpracovávat dva audio proudy současně: ten váš i svůj vlastní.

Klíčové rozdíly v chování, které byly zaznamenány v demonstracích:

Zpracování přerušení: Model dokáže vstřebat přerušení uprostřed věty a dynamicky upravit svou odpověď, aniž by „zamrzl“ nebo došlo k výpadku audia.
Opravy v reálném čase: V testech model počítal společně s uživatelem od 1 do 10, a když ho uživatel uprostřed přerušil a požádal o počítání pozpátku, model okamžitě přešel na nový úkol.
Přirozené překrývání: Asistent může mluvit, zatímco uživatel ještě hovoří – konverzace se tak blíží běžnému lidskému rozhovoru.

Interním cílem OpenAI bylo překlenout propast mezi hlasovou částí ChatGPT – která zaostávala za textovými modely (již na úrovni uvažování GPT-5.5) – a dosáhnout parity v inteligenci v reálném čase.

Tři volitelné úrovně inteligence

GPT-Bidi-1 je prvním hlasovým modelem OpenAI, který zavádí tři volitelné úrovně inteligence a rychlosti pro hlasové ovládání:

Úroveň	Popis
High	Maximální hloubka uvažování, pomalejší odezva – pro komplexní analytické úkoly
Medium	Vyvážený kompromis mezi inteligencí a rychlostí
Instant	Nejrychlejší možná odezva, omezené uvažování – pro běžné nebo časově náročné interakce

Tento systém úrovní umožňuje uživatelům přizpůsobit hloubku interakce versus rychlost podle konkrétního úkolu – podobně jako u textových modelů ChatGPT, které nabízejí různé úrovně uvažování. Například rychlý dotaz na počasí by využil úroveň Instant, zatímco hloubková diskuze nebo brainstorming by přepnul na úroveň High.

Vizuální změny v hlasovém rozhraní

Po výběru modelu GPT-Bidi-1 se indikátor hlasové bubliny/vlny změní na žlutou barvu namísto stávající výchozí. Model se v nastavení model-selectoru objeví jako nová možnost s označením „Bidi (Latest)“ vedle stávajících Standard Voice a Advanced Voice Mode, nikoli jako jejich náhrada.

Časová osa vývoje a konkurenční kontext

Počátek roku 2026: OpenAI začala interně vyvíjet obousměrnou (BiDi) architekturu.
5. března 2026: The Information informoval, že OpenAI vyvíjí obousměrný audio model pro vylepšení svých hlasových asistentů.
7. května 2026: OpenAI oznámila model GPT-Realtime-2 v API – svůj první hlasový model s uvažováním na úrovni GPT-5, který položil základy pro obousměrné schopnosti.
16.–17. června 2026: M1Astra a TestingCatalog veřejně objevili první reference v kódu na gpt-bidi-1.
22.–24. června 2026: Objevily se uživatelské reporty a demonstrační videa ukazující funkční obousměrné chování. Několik médií uvedlo, že by mohlo dojít k širšímu nasazení v průběhu téhož týdne.

Konkurenční kontext: Tlak na obousměrný hlas je přímou reakcí na pokroky společnosti Google (Gemini Live s podporou přerušení), Anthropicu a real-time hlasových agentů od startupů. OpenAI se snaží dohnat paritu v hlasové interakci s ohledem na svou textovou inteligenci, která již pohání uvažování na úrovni GPT-5.5.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Search & fact-check with Studio Global AI

Sources

Comments

0 comments

Loading comments...

← Back to Trending

AnswersPublished12 hours agoLast edited 11 hours ago23 sources

GPT-Bidi-1: Vše, co víme o obousměrném hlasovém modelu OpenAI pro ChatGPT

Search & fact-check with Studio Global AI Browse more Trending pages

14K0

Jak byl GPT-Bidi-1 objeven

Důležité upozornění: OpenAI nevydala žádné oficiální oznámení. Konečný název modelu, přesné chování jednotlivých úrovní ani datum uvedení nebyly společností potvrzeny.

Jak se obousměrný hlas liší od stávajících modelů

Klíčové rozdíly v chování, které byly zaznamenány v demonstracích:

Zpracování přerušení: Model dokáže vstřebat přerušení uprostřed věty a dynamicky upravit svou odpověď, aniž by „zamrzl“ nebo došlo k výpadku audia.
Opravy v reálném čase: V testech model počítal společně s uživatelem od 1 do 10, a když ho uživatel uprostřed přerušil a požádal o počítání pozpátku, model okamžitě přešel na nový úkol.
Přirozené překrývání: Asistent může mluvit, zatímco uživatel ještě hovoří – konverzace se tak blíží běžnému lidskému rozhovoru.

Tři volitelné úrovně inteligence

GPT-Bidi-1 je prvním hlasovým modelem OpenAI, který zavádí tři volitelné úrovně inteligence a rychlosti pro hlasové ovládání:

Úroveň	Popis
High	Maximální hloubka uvažování, pomalejší odezva – pro komplexní analytické úkoly
Medium	Vyvážený kompromis mezi inteligencí a rychlostí
Instant	Nejrychlejší možná odezva, omezené uvažování – pro běžné nebo časově náročné interakce

Vizuální změny v hlasovém rozhraní

Časová osa vývoje a konkurenční kontext

Počátek roku 2026: OpenAI začala interně vyvíjet obousměrnou (BiDi) architekturu.
5. března 2026: The Information informoval, že OpenAI vyvíjí obousměrný audio model pro vylepšení svých hlasových asistentů.
7. května 2026: OpenAI oznámila model GPT-Realtime-2 v API – svůj první hlasový model s uvažováním na úrovni GPT-5, který položil základy pro obousměrné schopnosti.
16.–17. června 2026: M1Astra a TestingCatalog veřejně objevili první reference v kódu na gpt-bidi-1.
22.–24. června 2026: Objevily se uživatelské reporty a demonstrační videa ukazující funkční obousměrné chování. Několik médií uvedlo, že by mohlo dojít k širšímu nasazení v průběhu téhož týdne.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

GPT-Bidi-1: Vše, co víme o obousměrném hlasovém modelu OpenAI pro ChatGPT

Jak byl GPT-Bidi-1 objeven

Jak se obousměrný hlas liší od stávajících modelů

Tři volitelné úrovně inteligence

Vizuální změny v hlasovém rozhraní

Časová osa vývoje a konkurenční kontext

Search, cite, and publish your own answer

People also ask

What is the short answer to "GPT-Bidi-1: Vše, co víme o obousměrném hlasovém modelu OpenAI pro ChatGPT"?

What are the key points to validate first?

What should I do next in practice?

Sources

Comments

GPT-Bidi-1: Vše, co víme o obousměrném hlasovém modelu OpenAI pro ChatGPT

Jak byl GPT-Bidi-1 objeven

Jak se obousměrný hlas liší od stávajících modelů

Tři volitelné úrovně inteligence

Vizuální změny v hlasovém rozhraní

Časová osa vývoje a konkurenční kontext

Search, cite, and publish your own answer

People also ask

What is the short answer to "GPT-Bidi-1: Vše, co víme o obousměrném hlasovém modelu OpenAI pro ChatGPT"?

What are the key points to validate first?

What should I do next in practice?

Sources

Comments