答案已发布12小时前Last edited 11小时前23 来源

OpenAI GPT-Bidi-1 双向语音模型曝光：ChatGPT 将能边听边说，对话体验迎来史上最大升级

OpenAI 正在测试代号 GPT Bidi 1 的双向语音模型，ChatGPT 将能同时听与说，不再需要等用户说完再回应。模型采用 BiDi 架构，可在对话中途吸收用户的打断与插话，并动态调整回应，不会冻结或中断音频。首次为语音模式引入三档智能等级：High（深度推理）、Medium（均衡）、Instant（极速响应），用户可根据任务需求自由切换。

使用 Studio Global AI 搜索并核查事实浏览更多热门页面

9.0K0

OpenAI's ChatGPT GPT-Bidi-1 bidirectional voice model concept illustration — Search & fact-check with cited sources for What is OpenAI's GPT-Bidi-1 bidirectional voice model for ChatGPT, including how it was discovereConceptual representation of OpenAI's next-generation bidirectional voice model, GPT-Bidi-1, for ChatGPT.
AI 提示
Create a landscape editorial hero image for this Studio Global article: Search & fact-check with cited sources for What is OpenAI's GPT-Bidi-1 bidirectional voice model for ChatGPT, including how it was discovere. Article summary: OpenAI's **GPT-Bidi-1** is a next-generation bidirectional voice model for ChatGPT, discovered via code and UI references in the ChatGPT web and mobile apps. It represents the largest voice-mode upgrade ever for ChatGPT,. Topic tags: general, general web, user generated. Style: premium digital editorial illustration, source-backed research mood, clean composition, high detail, modern web publication hero. Use reference image context only for broad subject, composition, and topical grounding; do not copy the exact image. Avoid: logos, brand marks, copyrighted characters, real person likenesses, fake screenshots, UI text, readable text, watermarks, charts with fa
openai.com

OpenAI 正在筹备 ChatGPT 史上最大规模的语音模式升级：一款内部代号为 GPT-Bidi-1 的双向音频模型。与过去所有需要等用户说完才回应的语音模式不同，GPT-Bidi-1 能够边听边说——在对话中实时吸收用户的打断、即时修正错误，并动态调整回答，而不会中断音频轨道。

本文将从发现过程、技术原理、三档智能等级、界面变化以及竞争背景等角度，全面解析这一尚未正式发布的新模型。文中所有细节均来自代码曝光、界面引用、用户报告及媒体分析，OpenAI 官方尚未对此作出正式公告。

GPT-Bidi-1 是如何被发现的

发现线索始于开发者 M1Astra，他首先在 ChatGPT 应用代码中发现了 gpt-bidi-1 的引用，并在 X 平台上分享了这一发现。随后，科技追踪网站 TestingCatalog 确认了该模型字符串的存在，同时发现了描述为“下一代语音”和“智能的巨大飞跃”的公告文本。

此后，代码和界面元素相继在网页版和移动版 ChatGPT 客户端中被发现。2026 年 6 月下旬，小部分用户开始收到有限测试，到 6 月 22–24 日，多个用户报告和演示视频已展示该模型在实际场景中的双向工作效果。

注意：OpenAI 尚未发布官方公告。模型的最终名称、精确的等级行为以及正式上线日期仍有待公司确认。

双向语音与传统的轮流对话有何不同

目前 ChatGPT 的语音模式（标准语音和高级语音模式）都采用轮流对话范式：模型必须等用户说完才能开始回应。而 GPT-Bidi-1 的双向（BiDi）架构则允许模型同时处理两路音频流：用户的声音和它自己的声音。

根据演示报告，其主要行为差异包括：

打断处理：模型可以在说话中途被用户打断，并动态调整其回应，不会冻结或中断音频。
实时纠错：在测试中，GPT-Bidi-1 可以跟着用户从 1 数到 10，当用户中途打断并要求它倒数时，它会立刻切换。
自然重叠：助手可以在用户还在说话时继续发声，使对话更接近真实人际交流。

OpenAI 的内部目标是弥合 ChatGPT 语音技术栈与其文本模型（已具备 GPT-5.5 级推理能力）之间的差距，在实时对话智能上实现同步。

三档可选的智能等级

GPT-Bidi-1 是首款为语音模式引入三档可选智能与速度等级的 OpenAI 模型：

等级	说明
High（高）	最大推理深度，响应较慢——适合复杂分析任务
Medium（中）	智能与速度之间的平衡选择
Instant（即时）	最快响应速度，推理能力降低——适合休闲或时间敏感场景

这套等级系统让用户可以根据具体任务在交互深度与响应延迟之间做取舍，类似于 ChatGPT 文本模型提供的不同推理级别。例如，查询天气或时间可用 Instant 模式，而进行深度头脑风暴则可切换至 High 模式。

语音界面的视觉变化

当选中 GPT-Bidi-1 时，语音气泡/波形指示器会变为黄色，取代当前的默认颜色。该模型在设置的模型选择器中作为一个新的选项出现，标签为 “Bidi（最新）”，与现有的标准语音和高级语音模式并列存在，而非取代它们。

开发时间线与竞争背景

2026 年初：OpenAI 内部开始开发双向架构。
2026 年 3 月 5 日：The Information 报道 OpenAI 正在开发双向音频模型以增强其语音助手。
2026 年 5 月 7 日：OpenAI 在 API 中发布 GPT-Realtime-2——其首款具备 GPT-5 级推理能力的语音模型，为双向能力奠定了基础。
2026 年 6 月 16–17 日：M1Astra 和 TestingCatalog 首次公开发现 gpt-bidi-1 的代码引用。
2026 年 6 月 22–24 日：用户报告和演示视频涌现，展示了模型的双向工作效果。多家媒体报道称更广泛的推送可能在同一周内进行。

竞争背景：此次双向语音的推进直接回应了来自 Google（支持打断的 Gemini Live）、Anthropic 以及其他初创公司实时语音智能体的竞争压力。OpenAI 正急于在语音交互上实现与已经具备 GPT-5.5 级推理能力的文本模型同等的体验。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

人们还问