コード名「GPT Bidi 1」は、ユーザーが話し終えるのを待たずに同時に聞きながら話せる双方向(BiDi)アーキテクチャを採用 デモでは、1から10まで数えている最中に逆算を指示されると即座に対応し、音声トラックを落とさずに動作 音声設定に「High(高精緻)」「Medium(中間)」「Instant(即応)」の3つのインテリジェンスレベルが追加され、タスクに応じて応答の深さと速度を選択可能

Create a landscape editorial hero image for this Studio Global article: Search & fact-check with cited sources for What is OpenAI's GPT-Bidi-1 bidirectional voice model for ChatGPT, including how it was discovere. Article summary: OpenAI's **GPT-Bidi-1** is a next-generation bidirectional voice model for ChatGPT, discovered via code and UI references in the ChatGPT web and mobile apps. It represents the largest voice-mode upgrade ever for ChatGPT,. Topic tags: general, general web, user generated. Style: premium digital editorial illustration, source-backed research mood, clean composition, high detail, modern web publication hero. Use reference image context only for broad subject, composition, and topical grounding; do not copy the exact image. Avoid: logos, brand marks, copyrighted characters, real person likenesses, fake screenshots, UI text, readable text, watermarks, charts with fa
OpenAIは現在、ChatGPTの音声モード史上最大のアップグレードとなる、双方向音声モデル「GPT-Bidi-1」の準備を進めています。これまでのChatGPTの音声モードはすべて、ユーザーが話し終えるのを待ってから応答する「ターン制」でしたが、GPT-Bidi-1は聞きながら同時に話すことが可能です。途中で割り込まれても即座に内容を調整し、応答を修正しながら音声トラックを途切れさせません。
本記事では、GPT-Bidi-1がどのように発見されたか、ターン制音声との違い、導入される3つのインテリジェンスレベル、ChatGPTインターフェースの視覚的変更、そして開発の競合状況までをまとめます。なお、OpenAIからは正式なアナウンスが行われていないため、すべての詳細はコード内の発見、UI上の記述、ユーザーレポート、メディア分析に基づくものです。
発見の連鎖は、開発者のM1Astra氏がChatGPTアプリのコード内にgpt-bidi-1への参照を初めて発見し、X(旧Twitter)で共有したことから始まりました。その後、追跡サイトTestingCatalogがモデル文字列を確認し、同時に「次世代のVoice」「知能の大きな飛躍」と説明するアナウンス用テキストも見つかりました。
コードとUI要素はその後、Web版とモバイル版の両方のChatGPTクライアントで確認され、2026年6月下旬には限られたユーザーへのテスト配信が開始されました。 6月22日から24日にかけて、複数のユーザーレポートとデモ動画が登場し、モデルが実際に双方向で動作している様子が示されています。
注意点:OpenAIからは公式発表がありません。モデルの最終的な名称、各レベルの正確な動作、提供開始日は未確定です。
現在のChatGPTの音声モード(Standard Voice、Advanced Voice Mode)は、いずれもターン制で動作します。モデルはユーザーが話し終えるまで応答を開始できません。GPT-Bidi-1の双方向(BiDi)アーキテクチャでは、ユーザーの音声ストリームと自身の音声ストリームの2つを同時に処理できます。
デモで報告されている主な動作の違いは以下の通りです。
OpenAI内部の目標は、すでにGPT-5.5クラスの推論能力を持つテキストモデルに遅れをとっていた音声スタックのギャップを埋め、リアルタイムの会話能力で同等の水準を達成することにありました。
GPT-Bidi-1は、OpenAIの音声モデルとして初めて、3つの選択可能なインテリジェンス/速度レベルを音声側に導入します。
| レベル | 説明 |
|---|---|
| High(高) | 最大の推論深度、応答はやや遅め——複雑な分析タスク向け |
| Medium(中) | 知能と速度のバランスを取ったモード |
| Instant(即時) | 最速の応答、推論は簡略化——カジュアルな会話や素早い応答が必要な場面向け |
このレベルシステムにより、ユーザーはタスクに応じて対話の深度と応答速度を柔軟に選択できます。これはChatGPTのテキストモデルがすでに提供している推論レベルの仕組みと同様です。 例えば、天気予報の確認にはInstant、ブレインストーミングにはHighといった使い分けが想定されます。
GPT-Bidi-1を選択すると、音声バブル(波形インジケーター)の色が黄色に変わります。 このモデルは、設定内のモデルセレクターで、従来のStandard VoiceやAdvanced Voice Modeと並んで「Bidi(最新)」という新しいオプションとして表示され、既存のモードを置き換えるのではなく、追加される形になります。
gpt-bidi-1の参照を初めて公開。競合状況:この双方向音声への取り組みは、Google(Gemini Live、割り込み対応)、Anthropic、そしてリアルタイム音声エージェントを手がけるスタートアップ各社の進化に直接対応するものです。OpenAIは、すでにGPT-5.5レベルの推論を実現しているテキスト系の知能と、音声インタラクションの能力を同等にする競争を急いでいます。
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
コード名「GPT Bidi 1」は、ユーザーが話し終えるのを待たずに同時に聞きながら話せる双方向(BiDi)アーキテクチャを採用
コード名「GPT Bidi 1」は、ユーザーが話し終えるのを待たずに同時に聞きながら話せる双方向(BiDi)アーキテクチャを採用 デモでは、1から10まで数えている最中に逆算を指示されると即座に対応し、音声トラックを落とさずに動作
音声設定に「High(高精緻)」「Medium(中間)」「Instant(即応)」の3つのインテリジェンスレベルが追加され、タスクに応じて応答の深さと速度を選択可能
Loading comments...
Comments
0 comments