Précision importante : OpenAI n'a pas émis d'annonce officielle. Le nom final du modèle, le comportement exact de ses niveaux et sa date de déploiement restent non confirmés par l'entreprise.
Les modes vocaux actuels de ChatGPT — Voix Standard et Mode Vocal Avancé — fonctionnent selon un paradigme de tour-parole (turn-based). Le modèle doit attendre que l'utilisateur ait fini de parler pour pouvoir répondre. L'architecture bidirectionnelle (BiDi) de GPT-Bidi-1 permet au modèle de traiter deux flux audio simultanément : le vôtre et le sien.
Les principales différences de comportement rapportées dans les démonstrations :
L'objectif interne d'OpenAI était de combler le fossé entre la partie vocale de ChatGPT — qui accusait un retard sur ses modèles de texte (déjà au niveau de raisonnement GPT-5.5) — et d'offrir une parité d'intelligence conversationnelle en temps réel.
GPT-Bidi-1 est le premier modèle vocal d'OpenAI à introduire trois niveaux d'intelligence et de vitesse sélectionnables pour la voix :
| Niveau | Description |
|---|---|
| High (Élevé) | Profondeur de raisonnement maximale, réponse plus lente — pour les tâches d'analyse complexes |
| Medium (Moyen) | Compromis équilibré entre intelligence et vitesse |
| Instant (Instantané) | Réponse la plus rapide possible, raisonnement réduit — pour les interactions rapides ou urgentes |
Ce système de niveaux permet aux utilisateurs d'adapter la profondeur d'interaction par rapport à la latence en fonction de la tâche, un peu comme les modèles de texte de ChatGPT offrent différents niveaux de raisonnement. Par exemple, une simple requête météo utiliserait le mode Instant, tandis qu'une session de brainstorming approfondie passerait en mode High.
Lorsque GPT-Bidi-1 est sélectionné, la bulle vocale / l'indicateur de forme d'onde devient jaune au lieu de la couleur par défaut actuelle. Le modèle apparaît dans le sélecteur de modèles des paramètres comme une nouvelle option intitulée "Bidi (Dernière version)" aux côtés de la Voix Standard et du Mode Vocal Avancé existants, sans les remplacer.
gpt-bidi-1. Contexte concurrentiel : Cette poussée vers la voix bidirectionnelle répond directement aux avancées de Google (Gemini Live et ses interruptions), d'Anthropic et des agents vocaux en temps réel des startups. OpenAI est en course pour offrir à sa partie vocale une parité avec son intelligence textuelle, qui atteint déjà un niveau de raisonnement GPT-5.5.
Comments
0 comments