Advertencia: OpenAI no ha emitido un anuncio oficial. El nombre final del modelo, el comportamiento exacto de sus niveles y la fecha de lanzamiento siguen sin ser confirmados por la empresa.
Los modos de voz actuales de ChatGPT — Voz Estándar y Modo de Voz Avanzado — funcionan bajo un paradigma de turnos. El modelo debe esperar a que el usuario termine de hablar para poder responder. La arquitectura bidireccional (BiDi) de GPT-Bidi-1 permite al modelo procesar dos flujos de audio simultáneamente: el del usuario y el suyo propio.
Diferencias clave observadas en las demostraciones:
El objetivo interno de OpenAI era cerrar la brecha entre el sistema de voz de ChatGPT — que iba por detrás de sus modelos de texto (ya con capacidad de razonamiento de clase GPT-5.5) — y lograr la paridad en inteligencia conversacional en tiempo real.
GPT-Bidi-1 es el primer modelo de voz de OpenAI en introducir tres niveles seleccionables de inteligencia y velocidad para la voz:
| Nivel | Descripción |
|---|---|
| Alto | Máxima profundidad de razonamiento, respuesta más lenta — para tareas de análisis complejas |
| Medio | Equilibrio entre inteligencia y velocidad |
| Instantáneo | Respuesta más rápida posible, razonamiento reducido — para interacciones casuales o urgentes |
El sistema de niveles permite a los usuarios ajustar la profundidad de la interacción frente a la latencia según la tarea, de manera similar a como los modelos de texto de ChatGPT ofrecen diferentes niveles de razonamiento. Por ejemplo, una consulta rápida del tiempo usaría el modo Instantáneo, mientras que una sesión profunda de lluvia de ideas cambiaría al modo Alto.
Cuando se selecciona GPT-Bidi-1, el indicador de burbuja/forma de onda de voz cambia a color amarillo en lugar del color predeterminado actual. El modelo aparece en el selector de modelos de la configuración como una nueva opción etiquetada como "Bidi (Último)" junto a los modos Voz Estándar y Modo de Voz Avanzado existentes, sin reemplazarlos.
gpt-bidi-1 de forma pública. Contexto competitivo: El impulso hacia la voz bidireccional responde directamente a los avances de Google (Gemini Live con interrupciones), Anthropic y los agentes de voz en tiempo real de las startups. OpenAI está en una carrera por equiparar la interacción por voz con su inteligencia textual, que ya impulsa el razonamiento de nivel GPT-5.5.
Comments
0 comments