Attenzione: OpenAI non ha rilasciato alcun annuncio ufficiale. Il nome finale del modello, il comportamento esatto dei livelli e la data di lancio rimangono non confermati dall'azienda.
Le attuali modalità vocali di ChatGPT — Voce Standard e Modalità Vocale Avanzata — operano in un paradigma a turni. Il modello deve aspettare che l'utente finisca di parlare prima di poter rispondere. L'architettura bidirezionale (BiDi) di GPT-Bidi-1 consente al modello di elaborare due flussi audio contemporaneamente: il tuo e il suo.
Le principali differenze comportamentali emerse dalle dimostrazioni:
L'obiettivo interno di OpenAI era colmare il divario tra lo stack vocale di ChatGPT — che era in ritardo rispetto ai suoi modelli di testo (già a livello di ragionamento GPT-5.5) — e fornire parità di intelligenza conversazionale in tempo reale.
GPT-Bidi-1 è il primo modello vocale di OpenAI a introdurre tre livelli di intelligenza e velocità selezionabili per la voce:
| Livello | Descrizione |
|---|---|
| High | Massima profondità di ragionamento, risposta più lenta — per attività di analisi complesse |
| Medium | Compromesso equilibrato tra intelligenza e velocità |
| Instant | Risposta più veloce possibile, ragionamento ridotto — per interazioni casuali o urgenti |
Il sistema a livelli consente agli utenti di adattare la profondità dell'interazione rispetto alla latenza per ogni attività, in modo simile a come i modelli di testo di ChatGPT offrono diversi livelli di ragionamento. Ad esempio, una rapida richiesta sul meteo utilizzerebbe Instant, mentre una sessione di brainstorming approfondita passerebbe a High.
Quando si seleziona GPT-Bidi-1, la bolla vocale/indicatore d'onda diventa gialla invece del colore predefinito attuale. Il modello appare nel selettore dei modelli delle impostazioni come una nuova opzione etichettata "Bidi (Latest)" insieme alla Voce Standard e alla Modalità Vocale Avanzata esistenti, senza sostituirle.
gpt-bidi-1. Contesto competitivo: La spinta verso la voce bidirezionale risponde direttamente ai progressi di Google (Gemini Live con interruzioni), Anthropic e agli agenti vocali in tempo reale delle startup. OpenAI sta correndo per portare la parità di interazione vocale alla sua intelligenza testuale, che già alimenta il ragionamento di livello GPT-5.5.
Comments
0 comments