RespostasPublicadohá 12 horasLast edited há 11 horas23 fontes

GPT-Bidi-1: A Revolução Bidirecional da OpenAI no Voz do ChatGPT

OpenAI prepara o GPT Bidi 1, um modelo de voz bidirecional que permite ao ChatGPT ouvir e falar simultaneamente, sem travamentos ao ser interrompido. Descoberto por desenvolvedores em junho de 2026, o modelo promete conversas mais naturais e introduz três níveis de inteligência: High, Medium e Instant.

Pesquisar e verificar fatos com Studio Global AI Veja mais páginas em alta

14K0

OpenAI's ChatGPT GPT-Bidi-1 bidirectional voice model concept illustration — Search & fact-check with cited sources for What is OpenAI's GPT-Bidi-1 bidirectional voice model for ChatGPT, including how it was discovereConceptual representation of OpenAI's next-generation bidirectional voice model, GPT-Bidi-1, for ChatGPT.
Prompt de IA
Create a landscape editorial hero image for this Studio Global article: Search & fact-check with cited sources for What is OpenAI's GPT-Bidi-1 bidirectional voice model for ChatGPT, including how it was discovere. Article summary: OpenAI's **GPT-Bidi-1** is a next-generation bidirectional voice model for ChatGPT, discovered via code and UI references in the ChatGPT web and mobile apps. It represents the largest voice-mode upgrade ever for ChatGPT,. Topic tags: general, general web, user generated. Style: premium digital editorial illustration, source-backed research mood, clean composition, high detail, modern web publication hero. Use reference image context only for broad subject, composition, and topical grounding; do not copy the exact image. Avoid: logos, brand marks, copyrighted characters, real person likenesses, fake screenshots, UI text, readable text, watermarks, charts with fa
openai.com

A OpenAI está preparando a maior atualização do sistema de voz do ChatGPT até hoje: um modelo de áudio bidirecional chamado internamente de GPT-Bidi-1. Diferente de todos os modos de voz anteriores do ChatGPT, que esperam o usuário terminar de falar para responder, o GPT-Bidi-1 consegue ouvir e falar ao mesmo tempo — absorvendo interrupções, corrigindo erros em tempo real e ajustando suas respostas sem perder o fluxo do áudio.

Este artigo explica como o GPT-Bidi-1 foi descoberto, o que o diferencia dos modos de voz tradicionais, os três níveis de inteligência que ele introduz, a mudança visual na interface do ChatGPT e o contexto competitivo de seu desenvolvimento. Vale lembrar que o modelo ainda não foi anunciado oficialmente pela OpenAI; todas as informações vêm de vestígios em códigos, referências na interface, relatos de usuários e análises da imprensa.

Como o GPT-Bidi-1 foi descoberto

A descoberta começou com o desenvolvedor M1Astra, que encontrou referências ao gpt-bidi-1 no código do aplicativo do ChatGPT e compartilhou a novidade no X (antigo Twitter). Em seguida, o site de monitoramento TestingCatalog confirmou a existência do modelo, junto com um texto que descrevia "a próxima geração do Voice" e um "grande salto em inteligência".

Elementos de código e de interface foram encontrados tanto na versão web quanto no aplicativo mobile do ChatGPT. Testes limitados começaram a ser liberados para um pequeno grupo de usuários no final de junho de 2026. Entre os dias 22 e 24 de junho de 2026, vários relatos de usuários e vídeos de demonstração surgiram, mostrando o modelo funcionando na prática de forma bidirecional.

Importante: a OpenAI não emitiu nenhum comunicado oficial. O nome final do modelo, o comportamento exato dos seus níveis e a data de lançamento ainda não foram confirmados pela empresa.

Como o modo bidirecional difere dos modelos baseados em turnos

Os modos de voz atuais do ChatGPT — Voz Padrão e Modo de Voz Avançado — funcionam em um esquema de turnos. O modelo precisa esperar o usuário terminar de falar para poder responder. A arquitetura bidirecional (BiDi) do GPT-Bidi-1 permite que o modelo processe dois fluxos de áudio simultaneamente: o seu e o dele próprio.

As principais diferenças de comportamento observadas nas demonstrações:

Lida com interrupções: O modelo consegue absorver interrupções no meio de uma frase e ajustar dinamicamente sua resposta, sem congelar ou perder o áudio.
Correção em tempo real: Em testes, o GPT-Bidi-1 contou junto com um usuário de 1 a 10 e, em seguida, mudou instantaneamente para a contagem regressiva quando o usuário o interrompeu no meio.
Sobreposição natural: O assistente pode falar enquanto o usuário ainda está falando, tornando as trocas mais parecidas com uma conversa humana.

O objetivo interno da OpenAI era diminuir a diferença entre o sistema de voz do ChatGPT — que estava atrás de seus modelos de texto (que já operam com raciocínio equivalente ao GPT-5.5) — e oferecer paridade de inteligência em conversas em tempo real.

Três níveis de inteligência selecionáveis

O GPT-Bidi-1 é o primeiro modelo de voz da OpenAI a introduzir três níveis selecionáveis de inteligência e velocidade para o modo de voz:

Nível	Descrição
High	Máxima profundidade de raciocínio, resposta mais lenta — ideal para análises complexas
Medium	Equilíbrio entre inteligência e velocidade
Instant	Resposta mais rápida possível, raciocínio reduzido — para interações casuais ou que exigem agilidade

Esse sistema de níveis permite que o usuário ajuste a profundidade da interação versus a latência para cada tarefa, de forma parecida com os diferentes níveis de raciocínio oferecidos nos modelos de texto do ChatGPT. Por exemplo, uma consulta rápida sobre o clima usaria o modo Instant, enquanto uma sessão intensa de brainstorming exigiria o modo High.

Mudanças visuais na interface de voz

Quando o GPT-Bidi-1 é selecionado, o ícone/indicador de onda de voz muda para amarelo, em vez da cor padrão atual. O modelo aparece no seletor de modelos das configurações como uma nova opção chamada "Bidi (Mais Recente)", ao lado dos modos Voz Padrão e Modo de Voz Avançado, sem substituí-los.

Linha do tempo do desenvolvimento e contexto competitivo

Início de 2026: A OpenAI começou a desenvolver a arquitetura BiDi internamente.
5 de março de 2026: O site The Information noticiou que a OpenAI estava desenvolvendo um modelo de áudio bidirecional para turbinar seus assistentes de voz.
7 de maio de 2026: A OpenAI anunciou o GPT-Realtime-2 em sua API — o primeiro modelo de voz com raciocínio de nível GPT-5, que serviu de base para as capacidades bidirecionais.
16 e 17 de junho de 2026: M1Astra e TestingCatalog identificaram publicamente as primeiras referências no código para gpt-bidi-1.
22 a 24 de junho de 2026: Surgiram relatos de usuários e vídeos de demonstração mostrando o comportamento bidirecional em funcionamento. Vários veículos de imprensa reportaram que um lançamento mais amplo poderia ocorrer dentro da mesma semana.

Contexto competitivo: O investimento em voz bidirecional é uma resposta direta aos avanços do Google (Gemini Live, que já lida com interrupções), da Anthropic e de agentes de voz em tempo real de startups. A OpenAI está correndo para equiparar a interação por voz à sua inteligência de texto, que já opera com raciocínio de nível GPT-5.5.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Pesquisar e verificar fatos com Studio Global AI

As pessoas também perguntam

Câu trả lời ngắn gọn cho "GPT-Bidi-1: A Revolução Bidirecional da OpenAI no Voz do ChatGPT" là gì?

OpenAI prepara o GPT Bidi 1, um modelo de voz bidirecional que permite ao ChatGPT ouvir e falar simultaneamente, sem travamentos ao ser interrompido.

Những điểm chính cần xác nhận đầu tiên là gì?

Tôi nên làm gì tiếp theo trong thực tế?

O indicador visual de voz muda para amarelo quando o modo bidirecional é ativado, e a OpenAI busca alcançar a concorrência do Google e da Anthropic.

Fontes

Comments

0 comments

Loading comments...

← Back to Trending