OpenAI đang phát triển GPT Bidi 1, mô hình giọng nói hai chiều cho ChatGPT, cho phép nghe và nói cùng lúc, xử lý ngắt lời giữa câu mà không bị đứng hình. GPT Bidi 1 được phát hiện qua mã nguồn và giao diện người dùng, hiện đang được thử nghiệm trên một nhóm nhỏ người dùng.

Create a landscape editorial hero image for this Studio Global article: Search & fact-check with cited sources for What is OpenAI's GPT-Bidi-1 bidirectional voice model for ChatGPT, including how it was discovere. Article summary: OpenAI's **GPT-Bidi-1** is a next-generation bidirectional voice model for ChatGPT, discovered via code and UI references in the ChatGPT web and mobile apps. It represents the largest voice-mode upgrade ever for ChatGPT,. Topic tags: general, general web, user generated. Style: premium digital editorial illustration, source-backed research mood, clean composition, high detail, modern web publication hero. Use reference image context only for broad subject, composition, and topical grounding; do not copy the exact image. Avoid: logos, brand marks, copyrighted characters, real person likenesses, fake screenshots, UI text, readable text, watermarks, charts with fa
OpenAI đang chuẩn bị nâng cấp giọng nói lớn nhất từ trước đến nay cho ChatGPT: một mô hình âm thanh hai chiều có tên nội bộ là GPT-Bidi-1. Không giống như mọi chế độ giọng nói trước đây của ChatGPT — vốn phải chờ người dùng nói xong mới phản hồi — GPT-Bidi-1 có thể vừa nghe vừa nói cùng lúc, tiếp nhận các câu ngắt lời, sửa lỗi trong thời gian thực và điều chỉnh câu trả lời mà không làm gián đoạn luồng âm thanh.
Bài viết này giải thích cách GPT-Bidi-1 được phát hiện, điều gì khiến nó khác biệt so với giọng nói dạng lượt, ba cấp độ thông minh mà nó giới thiệu, thay đổi trực quan trên giao diện ChatGPT, và bối cảnh cạnh tranh trong quá trình phát triển. Mô hình này vẫn chưa được OpenAI chính thức công bố, vì vậy tất cả thông tin chi tiết đều dựa trên các phát hiện từ mã nguồn, tham chiếu giao diện, báo cáo người dùng và phân tích truyền thông.
Chuỗi phát hiện bắt đầu với nhà phát triển M1Astra, người đầu tiên phát hiện ra các tham chiếu đến gpt-bidi-1 trong mã nguồn ứng dụng ChatGPT và chia sẻ trên X. Trang web theo dõi TestingCatalog sau đó đã xác nhận chuỗi mô hình này, cùng với văn bản thông báo mô tả "thế hệ Giọng nói tiếp theo" và một "bước nhảy vọt lớn về trí thông minh."
Các thành phần mã và giao diện sau đó cũng được tìm thấy trên cả ứng dụng web và di động của ChatGPT. Các thử nghiệm giới hạn bắt đầu được triển khai cho một nhóm nhỏ người dùng vào cuối tháng 6 năm 2026. Đến ngày 22–24 tháng 6 năm 2026, nhiều báo cáo người dùng và video trình diễn đã xuất hiện, cho thấy mô hình hoạt động hai chiều trong thực tế.
Lưu ý: OpenAI vẫn chưa đưa ra thông báo chính thức. Tên cuối cùng của mô hình, hành vi chính xác của các cấp độ và ngày ra mắt vẫn chưa được công ty xác nhận.
Các chế độ giọng nói hiện tại của ChatGPT — Giọng nói Chuẩn (Standard Voice) và Chế độ Giọng nói Nâng cao (Advanced Voice Mode) — hoạt động theo mô hình dạng lượt (turn-based). Mô hình phải đợi người dùng nói xong mới có thể phản hồi. Kiến trúc hai chiều (BiDi) của GPT-Bidi-1 cho phép mô hình xử lý hai luồng âm thanh cùng lúc: luồng của bạn và luồng của chính nó.
Các khác biệt về hành vi chính được báo cáo trong các bản trình diễn:
Mục tiêu nội bộ của OpenAI là thu hẹp khoảng cách giữa ngăn xếp giọng nói của ChatGPT — vốn tụt hậu so với các mô hình văn bản (đã đạt đến khả năng suy luận ngang GPT-5.5) — và mang lại sự tương đồng về trí thông minh hội thoại thời gian thực.
GPT-Bidi-1 là mô hình giọng nói đầu tiên của OpenAI giới thiệu ba cấp độ thông minh và tốc độ có thể chọn cho giọng nói:
| Cấp độ | Mô tả |
|---|---|
| Cao (High) | Suy luận sâu nhất, phản hồi chậm hơn — dành cho các tác vụ phân tích phức tạp |
| Trung bình (Medium) | Cân bằng giữa thông minh và tốc độ |
| Tức thì (Instant) | Phản hồi nhanh nhất có thể, suy luận giảm — dành cho các tương tác thông thường hoặc nhạy cảm về thời gian |
Hệ thống cấp độ cho phép người dùng điều chỉnh độ sâu tương tác so với độ trễ cho từng tác vụ, tương tự như cách các mô hình văn bản của ChatGPT cung cấp các mức độ suy luận khác nhau. Ví dụ, một truy vấn thời tiết nhanh sẽ sử dụng Tức thì, trong khi một buổi động não sâu sẽ chuyển sang Cao.
Khi GPT-Bidi-1 được chọn, biểu tượng bong bóng giọng nói/chỉ báo dạng sóng chuyển sang màu vàng thay vì màu mặc định hiện tại. Mô hình xuất hiện trong bộ chọn mô hình cài đặt dưới dạng một tùy chọn mới có nhãn "Bidi (Mới nhất)" cùng với Giọng nói Chuẩn và Chế độ Giọng nói Nâng cao hiện có, thay vì thay thế chúng.
gpt-bidi-1. Bối cảnh cạnh tranh: Việc thúc đẩy giọng nói hai chiều này đáp trả trực tiếp những tiến bộ từ Google (Gemini Live với khả năng ngắt lời), Anthropic và các tác nhân giọng nói thời gian thực từ các startup. OpenAI đang chạy đua để mang lại sự tương đồng về tương tác giọng nói với trí thông minh văn bản của mình, vốn đã hỗ trợ khả năng suy luận ngang GPT-5.5.
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
OpenAI đang phát triển GPT Bidi 1, mô hình giọng nói hai chiều cho ChatGPT, cho phép nghe và nói cùng lúc, xử lý ngắt lời giữa câu mà không bị đứng hình.
OpenAI đang phát triển GPT Bidi 1, mô hình giọng nói hai chiều cho ChatGPT, cho phép nghe và nói cùng lúc, xử lý ngắt lời giữa câu mà không bị đứng hình. GPT Bidi 1 được phát hiện qua mã nguồn và giao diện người dùng, hiện đang được thử nghiệm trên một nhóm nhỏ người dùng.
Mô hình giới thiệu ba cấp độ thông minh có thể chọn: Cao (High), Trung bình (Medium) và Tức thì (Instant), tùy theo nhu cầu tác vụ.
Loading comments...
Comments
0 comments