Câu trả lờiĐã xuất bản12 giờ trướcLast edited 11 giờ trước23 nguồn

GPT-Bidi-1: Mọi điều đã biết về mô hình giọng nói hai chiều của OpenAI trên ChatGPT

OpenAI đang phát triển GPT Bidi 1, mô hình giọng nói hai chiều cho ChatGPT, cho phép nghe và nói cùng lúc, xử lý ngắt lời giữa câu mà không bị đứng hình. GPT Bidi 1 được phát hiện qua mã nguồn và giao diện người dùng, hiện đang được thử nghiệm trên một nhóm nhỏ người dùng.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI Duyệt thêm trang xu hướng

9.0K0

OpenAI's ChatGPT GPT-Bidi-1 bidirectional voice model concept illustration — Search & fact-check with cited sources for What is OpenAI's GPT-Bidi-1 bidirectional voice model for ChatGPT, including how it was discovereConceptual representation of OpenAI's next-generation bidirectional voice model, GPT-Bidi-1, for ChatGPT.
Prompt AI
Create a landscape editorial hero image for this Studio Global article: Search & fact-check with cited sources for What is OpenAI's GPT-Bidi-1 bidirectional voice model for ChatGPT, including how it was discovere. Article summary: OpenAI's **GPT-Bidi-1** is a next-generation bidirectional voice model for ChatGPT, discovered via code and UI references in the ChatGPT web and mobile apps. It represents the largest voice-mode upgrade ever for ChatGPT,. Topic tags: general, general web, user generated. Style: premium digital editorial illustration, source-backed research mood, clean composition, high detail, modern web publication hero. Use reference image context only for broad subject, composition, and topical grounding; do not copy the exact image. Avoid: logos, brand marks, copyrighted characters, real person likenesses, fake screenshots, UI text, readable text, watermarks, charts with fa
openai.com

OpenAI đang chuẩn bị nâng cấp giọng nói lớn nhất từ trước đến nay cho ChatGPT: một mô hình âm thanh hai chiều có tên nội bộ là GPT-Bidi-1. Không giống như mọi chế độ giọng nói trước đây của ChatGPT — vốn phải chờ người dùng nói xong mới phản hồi — GPT-Bidi-1 có thể vừa nghe vừa nói cùng lúc, tiếp nhận các câu ngắt lời, sửa lỗi trong thời gian thực và điều chỉnh câu trả lời mà không làm gián đoạn luồng âm thanh.

Bài viết này giải thích cách GPT-Bidi-1 được phát hiện, điều gì khiến nó khác biệt so với giọng nói dạng lượt, ba cấp độ thông minh mà nó giới thiệu, thay đổi trực quan trên giao diện ChatGPT, và bối cảnh cạnh tranh trong quá trình phát triển. Mô hình này vẫn chưa được OpenAI chính thức công bố, vì vậy tất cả thông tin chi tiết đều dựa trên các phát hiện từ mã nguồn, tham chiếu giao diện, báo cáo người dùng và phân tích truyền thông.

GPT-Bidi-1 được phát hiện như thế nào?

Chuỗi phát hiện bắt đầu với nhà phát triển M1Astra, người đầu tiên phát hiện ra các tham chiếu đến gpt-bidi-1 trong mã nguồn ứng dụng ChatGPT và chia sẻ trên X. Trang web theo dõi TestingCatalog sau đó đã xác nhận chuỗi mô hình này, cùng với văn bản thông báo mô tả "thế hệ Giọng nói tiếp theo" và một "bước nhảy vọt lớn về trí thông minh."

Các thành phần mã và giao diện sau đó cũng được tìm thấy trên cả ứng dụng web và di động của ChatGPT. Các thử nghiệm giới hạn bắt đầu được triển khai cho một nhóm nhỏ người dùng vào cuối tháng 6 năm 2026. Đến ngày 22–24 tháng 6 năm 2026, nhiều báo cáo người dùng và video trình diễn đã xuất hiện, cho thấy mô hình hoạt động hai chiều trong thực tế.

Lưu ý: OpenAI vẫn chưa đưa ra thông báo chính thức. Tên cuối cùng của mô hình, hành vi chính xác của các cấp độ và ngày ra mắt vẫn chưa được công ty xác nhận.

Sự khác biệt giữa giọng nói hai chiều và mô hình dạng lượt

Các chế độ giọng nói hiện tại của ChatGPT — Giọng nói Chuẩn (Standard Voice) và Chế độ Giọng nói Nâng cao (Advanced Voice Mode) — hoạt động theo mô hình dạng lượt (turn-based). Mô hình phải đợi người dùng nói xong mới có thể phản hồi. Kiến trúc hai chiều (BiDi) của GPT-Bidi-1 cho phép mô hình xử lý hai luồng âm thanh cùng lúc: luồng của bạn và luồng của chính nó.

Các khác biệt về hành vi chính được báo cáo trong các bản trình diễn:

Xử lý ngắt lời: Mô hình có thể tiếp nhận các câu ngắt lời giữa chừng và điều chỉnh phản hồi một cách linh hoạt mà không bị đứng hình hoặc mất luồng âm thanh.
Sửa lỗi thời gian thực: Trong các thử nghiệm, GPT-Bidi-1 đếm cùng người dùng từ 1 đến 10, sau đó ngay lập tức chuyển sang đếm ngược khi người dùng ngắt lời giữa chừng.
Chồng chéo tự nhiên: Trợ lý có thể nói trong khi người dùng vẫn đang nói, làm cho các cuộc trao đổi gần giống với hội thoại của con người hơn.

Mục tiêu nội bộ của OpenAI là thu hẹp khoảng cách giữa ngăn xếp giọng nói của ChatGPT — vốn tụt hậu so với các mô hình văn bản (đã đạt đến khả năng suy luận ngang GPT-5.5) — và mang lại sự tương đồng về trí thông minh hội thoại thời gian thực.

Ba cấp độ thông minh có thể chọn

GPT-Bidi-1 là mô hình giọng nói đầu tiên của OpenAI giới thiệu ba cấp độ thông minh và tốc độ có thể chọn cho giọng nói:

Cấp độ	Mô tả
Cao (High)	Suy luận sâu nhất, phản hồi chậm hơn — dành cho các tác vụ phân tích phức tạp
Trung bình (Medium)	Cân bằng giữa thông minh và tốc độ
Tức thì (Instant)	Phản hồi nhanh nhất có thể, suy luận giảm — dành cho các tương tác thông thường hoặc nhạy cảm về thời gian

Hệ thống cấp độ cho phép người dùng điều chỉnh độ sâu tương tác so với độ trễ cho từng tác vụ, tương tự như cách các mô hình văn bản của ChatGPT cung cấp các mức độ suy luận khác nhau. Ví dụ, một truy vấn thời tiết nhanh sẽ sử dụng Tức thì, trong khi một buổi động não sâu sẽ chuyển sang Cao.

Thay đổi trực quan trên giao diện giọng nói

Khi GPT-Bidi-1 được chọn, biểu tượng bong bóng giọng nói/chỉ báo dạng sóng chuyển sang màu vàng thay vì màu mặc định hiện tại. Mô hình xuất hiện trong bộ chọn mô hình cài đặt dưới dạng một tùy chọn mới có nhãn "Bidi (Mới nhất)" cùng với Giọng nói Chuẩn và Chế độ Giọng nói Nâng cao hiện có, thay vì thay thế chúng.

Dòng thời gian phát triển và bối cảnh cạnh tranh

Đầu năm 2026: OpenAI bắt đầu phát triển kiến trúc BiDi nội bộ.
Ngày 5 tháng 3 năm 2026: The Information đưa tin rằng OpenAI đang phát triển một mô hình âm thanh hai chiều để tăng cường trợ lý giọng nói của mình.
Ngày 7 tháng 5 năm 2026: OpenAI công bố GPT-Realtime-2 trong API — mô hình giọng nói đầu tiên có khả năng suy luận ngang GPT-5, đặt nền móng cho các khả năng hai chiều.
Ngày 16–17 tháng 6 năm 2026: M1Astra và TestingCatalog lần đầu tiên phát hiện công khai các tham chiếu mã cho gpt-bidi-1.
Ngày 22–24 tháng 6 năm 2026: Các báo cáo người dùng và video trình diễn xuất hiện cho thấy hành vi hai chiều hoạt động. Nhiều hãng truyền thông đưa tin rằng việc triển khai rộng rãi hơn có thể diễn ra trong cùng tuần.

Bối cảnh cạnh tranh: Việc thúc đẩy giọng nói hai chiều này đáp trả trực tiếp những tiến bộ từ Google (Gemini Live với khả năng ngắt lời), Anthropic và các tác nhân giọng nói thời gian thực từ các startup. OpenAI đang chạy đua để mang lại sự tương đồng về tương tác giọng nói với trí thông minh văn bản của mình, vốn đã hỗ trợ khả năng suy luận ngang GPT-5.5.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI

Người ta cũng hỏi

Câu trả lời ngắn gọn cho "GPT-Bidi-1: Mọi điều đã biết về mô hình giọng nói hai chiều của OpenAI trên ChatGPT" là gì?

OpenAI đang phát triển GPT Bidi 1, mô hình giọng nói hai chiều cho ChatGPT, cho phép nghe và nói cùng lúc, xử lý ngắt lời giữa câu mà không bị đứng hình.

Những điểm chính cần xác nhận đầu tiên là gì?

Tôi nên làm gì tiếp theo trong thực tế?

Mô hình giới thiệu ba cấp độ thông minh có thể chọn: Cao (High), Trung bình (Medium) và Tức thì (Instant), tùy theo nhu cầu tác vụ.

Nguồn

Comments

0 comments

Loading comments...

← Back to Trending