OpenAI định vị GPT-5.6 Sol như một biên giới mới trong ba lĩnh vực chính: lập trình, sinh học và an ninh mạng .
Terminal-Bench 2.1 kiểm tra các quy trình dòng lệnh yêu cầu lập kế hoạch nhiều bước, phối hợp công cụ và lặp lại . Điểm chuẩn có 89 nhiệm vụ lập trình phức tạp
. Kết quả bao gồm:
| Mô hình | Điểm số |
|---|---|
| GPT-5.6 Sol Ultra | 91.9% |
| GPT-5.6 Sol (tối đa) | 88.8% |
| Claude Mythos 5 | 88.0% |
| GPT-5.6 Terra | 84.3% |
| Claude Fable 5 | 84.3% |
| GPT-5.5 | 83.4% |
| GPT-5.6 Luna | 82.5% |
GPT-5.6 Sol Ultra thiết lập kỷ lục mới ở mức 91,9% . Điểm Sol tiêu chuẩn 88,8% vượt qua mô hình biên giới bị hạn chế của Anthropic, Claude Mythos 5, ở mức 88,0% gần một điểm
.
Trên GeneBench v1, một điểm chuẩn đánh giá các tác vụ phân tích bộ gen và sinh học định lượng dài hạn, OpenAI báo cáo rằng Sol đạt kết quả mạnh hơn GPT-5.5 trong khi sử dụng ít token đầu ra hơn . Điều này đại diện cho một cải tiến hiệu quả có ý nghĩa đối với các quy trình nghiên cứu khoa học.
Trên ExploitBench, một điểm chuẩn nghiên cứu an ninh mạng, GPT-5.6 Sol gần như ngang bằng hiệu suất của Mythos Preview của Anthropic trong khi sử dụng khoảng một phần ba số token đầu ra .
Trên ExploitGym, một điểm chuẩn do các nhà nghiên cứu UC Berkeley xây dựng với sự cộng tác của OpenAI và các phòng thí nghiệm AI tiên phong khác, cả ba mô hình GPT-5.6 đều cho thấy khả năng an ninh mạng được cải thiện khi lý luận tăng lên .
Quan trọng là, OpenAI tuyên bố rằng GPT-5.6 Sol không vượt qua ngưỡng Cyber Critical theo Khung Chuẩn bị của họ . Trong các đánh giá liên quan đến Chromium và Firefox, mô hình đã xác định lỗi và các nguyên thủy khai thác — các khối xây dựng của một khai thác — nhưng không tự động tạo ra một khai thác toàn chuỗi chức năng trong các điều kiện được thử nghiệm
. Toàn bộ dòng mô hình GPT-5.6 được đánh giá nội bộ ở mức rủi ro "Cao" (đối với khả năng an ninh mạng và vũ khí sinh học) nhưng không phải là mức "Nghiêm trọng" cao nhất
.
OpenAI cho biết GPT-5.6 Sol ra mắt với "kiến trúc an toàn mạnh mẽ nhất từ trước đến nay" . Cách tiếp cận an toàn bao gồm:
Trong quá trình xem trước, một số lời nhắc có thể bị chậm lại hoặc bị chặn để xem xét thêm khi OpenAI tinh chỉnh tỷ lệ dương tính giả và âm tính giả .
Việc triển khai GPT-5.6 không giống bất kỳ bản phát hành OpenAI nào trước đây. Theo yêu cầu của chính phủ Mỹ, OpenAI ban đầu giới hạn quyền truy cập cho một nhóm nhỏ các đối tác và tổ chức đáng tin cậy — Axios đưa tin rằng bản xem trước bao gồm khoảng 20 công ty được phê duyệt — trong khi mô hình trải qua các đánh giá an ninh quốc gia bổ sung .
Bản xem trước không phải là một chương trình tự phục vụ rộng rãi. Trong giai đoạn này, GPT-5.6 Sol, Terra và Luna chỉ khả dụng thông qua API và Codex của OpenAI cho nhóm giới hạn này . Các mô hình không khả dụng trong ChatGPT trong thời gian xem trước
. OpenAI cho biết tính khả dụng rộng rãi hơn trong ChatGPT, Codex và API đang được lên kế hoạch "trong những tuần tới"
.
OpenAI tuyên bố rõ ràng rằng họ coi cách tiếp cận do chính phủ kiểm soát là một biện pháp tạm thời: "Chúng tôi tin vào quyền truy cập rộng rãi, và quy trình này không nên trở thành mặc định lâu dài" . Trong một bản ghi nhớ nội bộ, CEO Sam Altman nói với nhân viên rằng chính phủ sẽ "phê duyệt quyền truy cập từng khách hàng trong giai đoạn xem trước này," với hy vọng phát hành rộng rãi hơn sau một vài tuần
.
Điều này xuất phát từ các cuộc đàm phán với Văn phòng Giám đốc An ninh Mạng Quốc gia và Văn phòng Chính sách Khoa học và Công nghệ , phản ánh một khuôn khổ mô hình tiên phong mới đang được chính quyền Trump thử nghiệm
.
| Mô hình | Đầu vào / 1 triệu token | Đầu ra / 1 triệu token |
|---|---|---|
| GPT-5.6 Sol | $5.00 | $30.00 |
| GPT-5.6 Terra | $2.50 | $15.00 |
| GPT-5.6 Luna | $1.00 | $6.00 |
Giá của Sol ngang bằng với giá của GPT-5.5, trong khi Terra rẻ hơn khoảng 2 lần so với GPT-5.5 . Để so sánh, Sol có giá gần với Claude Opus 4.8 ($5/$25) hơn là Mythos 5 bị hạn chế của Anthropic ($10/$50)
.
OpenAI cũng thông báo rằng GPT-5.6 Sol sẽ được triển khai trên phần cứng Cerebras vào tháng 7 , với tốc độ suy luận lên tới 750 token mỗi giây
.
Gia đình GPT-5.6 đánh dấu một sự khởi đầu đáng kể so với các lần ra mắt trước đây của OpenAI. Việc đóng gói ba cấp độ (Sol, Terra, Luna) giới thiệu thương hiệu bền vững giúp tách rời dòng mô hình khỏi các cấp độ năng lực. Các kết quả điểm chuẩn — đặc biệt là điểm lập trình đẳng cấp thế giới của Sol trên Terminal-Bench 2.1 và các cải tiến hiệu quả trên ExploitBench — chứng minh những tiến bộ có ý nghĩa, đặc biệt là trong an ninh mạng và sinh học. Nhưng đặc điểm nổi bật nhất của lần ra mắt này có thể là các hạn chế truy cập do chính phủ yêu cầu, đại diện cho một mô hình mới cho việc triển khai AI tiên phong.
Comments
0 comments