Opus 4.8 của Anthropic cũng kế thừa giá của Opus 4.7 - không tăng dù đạt được những cải thiện đáng kể về benchmark . Ngược lại, GPT-5.5 đã tăng gấp đôi giá API so với người tiền nhiệm GPT-5.4, dù OpenAI lập luận rằng việc cải thiện hiệu quả token khiến mức tăng chi phí thực tế chỉ khoảng 20%
.
Cả ba mô hình đều hỗ trợ prompt caching, giúp tiết kiệm khoảng 90% chi phí cho token đầu vào đã lưu cache, và cung cấp batch processing với mức giảm giá 50% .
GPT-5.5 còn có thêm gói Pro với giá $30/$180 mỗi triệu token, nhắm đến các tác vụ cấp độ nghiên cứu . Claude Opus không có gói tương đương.
Việc so sánh trực tiếp giữa các mô hình trở nên phức tạp do sự khác biệt về phiên bản benchmark và giao thức kiểm tra. Với những điểm số có thể so sánh trên cùng một bài kiểm tra, Opus 4.8 vượt trội GPT-5.5 ở những lĩnh vực mà các lập trình viên quan tâm nhất.
| Benchmark | Opus 4.8 | Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| SWE-bench Verified (lập trình) | 88.6% | 87.6% | Không so sánh trực tiếp được |
| SWE-bench Pro (lập trình agentic) | 69.2% | 64.3% | 58.6% |
| Terminal-Bench 2.1 | 74.6% | — | — |
| Terminal-Bench 2.0 | — | 69.4% | 82.7% |
| Lập luận đa ngành (có công cụ) | 57.9% | 54.7% | Không so sánh trực tiếp được |
| Lập luận đa ngành (không công cụ) | ~62.1% | — | — |
| GPQA Diamond (khoa học bậc cao) | 93.6% | 94.2% | — |
| MMLU (kiến thức rộng) | — | 91.3% | — |
| AIME 2024 (toán thi đấu) | — | 99.8% | — |
| CursorBench | Cao nhất | Cơ bản | — |
| GDPval-AA (công việc tri thức) | 1890 | 1753 | 1769 |
| Super-Agent (đầu-cuối) | 100% | — | Không đạt 100% |
| Sử dụng máy tính agentic | 83.4% | 82.8% | 78.7% |
SWE-bench Pro là bài kiểm tra được trích dẫn rộng rãi nhất cho các tác vụ kỹ thuật phần mềm thực tế, và Opus 4.8 đạt 69.2%, so với 58.6% của GPT-5.5 — dẫn trước đến 10.6 điểm phần trăm . Opus 4.7 vốn đã dẫn đầu ở mức 64.3%, và Opus 4.8 còn nới rộng thêm lợi thế đó. Thông báo của Anthropic nhấn mạnh rằng tác vụ được hoàn thành nhanh hơn và ít lỗi code hơn gấp 4 lần so với các mô hình trước
.
Benchmark này đòi hỏi người đọc phải thật tinh ý. GPT-5.5 báo cáo đạt 82.7% trên Terminal-Bench 2.0 , trong khi 74.6% của Opus 4.8 được đo trên Terminal-Bench 2.1, một phiên bản mới hơn
. Hai điểm số này không thể so sánh trực tiếp. Thêm vào đó, tuyên bố 82.7% của OpenAI đã vấp phải sự hoài nghi; bảng xếp hạng của chính chủ sở hữu benchmark cho thấy 82.0% ± 2.2 vào cùng ngày
. Opus 4.7 đạt 69.4% trên Terminal-Bench 2.0
, và các thử nghiệm độc lập sử dụng bộ khai thác (harness) khác nhau đã phát hiện GPT-5.5 đôi khi hoạt động kém hơn cả GPT-5.4 trên benchmark này
.
Trên GDPval-AA, một bài đánh giá về công việc tri thức, Opus 4.8 đạt điểm Elo 1890, so với 1769 của GPT-5.5 — lợi thế khoảng 7% . Opus 4.8 cũng là mô hình đầu tiên đạt tỷ lệ hoàn thành 100% trên bài kiểm tra Super-Agent của Anthropic, nghĩa là nó thực thi thành công mọi tác vụ agentic đầu-cuối trong bộ kiểm tra
. GPT-5.5 không đạt được điều này.
Ở tác vụ sử dụng máy tính agentic (OSWorld-Verified), điểm số gần hơn: Opus 4.8 đạt 83.4%, GPT-5.5 đạt 78.7%, và Opus 4.7 đạt 82.8% . Đây là những cải thiện chỉ tính bằng điểm đơn lẻ, chưa phải là bước nhảy vọt thế hệ.
Phạm vi benchmark của GPT-5.5 hẹp hơn trên các bài kiểm tra mà Anthropic công bố cùng Opus 4.8, một phần vì OpenAI tập trung vào các thước đo khác. Trên GPQA Diamond (lập luận khoa học bậc cao), Opus 4.7 đạt 94.2% , trong khi các so sánh trước đó cho thấy GPT-5.4 có chút lợi thế hơn Opus 4.7 về lập luận toán học thuần túy và một số bài kiểm tra kiến thức
. Chưa có so sánh trực tiếp GPQA giữa Opus 4.8 và GPT-5.5, dù Opus 4.8 được báo cáo ở mức 93.6%
.
OpenAI cũng tuyên bố GPT-5.5 sử dụng ít hơn khoảng 40% token đầu ra cho mỗi tác vụ lập trình so với GPT-5.4, điều này có thể phần nào bù đắp cho mức giá mỗi token cao hơn của nó trong một số tác vụ nhất định .
| Thông số | Opus 4.8 | Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| Cửa sổ ngữ cảnh | 1M token | 1M token | 1M token |
| Chế độ nhanh | Nhanh 2.5 lần ($10/$50) | Nhanh 2.5 lần ($10/$50) | N/A |
| Ngày phát hành | 28/05/2026 | 16/04/2026 | 23/04/2026 |
| Giảm giá Batch | 50% | 50% | 50% (Flex) |
| Prompt caching | Có (giảm tới 90%) | Có (giảm tới 90%) | Có (giảm 90%) |
Cả ba mô hình đều hội tụ ở cửa sổ ngữ cảnh 1 triệu token, dù Anthropic ghi nhận đầu ra tối đa của Opus 4.8 là 128K token mỗi yêu cầu , trong khi GPT-5.5 chỉ được liệt kê ở mức 32K token
.
Chế độ nhanh của Claude là tùy chọn và chạy với tốc độ nhanh gấp khoảng 2.5 lần. Anthropic cho biết chế độ nhanh của Opus 4.8 rẻ hơn ba lần so với suy luận nhanh trên các thế hệ Opus trước . GPT-5.5 không cung cấp gói tốc độ cao cấp tương đương.
Các benchmark độc lập cần được đọc với sự thấu hiểu về những hạn chế của chúng:
Chọn Claude Opus 4.8 nếu: các tác vụ lập trình agentic, sử dụng máy tính, công việc tri thức, hoặc xử lý ngữ cảnh dài chiếm phần lớn khối lượng công việc của bạn. Nó dẫn đầu trên mọi benchmark chung có thể so sánh, và giá cả không đổi so với Opus 4.7.
Chọn GPT-5.5 nếu: bạn đã gắn bó sâu với hệ sinh thái OpenAI, ưu tiên lập luận toán học thuần túy, hoặc kỳ vọng mức tăng hiệu quả token sẽ bù đắp cho mức giá mỗi token cao hơn trong các mẫu prompt cụ thể của bạn.
Vẫn dùng Opus 4.7 nếu: bạn muốn khả năng lập trình agentic hàng đầu (64.3% SWE-bench Pro vẫn bỏ xa GPT-5.5) và không cần những cải tiến cụ thể mà Opus 4.8 mang lại — nhưng vì giá không đổi, gần như chẳng có lý do gì để không nâng cấp.
Đối với các lập trình viên đang vận hành các agent 'ngốn' nhiều đầu ra hoặc phân tích tài liệu dài, giá đầu ra rẻ hơn 17% của Claude Opus cùng mức phí ngữ cảnh dài cố định tạo ra sự khác biệt rõ rệt cho hóa đơn API hàng tháng.
Comments
0 comments