Nhìn vào các benchmark công khai, câu trả lời ngắn gọn không phải là mô hình nào mạnh hơn, mà là mô hình nào hợp việc hơn. Claude Opus 4.7 nổi bật ở SWE-bench Pro, GPQA Diamond và MCP Atlas; GPT-5.5 nổi bật ở Terminal-Bench 2.0, OSWorld-Verified, BrowseComp và FrontierMath [6][
14][
15][
29][
34].
Điểm cần nhớ: đây không phải một trận đấu sân nhà - sân khách với cùng điều kiện tuyệt đối. Artificial Analysis so GPT-5.5 ở chế độ xhigh với Claude Opus 4.7 ở điều kiện Non-reasoning, High Effort; LLM Stats cũng nhận xét rằng các con số này chỉ ra loại workload phù hợp hơn là chọn ra một người thắng chung cuộc [3][
4].
Bảng nhanh: ai nhỉnh ở đâu?
| Nhóm việc | Benchmark | Claude Opus 4.7 | GPT-5.5 | Cách đọc |
|---|---|---|---|---|
| Coding | SWE-bench Pro | 64,3% | 58,6% | Với nhóm bài toán sửa issue GitHub thực tế, Claude được báo cáo cao hơn [ |
| Tác vụ terminal | Terminal-Bench 2.0 | 69,4% | 82,7% | Với dòng lệnh, thao tác file và chạy script nhiều bước, GPT-5.5 vượt rõ [ |
| Dùng máy tính | OSWorld-Verified | 78,0% | 78,7% | Gần như ngang nhau, nhưng số công khai nghiêng nhẹ về GPT-5.5 [ |
| Tìm kiếm, duyệt web | BrowseComp | 79,3% | 84,4% | GPT-5.5 cao hơn; GPT-5.5 Pro còn được nêu ở mức 90,1% [ |
| Gọi công cụ kiểu MCP | MCP Atlas | 79,1% | 75,3% | Không phải mọi bài dùng công cụ đều nghiêng về GPT-5.5; mục này Claude cao hơn [ |
| Suy luận khoa học | GPQA Diamond | 94,2–94,3% | 93,6% | Chênh lệch nhỏ, nhưng các nguồn được cung cấp cho thấy Claude nhỉnh nhẹ [ |
| Toán khó | FrontierMath T1-3 / T4 | 43,8% / 22,9% | 51,7% / 35,4% | Với nhóm toán khó, GPT-5.5 dẫn rõ [ |
| Suy luận tổng hợp | HLE, không công cụ | 31,2% hoặc 46,9% | 40,6% hoặc 41,4% | Nguồn công bố khác nhau cho kết quả ngược nhau, khó dùng làm tie-breaker [ |
| Suy luận có công cụ | HLE, có công cụ | 54,7% | 52,2% | Ở điều kiện có công cụ, Claude được báo cáo nhỉnh nhẹ [ |
Coding: sửa issue GitHub khác với điều khiển terminal
Nếu đội kỹ thuật của bạn dùng AI để sửa lỗi, đọc repo lớn hoặc hỗ trợ review code, đừng gom mọi benchmark coding vào một rổ. SWE-bench Pro cho thấy Claude Opus 4.7 đạt 64,3%, cao hơn GPT-5.5 ở mức 58,6% [6][
34]. Vellum cũng xem đây là tín hiệu Claude đang mạnh hơn ở nhóm tác vụ xử lý issue GitHub thực tế [
34].
Nhưng nếu công việc là mở terminal, lần theo cấu trúc thư mục, chạy script, sửa lỗi rồi chạy lại, kết quả đảo chiều. Terminal-Bench 2.0 được mô tả là đo năng lực hoàn thành các workflow CLI thực tế như thao tác file, chạy script và thực hiện nhiều bước qua dòng lệnh; GPT-5.5 đạt 82,7%, còn Claude Opus 4.7 đạt 69,4% [6][
14][
23]. Với các hệ thống tự động hóa phát triển phần mềm dựa nhiều vào shell, đây là lý do rõ ràng để thử GPT-5.5 trước.
Các đánh giá định tính cũng đi theo hướng này. Mindstudio nhận xét GPT-5.5 nhỉnh hơn ở các bài cần dùng công cụ chính xác và điều hướng file, trong khi Claude Opus 4.7 tốt hơn ở suy luận kiến trúc trên codebase lớn [5]. Nói cách khác: nếu việc chính là hiểu bức tranh toàn repo, refactor và review, Claude đáng thử sớm; nếu việc chính là thao tác môi trường, chạy lệnh và xử lý file, GPT-5.5 có lợi thế thực dụng hơn.
Riêng SWE-bench Verified cần đọc thận trọng. APIYI và LLM Stats nêu điểm 87,6% cho Claude Opus 4.7, nhưng các tài liệu được cung cấp chưa đủ để chốt điểm GPT-5.5 trong cùng điều kiện [8][
30]. Cùng một tên benchmark, chỉ cần khác chế độ suy luận, bộ kiểm thử, cách dùng tool hoặc số lần thử là kết quả có thể lệch đáng kể [
3][
23].
Agent và công cụ: GPT-5.5 rộng hơn, nhưng không thắng hết
Trong tài liệu giới thiệu GPT-5.5, OpenAI nêu OSWorld-Verified ở mức 78,7% cho GPT-5.5 và 78,0% cho Claude Opus 4.7 [15]. Đây là chênh lệch rất nhỏ, nhưng nếu bạn quan tâm tới tác vụ dùng máy tính hoặc giao diện, số công khai hiện nghiêng nhẹ về GPT-5.5 [
15].
Khoảng cách rõ hơn ở BrowseComp, benchmark gắn với tìm kiếm và duyệt web. OpenAI nêu GPT-5.5 đạt 84,4%, GPT-5.5 Pro đạt 90,1%, còn Claude Opus 4.7 đạt 79,3% [15]. Nếu sản phẩm của bạn xoay quanh agent đi tìm thông tin, mở trang, tổng hợp kết quả và kiểm tra nguồn, GPT-5.5 là ứng viên nên được đưa vào vòng thử đầu tiên.
Tuy vậy, không nên kết luận mọi tác vụ dùng công cụ đều thuộc về GPT-5.5. Ở MCP Atlas, Claude Opus 4.7 đạt 79,1%, cao hơn GPT-5.5 ở mức 75,3% [15]. Vì thế, cách đánh giá an toàn hơn là tách riêng bốn nhóm: duyệt web, dùng giao diện máy tính, gọi công cụ kiểu MCP và tự động hóa terminal. Một điểm tổng hợp duy nhất khó phản ánh đúng rủi ro khi triển khai thật.
Suy luận: GPQA nghiêng về Claude, FrontierMath nghiêng về GPT-5.5
Ở nhóm suy luận khoa học và kiến thức chuyên sâu, GPQA Diamond cho kết quả rất sát. Claude Opus 4.7 được báo cáo ở mức 94,2–94,3%, còn GPT-5.5 ở mức 93,6% [14][
29]. Chênh lệch không lớn, nhưng nếu workload của bạn giống câu hỏi khoa học khó, tài liệu hiện có cho thấy Claude nhỉnh nhẹ.
Toán lại là câu chuyện khác. Ở FrontierMath T1-3, GPT-5.5 đạt 51,7% so với 43,8% của Claude Opus 4.7; ở FrontierMath T4 khó hơn, GPT-5.5 đạt 35,4% so với 22,9% của Claude [14]. Với bài toán cần suy luận hình thức, giải toán khó hoặc kiểm chứng nhiều bước, GPT-5.5 nên được ưu tiên benchmark trước.
HLE chưa đủ sạch để làm trọng tài cuối cùng
Humanity’s Last Exam, thường viết tắt là HLE, là phần dễ gây hiểu nhầm nhất trong lần so sánh này. Mashable nêu điều kiện không dùng công cụ với GPT-5.5 đạt 40,6% và Claude Opus 4.7 đạt 31,2%, tức GPT-5.5 dẫn [6]. Trong khi đó, o-mega và RDWorld lại nêu GPT-5.5 đạt 41,4% và Claude Opus 4.7 đạt 46,9%, tức Claude dẫn [
14][
23].
Ở điều kiện có công cụ, Mashable và RDWorld cùng nêu GPT-5.5 đạt 52,2% và Claude Opus 4.7 đạt 54,7%, nghiêng nhẹ về Claude [6][
23]. Nhưng vì kết quả không dùng công cụ đã khác nhau đáng kể theo nguồn, HLE hiện chưa nên được dùng như tiêu chí duy nhất để quyết định mô hình suy luận tổng hợp nào tốt hơn.
Context, chi phí và bảng xếp hạng: hữu ích nhưng không phải quyết định cuối
Cửa sổ ngữ cảnh cũng được mô tả khác nhau tùy nguồn. Artificial Analysis ghi GPT-5.5 ở mức 922k token và Claude Opus 4.7 ở mức 1.000k token [3]. LLM Stats lại mô tả cả hai đều ra mắt với ngữ cảnh 1 triệu token và cùng mức giá đầu vào [
4]. Với người dùng thực tế, cách đọc hợp lý là: cả hai đều thuộc nhóm mô hình ngữ cảnh rất dài, nhưng giới hạn và giá thật cần kiểm tra lại theo API, gói sản phẩm, chế độ suy luận và cách gọi công cụ.
Các leaderboard tổng hợp cũng chỉ nên là bản đồ tham khảo. BenchLM xếp Claude Opus 4.7 hạng 2 trong 110 mô hình ở provisional leaderboard và hạng 2 trong 14 mô hình ở verified leaderboard [1]. Cùng hệ nguồn, GPT-5.5 đứng hạng 5 trong 112 mô hình ở provisional leaderboard và hạng 2 trong 16 mô hình ở verified leaderboard [
17]. Những thứ hạng này đủ để nói cả hai đều ở nhóm đầu, nhưng chưa đủ để thay cho kiểm thử nội bộ về lỗi thường gặp, độ trễ, chi phí, độ ổn định khi gọi tool và khả năng phục hồi sau thất bại.
Nên thử mô hình nào trước?
Hãy bắt đầu với Claude Opus 4.7 nếu workload của bạn giống các trường hợp sau:
- Sửa issue code kiểu SWE-bench Pro hoặc xử lý lỗi trong repo thật [
6][
34].
- Hiểu kiến trúc codebase lớn, refactor, review code và duy trì nhất quán thiết kế [
5].
- Trả lời câu hỏi khoa học, kỹ thuật hoặc chuyên môn khó gần với GPQA Diamond [
14][
29].
- Dùng các workflow gọi công cụ mà MCP Atlas là tín hiệu quan trọng [
15].
Hãy bắt đầu với GPT-5.5 nếu workload của bạn giống các trường hợp sau:
- Tự động hóa terminal, CLI, thao tác file và chạy script nhiều bước [
6][
14][
23].
- Agent dùng máy tính, gần với OSWorld-Verified [
15].
- Agent tìm kiếm, duyệt web và tổng hợp thông tin kiểu BrowseComp [
15].
- Suy luận toán khó, đặc biệt các bài gần FrontierMath [
14].
Kết luận
Claude Opus 4.7 là lựa chọn mạnh ở SWE-bench Pro, GPQA Diamond và MCP Atlas [6][
14][
15][
29][
34]. GPT-5.5 lại nổi bật ở Terminal-Bench 2.0, OSWorld-Verified, BrowseComp và FrontierMath [
6][
14][
15][
23].
Vì vậy, câu hỏi tốt nhất không phải là Claude Opus 4.7 hay GPT-5.5 thắng. Câu hỏi đúng hơn là bạn đang muốn tự động hóa loại công việc nào. Với sửa code phức tạp và truy vấn khoa học, hãy thử Claude Opus 4.7 trước. Với terminal, duyệt web, dùng máy tính và toán khó, hãy đưa GPT-5.5 vào vòng benchmark đầu tiên.




