Các benchmark công khai hiện tại không ủng hộ một kết luận kiểu “GPT-5.5 tốt hơn Claude Opus 4.7” hay ngược lại. Tín hiệu rõ nhất là theo workload: GPT-5.5 mạnh hơn ở terminal, browsing và một số workflow agent; Claude Opus 4.7 mạnh hơn ở SWE-Bench Pro, MCP Atlas và một vài benchmark reasoning/tooling theo bảng tổng hợp [5][
6][
11].
Điểm cần nhớ: nhiều con số đến từ công bố nhà cung cấp hoặc bảng tổng hợp. LLM Stats còn ghi chú rằng điểm GPT-5.5 có thể là self-reported và chưa được xác minh độc lập [8]. Vì vậy, các benchmark dưới đây nên được dùng để lọc model vào vòng thử nghiệm, không phải để chốt model sản phẩm.
Kết luận nhanh theo benchmark
| Benchmark | GPT-5.5 | Claude Opus 4.7 | Đọc kết quả như thế nào |
|---|---|---|---|
| Terminal-Bench 2.0 | 82,7% | 69,4% | Lợi thế rõ cho GPT-5.5 ở workflow dòng lệnh. OpenAI mô tả benchmark này là bài test các tác vụ command-line phức tạp cần planning, iteration và phối hợp tool [ |
| SWE-Bench Pro | 58,6% | 64,3% | Claude Opus 4.7 dẫn ở benchmark sửa issue GitHub thực tế dạng khó; OpenAI cũng công bố GPT-5.5 đạt 58,6% ở bài này [ |
| GPQA Diamond | 93,6% | 94,2% | Claude nhỉnh hơn, nhưng chỉ 0,6 điểm phần trăm; không nên xem đây là lợi thế quyết định cho mọi bài toán reasoning [ |
| BrowseComp | 84,4% | 79,3% | GPT-5.5 dẫn trong cả bảng Vellum và Mashable [ |
| GDPval | 84,9% | 80,3% | GPT-5.5 dẫn trong bảng Vellum [ |
| OSWorld-Verified | 78,7% | 78,0% | GPT-5.5 chỉ nhỉnh nhẹ, nên cần kiểm tra lại trên workflow thực tế [ |
| MCP Atlas | 75,3% | 79,1% | Claude Opus 4.7 dẫn ở benchmark tool orchestration này trong bảng Vellum [ |
| FrontierMath T1–3 | 51,7% | 43,8% | GPT-5.5 dẫn trong bảng Vellum [ |
| FinanceAgent v1.1 | Không có số đối chiếu đầy đủ trong nguồn được cung cấp | 64,4% trong DataCamp | LLM Stats xếp Claude dẫn FinanceAgent v1.1, nhưng nên thận trọng vì thiếu cặp số đầy đủ trong các nguồn trích dẫn ở đây [ |
| Humanity’s Last Exam | Không nhất quán giữa nguồn | Không nhất quán giữa nguồn | Không nên dùng làm tie-breaker nếu chưa kiểm soát cùng điều kiện chạy; LLM Stats, Mashable và o-mega đưa tín hiệu khác nhau [ |
Nếu gom theo LLM Stats, Claude Opus 4.7 dẫn 6 trong 10 benchmark mà nguồn này nói cả hai nhà cung cấp báo cáo, còn GPT-5.5 dẫn 4. LLM Stats cũng tóm tắt rằng lợi thế của Claude tập trung ở các bài reasoning-heavy và review-grade, còn lợi thế của GPT-5.5 tập trung ở tool-use dài và shell-driven tasks [6]. Cách gom này hữu ích, nhưng không giải quyết được các hàng có dữ liệu mâu thuẫn như Humanity’s Last Exam [
6][
9][
11].
Coding: Terminal-Bench và SWE-Bench không đo cùng một thứ
Với agentic coding trong terminal, GPT-5.5 là ứng viên mạnh hơn trên số liệu công khai hiện có. GPT-5.5 đạt 82,7% trên Terminal-Bench 2.0, cao hơn Claude Opus 4.7 ở 69,4% trong các bảng đối chiếu [5][
11]. OpenAI mô tả Terminal-Bench 2.0 là benchmark cho các workflow command-line phức tạp cần lập kế hoạch, lặp lại và phối hợp công cụ [
23].
Điều đó đặc biệt quan trọng nếu sản phẩm của bạn là CLI copilot, DevOps assistant, coding agent phải chạy test, đọc lỗi, sửa file rồi lặp lại. Với loại workload này, Terminal-Bench 2.0 đáng ưu tiên hơn các bài reasoning tổng quát.
Ngược lại, với sửa issue phần mềm thực tế, Claude Opus 4.7 dẫn trên SWE-Bench Pro: 64,3% so với 58,6% của GPT-5.5 [5][
11]. OpenAI mô tả SWE-Bench Pro là bài đánh giá khả năng giải quyết issue GitHub thực tế [
23]. Nếu workload giống bug fixing, thay đổi code trong repo thật hoặc review-grade software tasks hơn là điều khiển terminal dài, Claude Opus 4.7 nên được đưa vào vòng thử nghiệm đầu tiên.
Riêng SWE-Bench Verified chưa đủ sạch để chốt người thắng giữa hai model trong bộ nguồn này. MindStudio ghi Claude Opus 4.7 đạt 82,4%, trong khi APIyi và DataCamp ghi 87,6%; các nguồn được cung cấp không cho một cặp số GPT-5.5 vs Claude Opus 4.7 ổn định cho cùng hàng này [1][
2][
3].
Agent và workflow: GPT-5.5 dẫn nhiều bài, Claude vẫn có vùng mạnh
Ở nhóm workflow agent, GPT-5.5 có nhiều tín hiệu tích cực. Trong bảng Vellum, GPT-5.5 dẫn BrowseComp với 84,4% so với 79,3%, GDPval với 84,9% so với 80,3%, và OSWorld-Verified với 78,7% so với 78,0% [5]. Mashable cũng ghi GPT-5.5 dẫn BrowseComp với cùng cặp điểm 84,4% và 79,3% [
11]. LLM Stats bổ sung rằng GPT-5.5 dẫn CyberGym, dù nguồn được trích không hiển thị điểm phần trăm trong snippet [
6].
Claude Opus 4.7 vẫn có các vùng đáng chú ý. Trong bảng Vellum, Claude dẫn MCP Atlas với 79,1% so với 75,3% của GPT-5.5 [5]. LLM Stats xếp Claude dẫn FinanceAgent v1.1, còn DataCamp ghi Claude Opus 4.7 đạt 64,4% trên FinanceAgent v1.1 [
3][
6]. Anthropic cũng mô tả Claude Opus 4.7 là bản Opus mới mạnh hơn ở coding, agents, vision và tác vụ nhiều bước [
28].
Vì vậy, nếu workflow của bạn thiên về shell, browsing hoặc OS-style automation, GPT-5.5 có lợi thế ban đầu. Nếu workload thiên về orchestration có cấu trúc, MCP hoặc tác vụ tài chính, Claude Opus 4.7 đáng được benchmark trực tiếp thay vì loại sớm.
Reasoning: GPQA sát, HLE chưa ổn định
Ở GPQA Diamond, Claude Opus 4.7 đạt 94,2% và GPT-5.5 đạt 93,6% trong các bảng đối chiếu [5][
11]. Đây là lợi thế cho Claude, nhưng mức chênh 0,6 điểm phần trăm quá nhỏ để quyết định mọi use case reasoning. Với bài toán scientific QA, phân tích chuyên môn hoặc reasoning dài, lựa chọn hợp lý hơn là chạy cả hai model trên bộ câu hỏi thật của bạn.
Humanity’s Last Exam là phần nên đọc thận trọng nhất. LLM Stats nói Claude Opus 4.7 dẫn cả HLE không dùng tools và HLE có tools [6]. Mashable lại ghi GPT-5.5 đạt 40,6% so với 31,2% của Opus 4.7 ở HLE không tools, trong khi Claude đạt 54,7% so với 52,2% của GPT-5.5 ở HLE có tools [
11]. o-mega đưa thêm một bộ số HLE khác [
9]. Khi các nguồn không thống nhất, HLE không nên là tie-breaker trừ khi bạn tự chạy lại với cùng setup.
Nên chọn GPT-5.5 hay Claude Opus 4.7?
Chọn GPT-5.5 để thử trước nếu bạn ưu tiên agent chạy terminal, shell workflow, test loop hoặc automation nhiều bước, vì Terminal-Bench 2.0 nghiêng mạnh về GPT-5.5 [5][
11][
23]. GPT-5.5 cũng là lựa chọn đáng thử sớm cho browsing/search-style workflow, GDPval, OSWorld-Verified và FrontierMath T1–3 theo bảng Vellum [
5][
11].
Chọn Claude Opus 4.7 để thử trước nếu bạn ưu tiên sửa issue phần mềm kiểu SWE-Bench Pro, nơi Claude dẫn GPT-5.5 [5][
11]. Claude cũng nên được đưa vào shortlist cho GPQA-style scientific reasoning, MCP/tool orchestration và finance-agent workflow, dựa trên GPQA Diamond, MCP Atlas, FinanceAgent v1.1 và nhận định tổng hợp của LLM Stats [
3][
5][
6][
11].
Cách an toàn nhất là không chọn chỉ từ leaderboard. Hãy chia workload của bạn thành bốn nhóm: coding trong repo, terminal/agent automation, reasoning không tool và workflow có tool. Với mỗi nhóm, chạy cùng prompt, cùng quyền truy cập tool, cùng sampling, cùng reasoning effort và cùng tiêu chí chấm. Benchmark công khai giúp biết nên bắt đầu từ đâu; eval nội bộ mới cho biết model nào đáng đưa vào sản phẩm, nhất là khi một số điểm công khai có thể là tự báo cáo hoặc chưa được xác minh độc lập [8].




