Không có người thắng tuyệt đối: GPT 5.5 dẫn rõ Terminal Bench 2.0 với 82,7% so với 69,4%, còn Claude Opus 4.7 dẫn SWE Bench Pro với 64,3% so với 58,6%; hãy chọn theo workload, không theo một bảng xếp hạng tổng. Ở reasoning khoa học, Claude Opus 4.7 chỉ nhỉnh nhẹ trên GPQA Diamond: 94,2% so với 93,6%, nên chênh lệch...

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7: benchmark nào đáng tin cho coding, agent và reasoning?. Article summary: Không có người thắng tuyệt đối: GPT 5.5 nổi bật ở terminal/agentic coding với Terminal Bench 2.0 đạt 82,7% so với 69,4%, còn Claude Opus 4.7 dẫn SWE Bench Pro với 64,3% so với 58,6%; các số này nên dùng làm điểm lọc,.... Topic tags: ai, openai, anthropic, claude, chatgpt. Reference image context from search candidates: Reference image 1: visual subject "# So sánh GPT-5.5 với Claude Opus 4.7. GPT-5.5 và Claude Opus 4.7 là hai model AI hàng đầu ra mắt cách nhau chỉ một tuần tháng 4/2026, không có winner rõ ràng khi benchmarks chia t" source context "So sánh GPT-5.5 với Claude Opus 4.7 | Viết bởi vninfinity" Reference image 2: visual subject "# So sánh GPT-5.5 với Claude Opus 4.7. GPT-5.5 và Claude Opus 4.7 là hai model
Các benchmark công khai hiện tại không ủng hộ một kết luận kiểu “GPT-5.5 tốt hơn Claude Opus 4.7” hay ngược lại. Tín hiệu rõ nhất là theo workload: GPT-5.5 mạnh hơn ở terminal, browsing và một số workflow agent; Claude Opus 4.7 mạnh hơn ở SWE-Bench Pro, MCP Atlas và một vài benchmark reasoning/tooling theo bảng tổng hợp [5][
6][
11].
Điểm cần nhớ: nhiều con số đến từ công bố nhà cung cấp hoặc bảng tổng hợp. LLM Stats còn ghi chú rằng điểm GPT-5.5 có thể là self-reported và chưa được xác minh độc lập [8]. Vì vậy, các benchmark dưới đây nên được dùng để lọc model vào vòng thử nghiệm, không phải để chốt model sản phẩm.
| Benchmark | GPT-5.5 | Claude Opus 4.7 | Đọc kết quả như thế nào |
|---|---|---|---|
| Terminal-Bench 2.0 | 82,7% | 69,4% | Lợi thế rõ cho GPT-5.5 ở workflow dòng lệnh. OpenAI mô tả benchmark này là bài test các tác vụ command-line phức tạp cần planning, iteration và phối hợp tool [ |
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Không có người thắng tuyệt đối: GPT 5.5 dẫn rõ Terminal Bench 2.0 với 82,7% so với 69,4%, còn Claude Opus 4.7 dẫn SWE Bench Pro với 64,3% so với 58,6%; hãy chọn theo workload, không theo một bảng xếp hạng tổng.
Không có người thắng tuyệt đối: GPT 5.5 dẫn rõ Terminal Bench 2.0 với 82,7% so với 69,4%, còn Claude Opus 4.7 dẫn SWE Bench Pro với 64,3% so với 58,6%; hãy chọn theo workload, không theo một bảng xếp hạng tổng. Ở reasoning khoa học, Claude Opus 4.7 chỉ nhỉnh nhẹ trên GPQA Diamond: 94,2% so với 93,6%, nên chênh lệch này không đủ để thay thế eval nội bộ.
Các nguồn công khai có điểm mâu thuẫn ở SWE Bench Verified và Humanity’s Last Exam, đồng thời một số điểm có thể là tự báo cáo hoặc chưa được xác minh độc lập.
Tiếp tục với "SoftBank sắp lãi lớn nhờ OpenAI, nhưng nợ AI mới là điều khiến nhà đầu tư lo" để có góc nhìn khác và trích dẫn bổ sung.
Open related pageKiểm tra chéo câu trả lời này với "Solana Alpenglow là gì? Votor, Rotor và mục tiêu finality 150 ms".
Open related pageClaude Opus 4.7 posted 82.4% on SWE-bench Verified, up roughly 11 points from Opus 4.6 — the most meaningful coding benchmark available. Vision improvements were the largest percentage gains: MathVista jumped 9.5 points, enabling reliable visual math reason...
Q1: What is Claude Opus 4.7? Claude Opus 4.7 is the flagship Large Language Model released by Anthropic on April 16, 2026. It leads in multiple benchmarks, including coding (SWE-bench Verified 87.6%), Agent tool invocation, and scientific reasoning (GPQA Di...
Note: Pricing is $5 per million input tokens and $25 per million output tokens which is identical to Opus 4.6. If you want to explore this model in depth, this article by DataCamp team is a good read. A few numbers worth knowing before we test it: Benchmark...
Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...
| SWE-Bench Pro | 58,6% | 64,3% | Claude Opus 4.7 dẫn ở benchmark sửa issue GitHub thực tế dạng khó; OpenAI cũng công bố GPT-5.5 đạt 58,6% ở bài này [ |
| GPQA Diamond | 93,6% | 94,2% | Claude nhỉnh hơn, nhưng chỉ 0,6 điểm phần trăm; không nên xem đây là lợi thế quyết định cho mọi bài toán reasoning [ |
| BrowseComp | 84,4% | 79,3% | GPT-5.5 dẫn trong cả bảng Vellum và Mashable [ |
| GDPval | 84,9% | 80,3% | GPT-5.5 dẫn trong bảng Vellum [ |
| OSWorld-Verified | 78,7% | 78,0% | GPT-5.5 chỉ nhỉnh nhẹ, nên cần kiểm tra lại trên workflow thực tế [ |
| MCP Atlas | 75,3% | 79,1% | Claude Opus 4.7 dẫn ở benchmark tool orchestration này trong bảng Vellum [ |
| FrontierMath T1–3 | 51,7% | 43,8% | GPT-5.5 dẫn trong bảng Vellum [ |
| FinanceAgent v1.1 | Không có số đối chiếu đầy đủ trong nguồn được cung cấp | 64,4% trong DataCamp | LLM Stats xếp Claude dẫn FinanceAgent v1.1, nhưng nên thận trọng vì thiếu cặp số đầy đủ trong các nguồn trích dẫn ở đây [ |
| Humanity’s Last Exam | Không nhất quán giữa nguồn | Không nhất quán giữa nguồn | Không nên dùng làm tie-breaker nếu chưa kiểm soát cùng điều kiện chạy; LLM Stats, Mashable và o-mega đưa tín hiệu khác nhau [ |
Nếu gom theo LLM Stats, Claude Opus 4.7 dẫn 6 trong 10 benchmark mà nguồn này nói cả hai nhà cung cấp báo cáo, còn GPT-5.5 dẫn 4. LLM Stats cũng tóm tắt rằng lợi thế của Claude tập trung ở các bài reasoning-heavy và review-grade, còn lợi thế của GPT-5.5 tập trung ở tool-use dài và shell-driven tasks [6]. Cách gom này hữu ích, nhưng không giải quyết được các hàng có dữ liệu mâu thuẫn như Humanity’s Last Exam [
6][
9][
11].
Với agentic coding trong terminal, GPT-5.5 là ứng viên mạnh hơn trên số liệu công khai hiện có. GPT-5.5 đạt 82,7% trên Terminal-Bench 2.0, cao hơn Claude Opus 4.7 ở 69,4% trong các bảng đối chiếu [5][
11]. OpenAI mô tả Terminal-Bench 2.0 là benchmark cho các workflow command-line phức tạp cần lập kế hoạch, lặp lại và phối hợp công cụ [
23].
Điều đó đặc biệt quan trọng nếu sản phẩm của bạn là CLI copilot, DevOps assistant, coding agent phải chạy test, đọc lỗi, sửa file rồi lặp lại. Với loại workload này, Terminal-Bench 2.0 đáng ưu tiên hơn các bài reasoning tổng quát.
Ngược lại, với sửa issue phần mềm thực tế, Claude Opus 4.7 dẫn trên SWE-Bench Pro: 64,3% so với 58,6% của GPT-5.5 [5][
11]. OpenAI mô tả SWE-Bench Pro là bài đánh giá khả năng giải quyết issue GitHub thực tế [
23]. Nếu workload giống bug fixing, thay đổi code trong repo thật hoặc review-grade software tasks hơn là điều khiển terminal dài, Claude Opus 4.7 nên được đưa vào vòng thử nghiệm đầu tiên.
Riêng SWE-Bench Verified chưa đủ sạch để chốt người thắng giữa hai model trong bộ nguồn này. MindStudio ghi Claude Opus 4.7 đạt 82,4%, trong khi APIyi và DataCamp ghi 87,6%; các nguồn được cung cấp không cho một cặp số GPT-5.5 vs Claude Opus 4.7 ổn định cho cùng hàng này [1][
2][
3].
Ở nhóm workflow agent, GPT-5.5 có nhiều tín hiệu tích cực. Trong bảng Vellum, GPT-5.5 dẫn BrowseComp với 84,4% so với 79,3%, GDPval với 84,9% so với 80,3%, và OSWorld-Verified với 78,7% so với 78,0% [5]. Mashable cũng ghi GPT-5.5 dẫn BrowseComp với cùng cặp điểm 84,4% và 79,3% [
11]. LLM Stats bổ sung rằng GPT-5.5 dẫn CyberGym, dù nguồn được trích không hiển thị điểm phần trăm trong snippet [
6].
Claude Opus 4.7 vẫn có các vùng đáng chú ý. Trong bảng Vellum, Claude dẫn MCP Atlas với 79,1% so với 75,3% của GPT-5.5 [5]. LLM Stats xếp Claude dẫn FinanceAgent v1.1, còn DataCamp ghi Claude Opus 4.7 đạt 64,4% trên FinanceAgent v1.1 [
3][
6]. Anthropic cũng mô tả Claude Opus 4.7 là bản Opus mới mạnh hơn ở coding, agents, vision và tác vụ nhiều bước [
28].
Vì vậy, nếu workflow của bạn thiên về shell, browsing hoặc OS-style automation, GPT-5.5 có lợi thế ban đầu. Nếu workload thiên về orchestration có cấu trúc, MCP hoặc tác vụ tài chính, Claude Opus 4.7 đáng được benchmark trực tiếp thay vì loại sớm.
Ở GPQA Diamond, Claude Opus 4.7 đạt 94,2% và GPT-5.5 đạt 93,6% trong các bảng đối chiếu [5][
11]. Đây là lợi thế cho Claude, nhưng mức chênh 0,6 điểm phần trăm quá nhỏ để quyết định mọi use case reasoning. Với bài toán scientific QA, phân tích chuyên môn hoặc reasoning dài, lựa chọn hợp lý hơn là chạy cả hai model trên bộ câu hỏi thật của bạn.
Humanity’s Last Exam là phần nên đọc thận trọng nhất. LLM Stats nói Claude Opus 4.7 dẫn cả HLE không dùng tools và HLE có tools [6]. Mashable lại ghi GPT-5.5 đạt 40,6% so với 31,2% của Opus 4.7 ở HLE không tools, trong khi Claude đạt 54,7% so với 52,2% của GPT-5.5 ở HLE có tools [
11]. o-mega đưa thêm một bộ số HLE khác [
9]. Khi các nguồn không thống nhất, HLE không nên là tie-breaker trừ khi bạn tự chạy lại với cùng setup.
Chọn GPT-5.5 để thử trước nếu bạn ưu tiên agent chạy terminal, shell workflow, test loop hoặc automation nhiều bước, vì Terminal-Bench 2.0 nghiêng mạnh về GPT-5.5 [5][
11][
23]. GPT-5.5 cũng là lựa chọn đáng thử sớm cho browsing/search-style workflow, GDPval, OSWorld-Verified và FrontierMath T1–3 theo bảng Vellum [
5][
11].
Chọn Claude Opus 4.7 để thử trước nếu bạn ưu tiên sửa issue phần mềm kiểu SWE-Bench Pro, nơi Claude dẫn GPT-5.5 [5][
11]. Claude cũng nên được đưa vào shortlist cho GPQA-style scientific reasoning, MCP/tool orchestration và finance-agent workflow, dựa trên GPQA Diamond, MCP Atlas, FinanceAgent v1.1 và nhận định tổng hợp của LLM Stats [
3][
5][
6][
11].
Cách an toàn nhất là không chọn chỉ từ leaderboard. Hãy chia workload của bạn thành bốn nhóm: coding trong repo, terminal/agent automation, reasoning không tool và workflow có tool. Với mỗi nhóm, chạy cùng prompt, cùng quyền truy cập tool, cùng sampling, cùng reasoning effort và cùng tiêu chí chấm. Benchmark công khai giúp biết nên bắt đầu từ đâu; eval nội bộ mới cho biết model nào đáng đưa vào sản phẩm, nhất là khi một số điểm công khai có thể là tự báo cáo hoặc chưa được xác minh độc lập [8].
01 Which is better, GPT-5.5 or Claude Opus 4.7?On the 10 benchmarks both providers report,Opus 4.7 leads on 6 (GPQA, HLE no tools, HLE with tools, SWE-Bench Pro, MCP Atlas, FinanceAgent v1.1) andGPT-5.5 leads on 4 (Terminal-Bench 2.0, BrowseComp, OSWorld-Ve...
Show 18 more Self-reported by the model provider. Score may not be independently verified. Similar Models How GPT-5.5 compares to models with the closest performance across key benchmarks. GPT-5.5GPT-5.4Gemini 3.1 ProClaude Opus 4.7GPT-5.2 ProClaude Mythos...
Reasoning, Math, and Science Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- MMLU 92.4% - - GPQA Diamond 93.6% 92.8% 94.2% 94.3% ARC-AGI-2 85.0% 73.3% 77.1% ARC-AGI-1 95.0% 93.7% - FrontierMath T1-3 51.7% 52.4% 47.6% 43.8% F...
Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...
Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...
Image 15: logo In our evals, we saw a double-digit jump in accuracy of tool calls and planning in our core orchestrator agents. As users leverage Hebbia to plan and execute on use cases like retrieval, slide creation, or document generation, Claude Opus 4.7...