Kết luận hữu ích nhất từ các benchmark hiện có là: đừng hỏi mô hình nào “tốt hơn”, hãy hỏi việc của bạn giống benchmark nào hơn. Cách nhìn này cũng trùng với nhận định của LLM Stats: số benchmark không chọn ra một người thắng tuyệt đối, mà chọn ra từng nhóm workload phù hợp [2].
Nhìn chung, GPT-5.5 nổi bật hơn ở các tác vụ kiểu terminal/dòng lệnh, toán khó và nghiên cứu web dạng BrowseComp. Claude Opus 4.7 lại có lợi thế rõ hơn ở các bài software engineering khó và các agent cần điều phối nhiều công cụ/API qua MCP, tức Model Context Protocol [21][
27][
28][
32].
Bảng benchmark nhanh
| Benchmark / mảng đánh giá | GPT-5.5 | Claude Opus 4.7 | Nên hiểu thế nào |
|---|---|---|---|
| SWE-Bench Verified | 88,7% | 87,6% | Gần như hòa; GPT-5.5 hơn 1,1 điểm nhưng chưa đủ để xem là áp đảo [ |
| SWE-Bench Pro | 58,6% | 64,3% | Claude dẫn rõ hơn ở các tác vụ software engineering khó [ |
| Terminal-Bench 2.0 | 82,7% | 69,4% được báo cáo | GPT-5.5 mạnh hơn ở tác vụ chạy lệnh/terminal, nhưng số công khai của Opus không đồng nhất giữa các nguồn [ |
| MCP Atlas | 75,3% | 77,3–79,1% | Claude nhỉnh hơn ở gọi công cụ và điều phối tool/API [ |
| FrontierMath Tier 1–3 | 51,7% | 43,8% | GPT-5.5 có lợi thế ở reasoning thiên về toán [ |
| FrontierMath Tier 4 | 35,4% | 22,9% | Ở tier toán khó hơn, GPT-5.5 vẫn dẫn [ |
| GPQA Diamond | 93,6% | 94,2% | Gần như hòa; Claude nhỉnh nhẹ [ |
| Humanity’s Last Exam, không dùng tool | 41,4% | 46,9% | Claude dẫn ở dạng kiểm tra kiến thức/reasoning rộng [ |
| Humanity’s Last Exam, có tool | 52,2% | 54,7% | Claude vẫn nhỉnh hơn khi được dùng công cụ [ |
| BrowseComp | 84,4% | 79,3% | GPT-5.5 được báo cáo mạnh hơn ở nghiên cứu web kiểu BrowseComp [ |
Có hai dòng cần đọc kỹ hơn. Với Terminal-Bench 2.0, LLM Stats và một số tổng hợp nêu Claude Opus 4.7 ở mức 69,4%, trong khi một so sánh khác chỉ đưa số 82,7% của GPT-5.5 mà không có số công khai của Opus [1][
18][
27]. Với MCP Atlas, snapshot công khai của BenchLM ghi Claude Opus 4.7 đạt 77,3% và GPT-5.5 đạt 75,3%, còn một số báo cáo khác trích Claude ở mức 79,1% [
21][
27][
32]. Dù vậy, hướng chung vẫn khá ổn định: GPT-5.5 mạnh hơn ở terminal-style execution; Claude Opus 4.7 mạnh hơn ở MCP/tool orchestration.
Coding: đừng chỉ nhìn SWE-Bench Verified
SWE-Bench kiểm tra khả năng của mô hình trong việc xử lý issue GitHub thực, còn bản Pro được mô tả là biến thể khó hơn với các vấn đề phức tạp hơn [17]. Trên SWE-Bench Verified, GPT-5.5 đạt 88,7% và Claude Opus 4.7 đạt 87,6%, nên có thể xem đây là thế gần hòa [
1][
18].
Tín hiệu đáng chú ý hơn đến từ SWE-Bench Pro. Ở benchmark này, Claude Opus 4.7 đạt 64,3%, còn GPT-5.5 đạt 58,6% — chênh 5,7 điểm nghiêng về Claude [32]. Độ khó của bộ Pro cũng cao hơn: một tổng quan cho biết SWE-Bench Verified có 500 task trên 12 repository Python, còn SWE-Bench Pro có 1.865 task trên 41 repository, gồm Python, Go, TypeScript và JavaScript; số file trung bình cần sửa cũng tăng từ khoảng 1 lên 4,1 [
22].
Vì vậy, nếu việc của bạn là sửa lỗi nhiều file, xử lý pull request, refactor codebase lớn hoặc xây coding agent cho môi trường production, Claude Opus 4.7 là ứng viên nên thử trước. So sánh của MindStudio cũng nhận xét Opus 4.7 mạnh hơn ở các tác vụ cần reasoning kiến trúc rộng trên codebase lớn [3].
Agent và tool: GPT-5.5 hợp terminal, Claude hợp điều phối
Với workflow nặng thao tác dòng lệnh — ví dụ agent chạy lệnh, đọc log, sửa file, lặp lại test — GPT-5.5 có lợi thế rõ. Terminal-Bench 2.0 được báo cáo ở mức 82,7% cho GPT-5.5 và 69,4% cho Claude Opus 4.7 [18][
27]. Tuy nhiên, do một số so sánh công khai không nêu số của Opus, nên tốt hơn là xem kết quả này như tín hiệu định hướng thay vì “chân lý leaderboard” tuyệt đối [
1].
Ngược lại, nếu agent của bạn phải gọi nhiều API, dịch vụ và công cụ theo chuỗi, Claude Opus 4.7 có lợi thế hơn. MCP Atlas là benchmark cho khả năng gọi công cụ qua Model Context Protocol và các công cụ bên ngoài [21]. Snapshot công khai của BenchLM ghi Claude Opus 4.7 đạt 77,3%, cao hơn GPT-5.5 ở 75,3% [
21]. Một số báo cáo khác nêu cùng so sánh ở mức 79,1% so với 75,3% [
27][
32].
Nói ngắn gọn: agent sống trong terminal thì ưu tiên thử GPT-5.5; agent phải điều phối nhiều tool/API thì ưu tiên thử Claude Opus 4.7.
Reasoning và nghiên cứu: toán, bài thi rộng và web search cho tín hiệu khác nhau
Không nên gom mọi thứ vào một nhãn “reasoning”. Trong bảng của OpenAI, GPT-5.5 đạt 51,7% trên FrontierMath Tier 1–3, so với 43,8% của Claude Opus 4.7; ở FrontierMath Tier 4, GPT-5.5 đạt 35,4%, còn Claude ở 22,9% [28]. Với workload thiên về toán và suy luận định lượng khó, GPT-5.5 có lợi thế rõ.
Nhưng GPQA Diamond và Humanity’s Last Exam lại cho tín hiệu khác. Trên GPQA Diamond, hai mô hình gần như ngang nhau: GPT-5.5 đạt 93,6%, Claude Opus 4.7 đạt 94,2% [28]. Ở Humanity’s Last Exam, Claude được báo cáo dẫn cả khi không dùng tool — 46,9% so với 41,4% của GPT-5.5 — và khi có tool — 54,7% so với 52,2% [
28].
Với nghiên cứu web kiểu BrowseComp, GPT-5.5 lại nhỉnh hơn: điểm được báo cáo là 84,4%, trong khi Claude Opus 4.7 ở mức 79,3% [5][
27]. Nếu hệ thống của bạn cần duyệt web, tổng hợp thông tin và kiểm chứng nhiều nguồn theo kiểu BrowseComp, GPT-5.5 là điểm khởi đầu đáng thử.
Nên chọn mô hình nào?
Chọn GPT-5.5 nếu
- Workflow của bạn xoay quanh terminal execution, shell automation, agent dùng CLI hoặc công việc máy tính theo nhiều bước; các so sánh Terminal-Bench 2.0 cho thấy GPT-5.5 dẫn [
18][
27].
- Bài toán của bạn thiên về reasoning toán học; GPT-5.5 dẫn ở cả FrontierMath Tier 1–3 và Tier 4 [
28].
- Bạn cần nghiên cứu web hoặc phân tích dạng BrowseComp; GPT-5.5 được báo cáo đạt 84,4%, cao hơn 79,3% của Claude Opus 4.7 [
5][
27].
Chọn Claude Opus 4.7 nếu
- Trọng tâm của bạn là sửa codebase phức tạp, bug nhiều file hoặc tác vụ kỹ thuật giống SWE-Bench Pro; Claude dẫn 64,3% so với 58,6% của GPT-5.5 [
32].
- Bạn xây agent cần MCP, API hoặc tool orchestration; các snapshot MCP Atlas cho thấy Claude Opus 4.7 nhỉnh hơn GPT-5.5 [
21][
27][
32].
- Workflow của bạn phụ thuộc vào reasoning kiến trúc trên codebase lớn; MindStudio mô tả Opus 4.7 mạnh ở kiểu reasoning này [
3].
Đọc benchmark phải có “bộ lọc”
Benchmark công khai rất hữu ích, nhưng không nên dùng như quyết định triển khai cuối cùng. Trong ghi chú phát hành Claude Opus 4.7, Anthropic có nhắc tới thay đổi harness, triển khai nội bộ và cập nhật phương pháp đánh giá; một số điểm số vì vậy không thể so sánh trực tiếp với leaderboard công khai [19]. Với GPT-5.5, một tổng quan hướng tới builder cũng lưu ý rằng một số điểm benchmark là số do OpenAI báo cáo và chưa có nhiều tái lập độc lập từ bên thứ ba [
31].
Cách an toàn hơn là chạy một internal eval nhỏ: lấy ticket gần đây, repository thật, tool chain thật, prompt thật và tiêu chí pass/fail rõ ràng của nhóm bạn. Leaderboard cho hướng đi; quyết định cuối nên dựa vào workload, độ trễ chấp nhận được, hệ công cụ đang dùng và chi phí khi mô hình sai.
Kết luận
Nếu cần một lựa chọn khởi đầu cho automation tổng quát, thao tác terminal, reasoning thiên về toán và nghiên cứu web kiểu BrowseComp, GPT-5.5 đang là ứng viên sáng hơn [27][
28]. Nếu kết quả quan trọng nhất là coding khó, coding agent production hoặc workflow điều phối nhiều công cụ, Claude Opus 4.7 đáng được ưu tiên thử trước [
21][
32].
Tóm lại: GPT-5.5 mạnh ở thực thi rộng, terminal và toán; Claude Opus 4.7 mạnh ở software engineering khó và agent dùng nhiều tool.




