Claude Opus 4.7 nên được nhìn như một mô hình nhắm vào suy luận phức tạp, coding agent và các luồng công việc dài, chứ không phải một sản phẩm có thể tóm gọn bằng một con số duy nhất. Trong tài liệu của mình, Anthropic mô tả đây là mô hình khả dụng rộng rãi mạnh nhất của hãng cho suy luận phức tạp và agentic coding [1]. AWS cũng giới thiệu Opus 4.7 như một bản nâng cấp từ Opus 4.6 cho các workflow sản xuất như coding agent, công việc tri thức, hiểu hình ảnh và tác vụ chạy dài [
7].
Con số dễ hút mắt nhất với lập trình viên là 87,6% trên SWE-bench Verified, do AWS dẫn theo dữ liệu từ Anthropic [7]. Đây là điểm đáng chú ý, nhưng không nên đọc tách khỏi các benchmark khác. AWS cũng lưu ý rằng Opus 4.7 có thể cần thay đổi cách prompting và tinh chỉnh harness, tức bộ khung chạy hoặc đánh giá, để khai thác tốt hơn [
7].
Các kết quả chính được báo cáo
| Mảng | Benchmark | Kết quả được báo cáo | Nên hiểu thế nào |
|---|---|---|---|
| Coding và agent | SWE-bench Verified | 87,6% | Chỉ số nổi bật nhất trong các nguồn hiện có để đánh giá khả năng xử lý tác vụ phần mềm của Claude Opus 4.7 [ |
| Coding và agent | SWE-bench Pro | 64,3% | Góc nhìn bổ sung cho các tác vụ phần mềm khó hơn hoặc khác với SWE-bench Verified [ |
| Agent trong terminal | Terminal-Bench 2.0 | 69,4% | Hữu ích khi use case cần mô hình thao tác trong môi trường kiểu terminal hoặc dùng công cụ [ |
| Agent tài chính | Finance Agent v1.1 | 64,4% | Phù hợp hơn để đọc khả năng trong các luồng phân tích hoặc tự động hóa tài chính [ |
| Coding nội bộ | Benchmark nội bộ 93 tác vụ | +13% độ giải quyết so với Opus 4.6 | Một cải thiện tương đối trong bài đánh giá cụ thể, không phải lời hứa mọi dự án đều tăng tương tự [ |
| Research agent nội bộ | Điểm tổng thể | 0,715 | Anthropic xem đây là kết quả mạnh cho công việc nhiều bước trong benchmark research-agent nội bộ [ |
| Research agent nội bộ | General Finance | 0,813 so với 0,767 của Opus 4.6 | Cho thấy cải thiện so với Opus 4.6 trong module tài chính nội bộ của Anthropic [ |
87,6% trên SWE-bench Verified nói gì?
Với các đội đang so sánh mô hình để làm coding agent, SWE-bench Verified là tiêu đề rõ nhất: AWS báo cáo Claude Opus 4.7 đạt 87,6% trên benchmark này [7]. Về mặt thực dụng, con số đó cho thấy trọng tâm của mô hình nằm ở các tác vụ kỹ thuật phần mềm và giải quyết vấn đề trong mã nguồn, phù hợp với cách Anthropic mô tả Opus 4.7 là mô hình mạnh về suy luận phức tạp và agentic coding [
1].
Nhưng 87,6% không nên được hiểu là hiệu năng chung cho mọi việc. Nói cách khác: đừng đọc nó thành lời hứa rằng cứ đưa bất kỳ repo, bug hay yêu cầu nào vào thì mô hình sẽ xử lý được gần 9 trên 10 trường hợp. SWE-bench Verified đo một loại năng lực cụ thể; nó không thay thế cho benchmark về terminal, tài chính, thị giác, công việc dài hơi hay nghiên cứu.
Vì vậy, nếu quyết định mang tính kỹ thuật, nên đặt SWE-bench Verified cạnh ít nhất hai chỉ số khác: SWE-bench Pro và Terminal-Bench 2.0 [6][
7]. Cách đọc này sát thực tế hơn, nhất là khi mô hình không chỉ viết code mà còn phải chạy lệnh, dùng công cụ, đọc ngữ cảnh dài và sửa lỗi qua nhiều bước.
Vì sao có nơi ghi 82,4%, có nơi ghi 87,6%?
Không phải nguồn nào cũng công bố cùng một con số. Một nguồn thứ cấp báo cáo 82,4% trên SWE-bench Verified, trong khi AWS báo cáo 87,6% cho Claude Opus 4.7 [2][
7]. Khác biệt này quan trọng: với benchmark AI, chỉ chép lại một tỷ lệ phần trăm mà không nói nguồn và cấu hình đánh giá rất dễ gây hiểu nhầm.
Cách thận trọng là luôn ghi đủ ba thứ: tên benchmark, điểm số và nguồn công bố. Nếu có thể, cũng nên kiểm tra cách prompt, công cụ đi kèm và harness đánh giá. Chính AWS lưu ý rằng Opus 4.7 có thể cần thay đổi prompting và tinh chỉnh harness để đạt hiệu quả tốt hơn [7].
Nên nhìn benchmark nào theo từng nhu cầu?
Nếu mục tiêu chính là lập trình, hãy bắt đầu từ SWE-bench Verified, nhưng đừng dừng ở đó. SWE-bench Pro và Terminal-Bench 2.0 giúp soi thêm các tình huống mô hình phải xử lý tác vụ phần mềm khó hơn, hoặc phải tương tác với môi trường và công cụ [6][
7].
Nếu mục tiêu là tài chính hoặc nghiên cứu, các dữ liệu nội bộ của Anthropic gần với kiểu workflow đó hơn. Trong benchmark research-agent nội bộ, Opus 4.7 đạt điểm tổng thể 0,715 và đạt 0,813 ở module General Finance, so với 0,767 của Opus 4.6 trong cùng module [8]. Tuy vậy, nên đọc đây là đánh giá nội bộ, không phải xác minh độc lập.
Nếu quan tâm đến workflow doanh nghiệp kéo dài, thông tin công khai từ AWS cho thấy Opus 4.7 được định vị là cải thiện ở tác vụ chạy lâu, làm việc trong bối cảnh mơ hồ và tuân thủ hướng dẫn chính xác hơn [7]. Trong bối cảnh này, benchmark chỉ là điểm khởi đầu. Bài kiểm tra đáng tin nhất vẫn là chạy thử trên prompt, công cụ, dữ liệu và quy trình thật của chính đội ngũ.
Kết luận
Benchmark dễ trích dẫn nhất của Claude Opus 4.7 hiện là 87,6% trên SWE-bench Verified, đặc biệt liên quan đến coding agent [7]. Nhưng cách hiểu đúng cần nhiều lớp hơn: mô hình còn được báo cáo đạt 64,3% trên SWE-bench Pro, 69,4% trên Terminal-Bench 2.0 và 64,4% trên Finance Agent v1.1; Anthropic cũng nhấn mạnh các cải thiện nội bộ trong công việc nhiều bước và tài chính [
7][
8].
Nói gọn: đừng hỏi Claude Opus 4.7 có một benchmark nào duy nhất. Hãy hỏi benchmark nào giống workflow thật của bạn nhất, điểm số đến từ nguồn nào, và cấu hình đánh giá có giống cách bạn sẽ triển khai hay không. Với phát triển phần mềm, SWE-bench Verified là điểm khởi đầu tốt; với agent, terminal, tài chính hoặc research, các kết quả bổ sung có thể quan trọng không kém.




