Nếu chỉ hỏi “Claude Opus 4.7 có mạnh không?”, câu trả lời ngắn là: có, rất mạnh. Nhưng với AI hiện nay, “mạnh” phải gắn với loại việc cụ thể. Bằng chứng công khai cho thấy Opus 4.7 là mẫu Claude mạnh nhất đang được Anthropic cung cấp rộng rãi, đặc biệt sáng ở coding agent, xử lý ngữ cảnh dài, tác vụ kỹ thuật phức tạp và đầu vào hình ảnh độ phân giải cao hơn.[5][
2][
11][
12]
Kết luận nhanh
Anthropic và tài liệu model card trên AWS Bedrock mô tả Claude Opus 4.7 là mẫu Claude có năng lực nhất trong nhóm được cung cấp rộng rãi của Anthropic.[5][
2] Các thông số đáng chú ý gồm cửa sổ ngữ cảnh 1 triệu token, đầu ra tối đa 128.000 token, adaptive thinking và hỗ trợ reasoning.[
5][
2]
Điều đó khiến Opus 4.7 trở thành lựa chọn đáng cân nhắc cho các workload như kho mã lớn, tài liệu kỹ thuật dài, phân tích nhiều bước, hoặc quy trình agent cần giữ mạch ngữ cảnh trong thời gian dài.[5][
2] Câu chuyện benchmark công khai mạnh nhất cũng đi theo hướng này: Vals AI xếp Opus 4.7 hạng nhất trên một số bảng liên quan đến coding và agent.[
12]
Nhưng cần nói rõ: dữ liệu hiện có không đủ để kết luận Opus 4.7 là model tốt nhất cho mọi việc. Vals AI xếp Opus 4.7 dưới vị trí số 1 ở một số benchmark, và chính tài liệu ra mắt của Anthropic nói Claude Mythos Preview có năng lực rộng hơn Opus 4.7.[11][
12]
Những thông số thực sự đáng chú ý
Năng lực thô quan trọng nhất của Opus 4.7 là quy mô ngữ cảnh. Anthropic và AWS ghi nhận model này hỗ trợ cửa sổ ngữ cảnh 1 triệu token và giới hạn đầu ra tối đa 128.000 token.[5][
2] Những con số này có ý nghĩa khi model phải đọc, giữ và phản hồi trên lượng đầu vào rất lớn: nhiều file mã nguồn, báo cáo dài, tác vụ kỹ thuật nhiều bước hoặc nhật ký chi tiết của agent.[
5][
2]
Tuy vậy, các nhóm chuyển từ Claude đời trước sang Opus 4.7 nên kiểm tra lại ngân sách token. Anthropic cho biết Opus 4.7 dùng tokenizer mới, có thể tính khoảng 1x đến 1,35x số token so với các model trước, tùy nội dung.[5] Nói cách khác, một prompt hoặc workflow từng nằm thoải mái trong giới hạn của model cũ vẫn nên được đếm lại token khi chạy trên Opus 4.7.[
5]
Mảng mạnh nhất: lập trình và agent
Anthropic định vị Opus 4.7 là bước cải thiện đáng kể so với Opus 4.6 trong kỹ thuật phần mềm nâng cao và các tác vụ phức tạp, chạy dài.[11] Tài liệu ra mắt nhấn mạnh khả năng làm theo chỉ dẫn tốt hơn, tự kiểm chứng tốt hơn và ổn định hơn trong các bài toán coding khó.[
11]
Con số nâng cấp rõ nhất trong tài liệu công khai của Anthropic là kết quả do khách hàng báo cáo: Opus 4.7 cải thiện 13% so với Opus 4.6 trên benchmark coding gồm 93 tác vụ, trong đó có 4 tác vụ mà Opus 4.6 và Sonnet 4.6 không giải được.[11] Đây là bằng chứng đáng chú ý, nhưng nên được hiểu là dữ liệu trong tài liệu ra mắt, không phải một cuộc kiểm toán độc lập quy mô rộng.[
11]
Dữ liệu bên ngoài cũng ủng hộ hướng nhìn “mạnh cho coding agent”. Vals AI xếp Claude Opus 4.7 hạng 1/40 trên Vals Index, 1/41 trên SWE-bench, 1/52 trên Terminal-Bench 2.0 và 1/26 trên Vibe Code Bench.[12] Ghép lại, các vị trí này cho thấy Opus 4.7 đặc biệt cạnh tranh ở tác vụ coding thực tế, thao tác kiểu terminal và quy trình agent tự thực thi nhiều bước.[
12]
Bức tranh benchmark: rất mạnh, nhưng không tuyệt đối
Cũng chính trang Vals AI cho thấy vì sao nên giữ kết luận ở mức thận trọng. Opus 4.7 được xếp 7/96 trên AIME, 13/103 trên LiveCodeBench và 7/66 trên MMMU Pro.[12] Đây vẫn là các vị trí mạnh, nhưng không phải hạng nhất.[
12]
| Tín hiệu benchmark | Kết quả công khai được nêu | Gợi ý chính |
|---|---|---|
| Vals Index | 1/40 | Kết quả tổng hợp rất mạnh trên chỉ số model của Vals.[ |
| SWE-bench | 1/41 | Hiệu năng rất mạnh trong benchmark kỹ thuật phần mềm.[ |
| Terminal-Bench 2.0 | 1/52 | Mạnh ở tác vụ agent dựa trên môi trường terminal.[ |
| Vibe Code Bench | 1/26 | Củng cố vị thế ở nhóm coding agent.[ |
| AIME | 7/96 | Cạnh tranh, nhưng không đứng đầu trong bảng của Vals.[ |
| LiveCodeBench | 13/103 | Không phải model hạng nhất trên benchmark này theo Vals.[ |
| MMMU Pro | 7/66 | Mạnh, nhưng chưa dẫn đầu trong bảng của Vals.[ |
Vals AI cũng lưu ý rằng một số lần chạy benchmark có thể dùng nhà cung cấp và tham số khác nhau. Vì vậy, các thứ hạng này hữu ích để định hướng, nhưng không phải phép so sánh hoàn toàn “cùng điều kiện, cùng cấu hình”.[12]
Vision được nâng cấp đáng kể
Opus 4.7 cũng đáng chú ý với các workflow dùng nhiều hình ảnh. Anthropic cho biết đây là model Claude đầu tiên hỗ trợ hình ảnh độ phân giải cao, nâng độ phân giải ảnh tối đa lên 2.576 px / 3,75 MP, so với mức 1.568 px / 1,15 MP trước đó.[5]
Anthropic nói thay đổi này cải thiện khả năng nhận biết chi tiết cấp thấp và định vị trong hình ảnh.[5] Điều đó khiến Opus 4.7 phù hợp hơn các model Claude trước đây khi phải xử lý đầu vào trực quan chi tiết, dù tài liệu công khai chứng minh trực tiếp nhất là phần nâng độ phân giải, chứ chưa đủ để khẳng định độ chính xác sản xuất tăng trong mọi tác vụ vision.[
5]
Opus 4.7 có phải Claude mạnh nhất không?
Không hẳn, nếu bám sát các tài liệu công khai hiện có. Cách nói an toàn nhất là: Claude Opus 4.7 là mẫu Claude mạnh nhất đang được Anthropic cung cấp rộng rãi.[5][
2]
Không nên gọi nó là model Claude mạnh nhất của Anthropic ở mọi nghĩa. Tài liệu ra mắt của Anthropic nói Claude Opus 4.7 có năng lực rộng kém hơn Claude Mythos Preview.[11] Khác biệt này quan trọng: Opus 4.7 có thể là model Opus mạnh nhất đang được cung cấp rộng rãi, nhưng vẫn không nhất thiết là model tốt nhất tuyệt đối của Anthropic cho mọi loại tác vụ.[
11]
Khi nào nên chọn Opus 4.7?
Opus 4.7 có vẻ phù hợp nhất với các workload tận dụng đúng điểm mạnh đã được ghi nhận: coding khó, agent chạy nhiều bước, kho mã lớn, tài liệu rất dài và đầu vào hình ảnh độ phân giải cao.[5][
2][
11][
12]
Ngược lại, không nên chọn Opus 4.7 chỉ vì nó nghe như một model “thắng mọi bảng xếp hạng”. Nếu workload của bạn phụ thuộc vào nhóm benchmark mà Vals AI không xếp Opus 4.7 hạng nhất — chẳng hạn AIME, LiveCodeBench hoặc MMMU Pro — cách chắc chắn hơn là tự chạy đánh giá trên bộ tác vụ sát nhu cầu trước khi chuẩn hóa model.[12]
Điểm chốt
Claude Opus 4.7 rất mạnh theo các bằng chứng công khai hiện có. Model này có cửa sổ ngữ cảnh 1 triệu token, hỗ trợ đầu ra tối đa 128.000 token và có tín hiệu benchmark đặc biệt tốt ở coding cũng như quy trình agent.[5][
2][
12]
Câu trả lời thận trọng không phải là “tốt nhất mọi thứ”. Đúng hơn, Opus 4.7 có vẻ là một trong những model được cung cấp rộng rãi mạnh nhất cho coding agent, xử lý ngữ cảnh dài và tác vụ vision đã được nâng cấp, trong khi cách Anthropic định vị model cùng các kết quả benchmark không đồng đều của Vals AI vẫn để ngỏ khả năng model khác làm tốt hơn ở một số lĩnh vực.[11][
12]




