Nhìn vào các benchmark hiện có, câu hỏi thực tế không phải là “mô hình nào thắng tất cả”, mà là “mô hình nào hợp với việc của bạn”. Bức tranh hiện tại chia khá rõ thành bốn nhóm: Claude Opus 4.7 khi chất lượng và khả năng bắt lỗi quan trọng hơn hóa đơn token; GPT-5.5 khi cần tác vụ terminal, agent và sự liền mạch với ChatGPT/Codex; Kimi K2.6 khi muốn coding cạnh tranh với chi phí thấp; và DeepSeek V4 khi cần gọi API nhiều, ngữ cảnh dài và giá dễ chịu hơn [3][
4][
7][
16].
Tuy vậy, nên đọc các con số như tín hiệu tham khảo, không phải bảng xếp hạng tuyệt đối. Một số benchmark dùng công cụ, một số không; có nơi dùng chế độ “high effort”, “max effort” hoặc “thinking”; ngoài ra các biến thể như DeepSeek V4-Pro, V4-Pro-Max và V4 Flash không nên bị gộp làm một [3][
6][
14][
16].
Kết luận nhanh
| Nếu ưu tiên của bạn là... | Nên thử trước | Vì sao |
|---|---|---|
| Chất lượng cao nhất trong tác vụ khó | Claude Opus 4.7 | Dẫn đầu các số liệu HLE có thể so sánh với GPT-5.5 và DeepSeek; CodeRouter cũng xếp Claude đầu SWE-Bench Pro với 64,3% [ |
| Terminal, agent và hệ sinh thái OpenAI | GPT-5.5 | VentureBeat ghi GPT-5.5 đạt 82,7% trên Terminal-Bench 2.0, cao hơn Claude Opus 4.7 và DeepSeek V4; một hướng dẫn thực dụng cũng xem GPT-5.5 là tuyến tự nhiên nếu nhóm đã làm việc trong ChatGPT/Codex [ |
| Coding tốt nhưng phải kiểm soát chi phí | Kimi K2.6 | CodeRouter ghi Kimi K2.6 đạt 58,6% trên SWE-Bench Pro, ngang GPT-5.5, với giá $0.60/$4.00 cho 1 triệu token đầu vào/đầu ra [ |
| Khối lượng gọi API lớn, ngữ cảnh dài, giá thấp | DeepSeek V4-Pro hoặc V4 Flash | V4-Pro được ghi ở $1.74/$3.48 cho 1 triệu token và 1 triệu token ngữ cảnh; V4 Flash được nêu ở $0.14/$0.28 với 1 triệu token ngữ cảnh, nhưng đây là biến thể khác [ |
| Muốn có lộ trình self-host rõ ràng | Kimi K2.6 | Verdent cho biết trọng số K2.6 có trên Hugging Face và có thể chạy với vLLM, SGLang hoặc KTransformers [ |
Benchmark nói gì?
Humanity’s Last Exam, thường viết tắt là HLE, là benchmark học thuật đa phương thức gồm 2.500 câu hỏi về toán, nhân văn và khoa học tự nhiên, được thiết kế để đo năng lực biên của mô hình với lời giải có thể kiểm chứng [15]. SWE-Bench Pro đánh giá năng lực kỹ thuật phần mềm đa ngôn ngữ trên các issue GitHub thực tế, theo mô tả được DocsBot ghi nhận [
18]. Terminal-Bench 2.0 xuất hiện trong bài của VentureBeat như một phần của nhóm kết quả về agent và software engineering [
3].
| Benchmark | Cách đọc nhanh | Số liệu đáng chú ý |
|---|---|---|
| HLE không dùng công cụ | Claude Opus 4.7 dẫn đầu trong nhóm ba mô hình có mặt ở bảng so sánh của VentureBeat. | Claude Opus 4.7: 46,9%; GPT-5.5: 41,4%; DeepSeek V4: 37,7%. Kimi K2.6 không xuất hiện trong cùng trích đoạn so sánh này [ |
| HLE có công cụ | Claude vẫn nhỉnh hơn GPT-5.5 và DeepSeek trong bảng VentureBeat; Kimi có con số cạnh tranh nhưng đến từ nguồn khác. | Claude Opus 4.7: 54,7%; GPT-5.5: 52,2%; DeepSeek V4: 48,2% trong VentureBeat. CodeRouter ghi Kimi K2.6 đạt 54,0 ở HLE có công cụ, nhưng đây không phải cùng một bảng so sánh [ |
| SWE-Bench Pro | Claude đứng đầu; GPT-5.5 và Kimi K2.6 nằm ở nhóm kế tiếp; DeepSeek V4-Pro thấp hơn nhưng không quá xa. | CodeRouter ghi Claude Opus 4.7 ở 64,3%, GPT-5.5 và Kimi K2.6 cùng 58,6%, DeepSeek V4-Pro khoảng 55%; VentureBeat nêu 55,4% cho DeepSeek [ |
| Terminal-Bench 2.0 | Đây là điểm mạnh rõ nhất của GPT-5.5 trong các số liệu có thể so sánh. | GPT-5.5: 82,7%; Claude Opus 4.7: 69,4%; DeepSeek V4: 67,9%. Trích đoạn hiện có không đưa con số tương ứng cho Kimi K2.6 [ |
Tóm lại: Claude Opus 4.7 có tín hiệu chất lượng tổng quát tốt nhất trong các dữ liệu so sánh được; GPT-5.5 có lợi thế rõ ở Terminal-Bench 2.0; Kimi K2.6 nổi bật về tỷ lệ hiệu năng/giá cho coding; còn DeepSeek V4 đáng chú ý nhất khi chi phí và cửa sổ ngữ cảnh là ưu tiên chính [3][
4][
16].
Giá và ngữ cảnh: benchmark không phải là hóa đơn cuối tháng
Với các workflow agent gọi mô hình nhiều lần, giá token có thể quan trọng hơn vài điểm benchmark. Các nguồn hiện có đặt Kimi K2.6 và DeepSeek V4 vào nhóm chi phí “mạnh tay”, trong khi GPT-5.5 và Claude Opus 4.7 thuộc nhóm cao cấp hơn [4][
16][
19].
| Mô hình hoặc biến thể | Giá được ghi nhận | Ngữ cảnh được ghi nhận | Ghi chú |
|---|---|---|---|
| Claude Opus 4.7 | $5 đầu vào / $25 đầu ra cho 1 triệu token theo Artificial Analysis [ | 1 triệu token ngữ cảnh và tối đa 128 nghìn token đầu ra [ | Artificial Analysis cũng mô tả Claude Opus 4.7 là một trong các mô hình dẫn đầu về trí tuệ, nhưng đắt, chậm và dài lời hơn trung bình [ |
| GPT-5.5 | $5 đầu vào / $30 đầu ra cho 1 triệu token theo CodeRouter [ | 1 triệu token [ | Phù hợp hơn nếu nhóm của bạn đã ở trong ChatGPT/Codex hoặc cần tín hiệu mạnh từ Terminal-Bench [ |
| Kimi K2.6 | $0.60 đầu vào / $4.00 đầu ra cho 1 triệu token theo CodeRouter [ | 256 nghìn token [ | Artificial Analysis cũng ghi 256 nghìn token ngữ cảnh cho Kimi trong so sánh trực tiếp với 1.000 nghìn token của Claude Opus 4.7 [ |
| DeepSeek V4-Pro | $1.74 đầu vào / $3.48 đầu ra cho 1 triệu token theo CodeRouter [ | 1 triệu token [ | Hấp dẫn cho khối lượng lớn với ngữ cảnh dài, dù không dẫn đầu HLE hay SWE-Bench Pro trong các số liệu hiện có [ |
| DeepSeek V4 Flash | $0.14 đầu vào / $0.28 đầu ra cho 1 triệu token theo CodeRouter [ | 1 triệu token [ | Đây là biến thể riêng; không nên tự động lấy benchmark của V4-Pro hoặc V4-Pro-Max áp cho Flash [ |
Có một điểm cần đặc biệt thận trọng với Claude: trang riêng của Artificial Analysis ghi $5/$25 và 1 triệu token ngữ cảnh, trong khi bảng CodeRouter dùng để so Kimi lại ghi các giá trị khác cho Claude [16][
19]. Khi lập ngân sách sản xuất, đừng dùng bảng benchmark làm hợp đồng giá; hãy kiểm tra báo giá và điều khoản mới nhất từ nhà cung cấp của bạn.
Nên chọn mô hình nào theo từng trường hợp?
Chọn Claude Opus 4.7 nếu sai sót rất đắt
Claude Opus 4.7 là lựa chọn nên thử đầu tiên cho review code phức tạp, phân tích tài liệu dài hoặc những việc mà việc phát hiện lỗi ẩn đáng giá hơn tiết kiệm token. Lý do là Claude có lợi thế trên HLE so với GPT-5.5 và DeepSeek, dẫn đầu SWE-Bench Pro theo CodeRouter, đồng thời được Artificial Analysis xếp vào nhóm mô hình dẫn đầu về trí tuệ dù có chi phí, độ trễ và độ dài phản hồi cao [3][
14][
16]. Artificial Analysis cũng ghi Claude Opus 4.7 có 1 triệu token ngữ cảnh và có thể dùng qua Anthropic API, Amazon Bedrock, Microsoft Azure và Google Vertex [
19].
Chọn GPT-5.5 nếu workflow của bạn xoay quanh OpenAI hoặc terminal
GPT-5.5 không vượt Claude Opus 4.7 trên HLE trong dữ liệu của VentureBeat, nhưng lại có kết quả Terminal-Bench 2.0 cao nhất được nêu: 82,7%, so với 69,4% của Claude Opus 4.7 và 67,9% của DeepSeek V4 [3]. Nếu đội ngũ đã quen làm việc trong ChatGPT hoặc Codex, một hướng dẫn thực tế xem GPT-5.5 là tuyến hợp lý để thử trước khi chuyển hẳn sang nhà cung cấp khác [
7].
Chọn Kimi K2.6 nếu muốn coding cạnh tranh với chi phí thấp
Kimi K2.6 là trường hợp rõ nhất về tỷ lệ giá/hiệu năng trong các nguồn hiện có: CodeRouter ghi mô hình này ngang GPT-5.5 trên SWE-Bench Pro với 58,6%, trong khi giá chỉ $0.60/$4.00 cho 1 triệu token đầu vào/đầu ra [16]. Cửa sổ ngữ cảnh 256 nghìn token nhỏ hơn mức 1 triệu token được ghi cho GPT-5.5 và DeepSeek V4-Pro trong cùng bảng, nhưng vẫn có thể đủ nếu workflow code của bạn được cắt nhỏ hợp lý [
16]. Nếu cần tự vận hành mô hình, Verdent cho biết K2.6 có trọng số trên Hugging Face, chạy được với vLLM, SGLang hoặc KTransformers; phần cứng tối thiểu khả thi được nêu là 4× H100 cho biến thể INT4 ở ngữ cảnh rút gọn [
5].
Chọn DeepSeek V4 nếu nút thắt là chi phí và ngữ cảnh dài
DeepSeek V4 Pro/Pro-Max đứng sau Claude Opus 4.7 và GPT-5.5 trên HLE, Terminal-Bench 2.0 và SWE-Bench Pro trong các con số của VentureBeat, nhưng tổ hợp giá thấp và 1 triệu token ngữ cảnh khiến nó đáng cân nhắc cho pipeline khối lượng lớn [3][
16]. Nếu mục tiêu là chi phí tối thiểu, V4 Flash còn được CodeRouter ghi rẻ hơn nữa, nhưng nên xem đây là một biến thể riêng thay vì đồng nhất với V4-Pro [
4][
16].
Trước khi chuyển mô hình, cần nhớ bốn giới hạn
- Không phải mọi con số đều cùng cấu hình. HLE có bản dùng công cụ và không dùng công cụ; các nguồn khác nhau còn dùng những chế độ như high effort, max effort hoặc thinking [
3][
6][
14][
16].
- Biến thể rất quan trọng. GPT-5.5 không phải GPT-5.5 Pro; DeepSeek V4-Pro, V4-Pro-Max và V4 Flash cũng không nên bị trộn lẫn như một mô hình duy nhất [
3][
4][
16].
- Giá và leaderboard lỗi thời rất nhanh. Verdent cảnh báo các con số kiểu này có thể cũ đi nhanh trong bối cảnh mô hình mới ra liên tục [
5].
- Bài test của chính bạn mới là quyết định cuối cùng. Một hướng dẫn thực dụng khuyên chạy cùng một tác vụ trên các tuyến khác nhau, thay vì chọn chỉ vì đợt ra mắt nào ồn ào nhất [
7].
Chốt lại
Nếu chỉ xét chất lượng, hãy bắt đầu với Claude Opus 4.7. Nếu ưu tiên terminal, agent hoặc sự liền mạch với hệ sinh thái OpenAI, hãy thử GPT-5.5. Nếu cần coding đủ mạnh với chi phí thấp, Kimi K2.6 rất đáng đưa vào vòng đánh giá đầu tiên. Còn nếu bài toán là gọi API khối lượng lớn, ngữ cảnh dài và ngân sách chặt, DeepSeek V4-Pro hoặc V4 Flash là tuyến nên kiểm chứng, với điều kiện chấp nhận rằng chúng không dẫn đầu các benchmark khó nhất trong những nguồn hiện có [3][
4][
7][
16][
19].




