| 80.2 |
| SWE-Bench Pro (Bài toán nâng cao) | 60.6 | 55.4 | 58.6 |
| SWE-Bench Đa ngôn ngữ | 78.3 | — | 76.7 |
| Terminal-Bench 2.0 (Xử lý dòng lệnh thực tế) | 69.7 | 67.9 | 66.7 |
| LiveCodeBench (Pass@1) (Giải bài code mới) | — | 93.5 | 89.6 |
| Codeforces Rating (Thi đấu lập trình) | — | 3206 | — |
| MCP-Mark (Điểm tác tử tổng quát) | 60.8 | — | — |
Nhận định: Khoảng cách về điểm số trên SWE-Bench Verified là cực kỳ mong manh (chỉ từ 80.2 đến 80.6). Tuy nhiên, nếu bạn cần một 'chiến binh' chuyên giải quyết các bài toán lập trình thi đấu hóc búa trên Codeforces, DeepSeek V4 Pro Max là lựa chọn không có đối thủ với mức rating 3206
. Ngược lại, Qwen3.7-Max chứng tỏ sự vượt trội trong các tác vụ thực tiễn hơn ở Terminal-Bench và SWE-Pro
.
Khi bước vào 'đấu trường' của những bài toán logic hàn lâm và thi cử, Qwen3.7-Max cho thấy bản lĩnh của một 'sĩ tử' xuất sắc.
Nhận định: Qwen3.7-Max là một 'quái vật' toán học, dẫn đầu ở hầu hết các bài kiểm tra suy luận thuần túy. Tuy nhiên, Kimi K2.6 lại mở ra một chiều hướng mới: nó cực kỳ xuất sắc khi được phép sử dụng các công cụ bên ngoài (điểm HLE tăng vọt lên 54.0), cho thấy đây là mô hình tối ưu cho các tác vụ nghiên cứu, tìm kiếm chuyên sâu
.
Bảng giá dưới đây được tính trên mỗi 1 triệu token (≈ 750.000 từ) và là yếu tố sống còn cho các ứng dụng thương mại tại Việt Nam.
📝 Lưu ý cực kỳ quan trọng: DeepSeek ban đầu áp dụng chương trình khuyến mãi giảm 75% cho đến hết tháng 5/2026. Tuy nhiên, họ đã quyết định biến mức giá này thành vĩnh viễn!
. Con số $0.87 cho 1 triệu token đầu ra rẻ hơn gấp 8.6 lần so với Qwen3.7-Max và gấp 4.6 lần so với Kimi K2.6. Đây là một lợi thế cạnh tranh 'khủng khiếp'.
Sau khi 'cân đo đong đếm', sự lựa chọn phụ thuộc hoàn toàn vào nhu cầu cụ thể của bạn:
Cuộc đua AI vẫn đang tiếp diễn với tốc độ chóng mặt. Việc liên tục cập nhật và thử nghiệm sẽ là chìa khóa để bạn không bị bỏ lại phía sau.
Cảnh báo từ chuyên gia: Một báo cáo tháng 5/2026 của NIST CAISI đã chỉ ra rằng điểm số tự công bố của DeepSeek V4 Pro có phần 'phóng đại' so với các bài đánh giá nội bộ của họ, cho thấy sức mạnh thực tế có thể chỉ ngang với GPT-5 (ra mắt 8 tháng trước) chứ không phải các mô hình mới nhất
. Điều này không áp dụng cho Qwen hay Kimi trong cùng báo cáo, nhưng là một lưu ý quan trọng trước khi 'xuống tiền'.
Comments
0 comments