Trong khi đó, Gemini 3.5 Flash gây chú ý vì hiệu năng gần ngang flagship dù thuộc nhóm suy luận nhanh (fast inference). Trong bảng benchmark do Google công bố:
Với Grok 4.3 và DeepSeek V4, việc xếp hạng khó hơn do khác biệt trong phương pháp đánh giá và mức độ minh bạch dữ liệu.
Lập trình là lĩnh vực dễ thấy sự khác biệt nhất giữa các mô hình.
Claude Opus 4.7 hiện có tín hiệu mạnh nhất trong benchmark coding công khai. Mức 64.3% trên SWE‑Bench Pro cho thấy khả năng xử lý lỗi GitHub thực tế tốt hơn các thế hệ trước.
GPT‑5.5 thấp hơn một chút trên benchmark này với 58.6%, nhưng lại rất mạnh trong các workflow kỹ thuật tổng thể. Ví dụ:
Gemini 3.5 Flash đạt 55.1% trên SWE‑Bench Pro — không cao bằng Opus 4.7 nhưng đáng chú ý với một mô hình thiên về tốc độ.
Với Grok 4.3, các benchmark coding công khai ít chuẩn hóa hơn. Một số số liệu được báo cáo gồm:
Tuy nhiên các bài kiểm tra này đo các năng lực hẹp hơn nên khó so sánh trực tiếp với SWE‑Bench hoặc Terminal‑Bench.
Đối với DeepSeek V4, benchmark coding được xác minh độc lập vẫn còn hạn chế. Một số con số xuất phát từ thử nghiệm nội bộ hoặc rò rỉ và chưa được tái lập bởi cộng đồng nghiên cứu.
Các benchmark hiện đại ngày càng chú trọng khả năng điều phối công cụ và hoàn thành nhiệm vụ nhiều bước.
Google báo cáo rằng Gemini 3.5 Flash dẫn đầu trong một số đánh giá tool‑use, bao gồm:
GPT‑5.5 cũng thể hiện rất mạnh trong các tác vụ tương tự. Benchmark GDPval đo hiệu suất công việc trí tuệ trong nhiều ngành nghề cho thấy GPT‑5.5 đạt 84.9% thắng hoặc hòa so với các mô hình khác.
Claude Opus 4.7 cũng đạt kết quả tốt trong các bài kiểm tra sử dụng máy tính. Điểm 78.0% trên OSWorld‑Verified cho thấy khả năng điều khiển giao diện desktop và tương tác phần mềm khá mạnh.
Benchmark không phản ánh toàn bộ đặc tính triển khai của mô hình.
Grok 4.3 tập trung vào xử lý context rất dài và chi phí thấp. Tài liệu xAI cho biết:
Gemini 3.5 Flash được thiết kế cho suy luận tốc độ cao, thường được mô tả nhanh hơn đáng kể so với nhiều mô hình frontier nhưng vẫn giữ hiệu năng cạnh tranh.
Các mô hình DeepSeek thường tập trung vào triển khai open‑weight hoặc chi phí thấp, giúp doanh nghiệp có thể chạy mô hình trên hạ tầng riêng.
Một đánh giá đáng chú ý đến từ CAISI của Viện Tiêu chuẩn và Công nghệ Quốc gia Hoa Kỳ (NIST).
Theo đánh giá này, DeepSeek V4 là mô hình AI Trung Quốc mạnh nhất được thử nghiệm trên nhiều lĩnh vực như:
CAISI cũng lưu ý rằng kết quả benchmark nội bộ của DeepSeek thường cao hơn so với đo lường độc lập, cho thấy tầm quan trọng của các đánh giá trung lập.
Ngay cả khi có số liệu công khai, việc so sánh các mô hình vẫn gặp nhiều vấn đề:
Vì vậy, bất kỳ bảng xếp hạng tuyệt đối nào cũng cần được hiểu một cách thận trọng.
Từ các benchmark công khai đáng tin cậy nhất hiện nay:
Trong thực tế, mô hình “tốt nhất” phụ thuộc rất nhiều vào workload: coding agents, trợ lý nghiên cứu, phân tích tài liệu dài hoặc suy luận chi phí thấp có thể dẫn đến lựa chọn khác nhau dù benchmark headline tương tự.
Comments
0 comments