Ở benchmark GDPval — mô phỏng công việc tri thức trong hơn 40 ngành như luật, tài chính và quản lý sản phẩm — GPT‑5.5 đạt kết quả ngang hoặc tốt hơn chuyên gia trong khoảng 84.9% trường hợp.
Những kết quả này cho thấy GPT‑5.5 đặc biệt mạnh ở agent workflow dài và tự động hóa công việc phức tạp.
Claude Opus 4.7 của Anthropic thường được xem là một trong những mô hình mạnh nhất cho software engineering thực tế.
Benchmark nổi bật:
SWE‑bench là bài test đặc biệt quan trọng vì nó yêu cầu mô hình sửa bug thật trong repository mã nguồn mở.
Việc Opus 4.7 giải quyết 87.6% nhiệm vụ SWE‑bench Verified là một bước tiến lớn so với phiên bản trước và đưa nó vào nhóm đầu bảng cho các coding agent.
Dù điểm Terminal‑Bench thấp hơn GPT‑5.5, các benchmark tập trung vào lập trình của Opus vẫn nằm trong nhóm cao nhất hiện nay.
Gemini 3.5 Flash của Google là trường hợp khá đặc biệt.
Thay vì được định vị là flagship, nó được thiết kế là mô hình nhanh và chi phí thấp — nhưng vẫn đạt điểm benchmark cạnh tranh.
Các kết quả tiêu biểu:
Google cho biết mô hình này nhanh gấp khoảng 4 lần các mô hình frontier tương đương trong tốc độ sinh token.
Điểm mạnh chính của Gemini 3.5 Flash là tỷ lệ tốc độ / năng lực — gần đạt hiệu năng flagship nhưng độ trễ thấp hơn nhiều, phù hợp triển khai sản phẩm thực tế.
DeepSeek V4 đáng chú ý vì đây là một trong những mô hình open‑weight mạnh nhất được phát hành.
Gia đình V4 gồm hai phiên bản:
Theo báo cáo kỹ thuật của DeepSeek, V4‑Pro ở chế độ reasoning tối đa đạt:
Tuy nhiên, một đánh giá độc lập từ chương trình CAISI của Viện Tiêu chuẩn và Công nghệ Quốc gia Hoa Kỳ (NIST) cho thấy năng lực của DeepSeek V4 vẫn chậm hơn frontier khoảng tám tháng.
Điều này cho thấy khoảng cách giữa benchmark tự báo cáo và đánh giá độc lập vẫn tồn tại.
Grok 4.3 của xAI là bước tiến lớn so với các phiên bản Grok trước đó, đặc biệt trong các benchmark liên quan đến agent.
Các số liệu được công bố gồm:
Điểm GDPval‑AA tăng hơn 300 Elo so với Grok trước đó, cho thấy cải thiện đáng kể trong tự động hóa tác vụ thực tế.
Tuy vậy, nhiều phân tích độc lập vẫn xếp Grok 4.3 dưới các hệ thống mới nhất của OpenAI và Anthropic về năng lực tổng thể.
Nếu tổng hợp các benchmark hiện có, bức tranh chung khá rõ ràng:
Điều quan trọng là đây không phải bảng xếp hạng tuyệt đối, bởi mỗi hãng nhấn mạnh các benchmark khác nhau.
Có nhiều lý do khiến việc so sánh mô hình AI hiện đại trở nên khó khăn:
Vì vậy, phải mất vài tháng thử nghiệm độc lập thì bức tranh thực sự mới rõ ràng.
Các benchmark mới nhất cho thấy không có mô hình nào thống trị mọi lĩnh vực.
Thay vào đó, hệ sinh thái frontier AI năm 2026 đang phân hóa:
Khi các benchmark độc lập ngày càng nhiều và chuẩn hóa hơn, bảng xếp hạng thực sự của các hệ thống này có thể tiếp tục thay đổi trong thời gian tới.
Comments
0 comments