Tuy nhiên, cuộc đua song mã không chỉ có một đấu trường. Trên bài kiểm tra lập trình tác tử trên môi trường dòng lệnh Terminal-Bench 2.1, GPT-5.5 mới là người chiến thắng với 78,2%, so với 74,6% của Opus 4.8 và 70,3% của Gemini 3.1 Pro . Mặc dù vậy, đây vẫn là bước nhảy vọt 8,5 điểm cho Opus 4.8 so với con số 66,1% của Opus 4.7.
Các bài kiểm tra nội bộ của Anthropic cũng cho thấy những bước tiến trong các tác vụ công việc tri thức. Mô hình này đạt điểm số 1890 trên thang đánh giá GDPval-AA (dành cho các công việc tri thức có giá trị kinh tế cao), vượt qua mức 1769 của GPT-5.5 và 1314 của Gemini . Nhìn chung, Anthropic tuyên bố Opus 4.8 vượt trội hơn cả hai đối thủ trong một số lĩnh vực then chốt, dù không dẫn đầu trong tất cả các bài kiểm tra
.
Trong một động thái khác biệt so với cuộc đua sức mạnh thuần túy, Anthropic đặc biệt nhấn mạnh vào việc cải thiện độ tin cậy của mô hình. Họ coi "sự trung thực" như một tính năng chủ lực trong lần ra mắt này. Công ty báo cáo rằng Opus 4.8 có khả năng bỏ sót lỗi trong code do chính nó tạo ra ít hơn khoảng bốn lần so với người tiền nhiệm Opus 4.7 .
Phản hồi từ những người dùng thử nghiệm ban đầu nhấn mạnh rằng mô hình này có xu hướng chủ động 'giơ cờ đỏ' khi không chắc chắn và ít có khả năng đưa ra những tuyên bố thiếu căn cứ trong các quy trình làm việc nhiều bước phức tạp hơn hẳn . Nói một cách đơn giản, nếu không biết, nó sẽ nói là "không biết" thay vì "bịa" ra câu trả lời, một yếu tố sống còn cho các ứng dụng doanh nghiệp
.
Bên cạnh mô hình nền tảng, Anthropic cũng tung ra các tính năng mới hướng đến người dùng là các nhà phát triển và người dùng chuyên sâu .
Dynamic Workflows (Luồng công việc động): Có sẵn dưới dạng bản xem trước nghiên cứu trong Claude Code, tính năng này cho phép mô hình lên kế hoạch cho một nhiệm vụ, điều phối nó trên hàng trăm tác nhân phụ (subagents) hoạt động song song, và xác minh kết quả trước khi báo cáo lại. Nó được thiết kế cho các tác vụ quy mô lớn như di chuyển mã nguồn (code migration), kiểm toán và săn lỗi (bug hunting) trong một phiên làm việc duy nhất .
Effort Control (Kiểm soát mức nỗ lực): Giờ đây, người dùng có thể quyết định độ sâu suy luận của mô hình. Tham số "effort" trên giao diện claude.ai và Claude Code cho phép đánh đổi giữa trí thông minh, chi phí token và tốc độ. Tài liệu hướng dẫn khuyên dùng mức xhigh (cực cao) cho các ca lập trình và tác tử khó nhất, và tối thiểu là high (cao) cho các tác vụ nhạy cảm về trí tuệ khác .
Một điểm sáng giá cho các nhà phát triển: giá API cho mục đích sử dụng thông thường vẫn giữ nguyên so với thế hệ trước . Cụ thể:
Giá cho bộ nhớ đệm Prompt (Prompt caching) được đặt ở mức 6,25 USD cho một triệu token ghi vào bộ nhớ đệm 5 phút, 10 USD cho một triệu token ghi vào bộ nhớ đệm 1 giờ, và 0,50 USD cho một triệu token cho các lần truy cập và làm mới bộ nhớ đệm .
Màn ra mắt của Claude Opus 4.8 không chỉ đơn thuần là một cuộc đua tăng điểm số trên các bảng xếp hạng. Đây là một bản nâng cấp có mục tiêu rõ ràng: phục vụ doanh nghiệp và giới lập trình viên. Câu chuyện sản phẩm xoay quanh độ tin cậy cho các tác nhân AI, khả năng xử lý sự không chắc chắn một cách rõ ràng, và trao cho lập trình viên quyền kiểm soát sự đánh đổi giữa chi phí và hiệu năng thông qua các mức nỗ lực tường minh. Trong khi giá cả vẫn được bảo thủ, không tăng cho các cuộc gọi API tiêu chuẩn, thì việc giảm giá mạnh cho chế độ Fast khiến suy luận tốc độ cao trở nên dễ tiếp cận hơn cho các ứng dụng yêu cầu độ trễ thấp.
Comments
0 comments