Ở bài kiểm tra Terminal-Bench 2.1, vốn đánh giá khả năng lập trình tác nhân trên dòng lệnh, Opus 4.8 đạt 74.6%. Mô hình này vẫn xếp sau GPT-5.5 với 78.2% nhưng đã có một cú nhảy vọt đáng kể so với mức 66.1% của Opus 4.7 trong cùng bài đánh giá . Với khả năng sử dụng máy tính tác nhân, Opus 4.8 đạt 83.4% trên OSWorld-Verified, nhỉnh hơn một chút so với Opus 4.7 (82.8%) và GPT-5.5 (78.7%)
.
Đối với các tác vụ tri thức được đo lường bởi GDPval-AA, Opus 4.8 đạt mức Elo 1890, bỏ xa GPT-5.5 (1769) và tạo khoảng cách lớn với Gemini (1314) . Trong kỳ thi Humanity's Last Exam về suy luận đa ngành, mô hình này ghi được 57.9% khi dùng công cụ – kết quả truy cập chung cao nhất của Anthropic – so với 49.8% khi không dùng công cụ
.
Anthropic định vị Opus 4.8 là một mô hình có độ trung thực cao hơn một cách ý nghĩa. Trong các đánh giá nội bộ của công ty, Opus 4.8 ít có khả năng để lọt các lỗi lập trình mà không nhận xét trong các bài tự đánh giá của mình hơn khoảng bốn lần so với Opus 4.7 .
Tỷ lệ hành vi không liên kết – bao gồm lừa dối hoặc hợp tác với các mục đích lạm dụng – thấp hơn đáng kể so với Opus 4.7 và tương đương với Claude Mythos Preview, mô hình được Anthropic coi là có sự liên kết tốt nhất . Điều này rất quan trọng đối với các nhà phát triển dựa vào AI để xem xét hoặc tạo ra code sản phẩm và cần một mô hình biết chỉ ra điểm mù của chính mình thay vì tự tin đưa ra những kết quả có lỗi.
Thay đổi dễ thấy nhất với người dùng là một nút xoay điều khiển mức độ nỗ lực mới, hiện đã có sẵn trên claude.ai và giao diện Cowork . Người dùng có thể chọn mức độ nỗ lực tính toán mà Claude áp dụng cho một phản hồi qua nhiều cấp độ:
Trong Claude Code, Anthropic đã tăng giới hạn tốc độ để phù hợp với lượng token sử dụng cao hơn đi kèm với các mức nỗ lực nâng cao . Điều này cho phép các nhà phát triển có những sự đánh đổi tinh chỉnh hơn giữa độ trễ, chi phí và độ sâu suy luận đối với các tác vụ lập trình và tác nhân phức tạp.
Đối với các nhà phát triển đang giải quyết những vấn đề ở quy mô cực lớn, Anthropic đang triển khai tính năng Luồng công việc động dưới dạng bản xem trước nghiên cứu trong Claude Code dành cho người dùng gói Doanh nghiệp, Nhóm và Max .
Tính năng này cho phép Claude lập kế hoạch cho một nhiệm vụ, sau đó sinh ra và chạy hàng trăm tác nhân phụ song song trong một phiên làm việc duy nhất. Các kết quả đầu ra sẽ được xác minh trước khi báo cáo, giúp hệ thống phù hợp với các cuộc 'đại trùng tu' cơ sở mã lên tới hàng trăm nghìn dòng code .
Mức giá tiêu chuẩn cho Opus 4.8 vẫn giữ nguyên như Opus 4.7: 5 USD cho một triệu token đầu vào và 25 USD cho một triệu token đầu ra . Phí ghi và làm mới bộ nhớ đệm prompt vẫn nhất quán với dòng Opus cao cấp
.
Sự thay đổi đáng kể hơn về giá nằm ở khía cạnh tốc độ. Chế độ Fast Mode cho Opus 4.8 mang lại khả năng tạo token đầu ra nhanh hơn tới 2.5 lần và hiện có giá 10 USD cho một triệu token đầu vào và 50 USD cho một triệu token đầu ra . Mức giá này rẻ hơn ba lần so với chế độ Fast Mode của Opus 4.6 và Opus 4.7, vốn có giá 30 USD / 150 USD
. Anthropic đã ngừng cung cấp chế độ Fast Mode cho Opus 4.6 và đang hướng người dùng chuyển sang chế độ Fast Mode cho Opus 4.8 hoặc 4.7
.
Để sử dụng chế độ Fast Mode qua API, các nhà phát triển cần đặt speed: "fast"claude-opus-4-8 và bao gồm tiêu đề beta fast-mode-2026-02-01 . Tính năng này được định giá như một hệ số nhân trên mức giá tiêu chuẩn trong toàn bộ cửa sổ ngữ cảnh đầu vào 200k+ token và có thể kết hợp với hệ số nhân của bộ nhớ đệm prompt và lưu trữ dữ liệu
.
Mô hình này hiện đã có sẵn thông qua Claude API với bí danh claude-opus-4-8 và được hỗ trợ trong các cấu hình Fast Mode, bộ nhớ đệm prompt và xử lý hàng loạt . Tài liệu API của Anthropic và ghi chú phát hành nền tảng xác nhận rằng khách hàng thuộc các gói Claude Pro, Max, Team và Enterprise có thể truy cập Opus 4.8 ngay lập tức
.
Cùng với Opus 4.8, Anthropic đã làm rõ hơn về lộ trình cung cấp rộng rãi các mô hình dòng Mythos. Kể từ ngày 7 tháng 4 năm 2026, Claude Mythos Preview đã bị giới hạn cho khoảng 50 đối tác an ninh mạng phòng thủ thông qua Dự án Glasswing . Năng lực tấn công mạng của mô hình này mạnh đến mức Anthropic đã từ chối phát hành công khai
.
Vào ngày 28 tháng 5, Anthropic đã cập nhật thông điệp công khai, cho biết họ có kế hoạch phát hành các mô hình dòng Mythos cho tất cả khách hàng trong vài tuần tới . Đây là mốc thời gian rõ ràng nhất mà công ty đưa ra kể từ khi khởi động Glasswing. Họ cũng tiết lộ vòng gọi vốn Series H trị giá 65 tỷ USD tại mức định giá hậu đầu tư 965 tỷ USD, củng cố thêm thông tin rằng lộ trình thương mại cho các mô hình dòng Mythos đang chuyển từ giai đoạn xem trước nghiên cứu sang khả năng sẵn sàng rộng rãi
.
Claude Opus 4.8 là một bản nâng cấp mô hình tăng dần, tạo ra ba khác biệt thực tế cho những người xây dựng:
Đối với các đội nhóm đang cân nhắc có nên chuyển đổi hay không, tín hiệu mạnh mẽ nhất là hãy tự mình kiểm tra Opus 4.8 trực tiếp trên các tác vụ lập trình, tác nhân và tri thức của bạn – đặc biệt là đối với các phiên làm việc dài hạn, nơi mà khả năng tự sửa sai, gắn cờ sự không chắc chắn và điều phối tác nhân phụ song song là quan trọng nhất.
Comments
0 comments