Claude Mythos Preview thường được gắn với một con số rất bắt mắt: 93,9% trên SWE-bench. Với người làm phần mềm, đây là dữ liệu đáng chú ý. Nhưng để hiểu đúng, cần nhớ rằng SWE-bench đo một nhóm năng lực cụ thể liên quan đến mã nguồn, không phải toàn bộ năng lực của một mô hình AI [1][
2].
93,9% trên SWE-bench nói lên điều gì?
Kết quả trung tâm được báo cáo cho Claude Mythos Preview là 93,9% trên SWE-bench [1][
2]. SWE-bench là benchmark dùng để đánh giá các tác vụ kỹ nghệ phần mềm, đặc biệt những việc giống với sửa lỗi, đọc kho mã, chỉnh sửa mã và kiểm tra kết quả trong một quy trình phát triển phần mềm [
1].
Vì vậy, con số này hữu ích nhất khi bạn muốn hình dung Mythos Preview có thể mạnh đến đâu trong các kịch bản như: hỗ trợ sửa bug, làm việc trên repository, đề xuất thay đổi mã, hoặc vận hành như một tác nhân lập trình.
Điểm cần thận trọng nằm ở điều kiện đánh giá. Các điểm SWE-bench cao thường xuất hiện khi mô hình hoạt động như một tác nhân AI: có thể đọc tệp, chạy mã, xem kết quả kiểm thử rồi lặp lại cách giải [1]. Nói cách khác, 93,9% không chỉ phản ánh “trí thông minh” của riêng mô hình, mà còn phản ánh cả môi trường công cụ và cách bài kiểm tra được thiết lập.
93,9% không có nghĩa là gì?
Không nên xem 93,9% là điểm tổng quát của Claude Mythos Preview. Một benchmark phần mềm không tự động đo được mọi thứ: suy luận tổng quát, độ an toàn, chi phí vận hành, độ sẵn có, hay chất lượng ở các tác vụ không liên quan đến viết và sửa mã [1].
Cách đọc hợp lý là: so sánh trong cùng một sân chơi. Nếu một mô hình được dùng theo kiểu tác nhân, có quyền truy cập tệp, chạy kiểm thử và thử nhiều vòng, còn mô hình khác chỉ trả lời một lượt không có công cụ, thì việc đặt hai điểm số cạnh nhau có thể gây hiểu nhầm [1].
Các benchmark được nhắc đến với Claude Mythos Preview
| Mảng đánh giá | Kết quả được báo cáo | Nên hiểu thế nào |
|---|---|---|
| Phần mềm / SWE-bench | 93,9% | Đây là con số rõ nhất khi nói về tác vụ lập trình và tác nhân xử lý mã [ |
| An ninh mạng | 83,1% so với 66,6% của Claude Opus 4.6 | Một so sánh được nguồn thứ cấp báo cáo trong nhóm benchmark năng lực an ninh mạng; không đo cùng thứ với SWE-bench [ |
| Cybench | 100% | Một nguồn thứ cấp nêu kết quả này cho benchmark thử thách an ninh mạng; không nên xem là đánh giá tổng quát của mô hình [ |
| Nhóm benchmark rộng hơn | Dẫn đầu 17/18 benchmark được đo | Đây là tuyên bố tổng hợp từ một báo cáo về dữ liệu của Anthropic; muốn xếp hạng tổng thể vẫn cần xem từng benchmark cụ thể [ |
Đừng trộn lẫn phần mềm và an ninh mạng
Các chỉ số an ninh mạng của Claude Mythos Preview thuộc một nhóm khác. Một nguồn báo cáo Mythos Preview đạt 83,1% trong các benchmark năng lực an ninh mạng, so với 66,6% của Claude Opus 4.6 [3]. Một nguồn khác nói Mythos đạt 100% trên Cybench, được mô tả là benchmark gồm các thử thách an ninh mạng [
5].
Các tài liệu từ Anthropic được nêu trong nguồn ở đây cũng đi theo hướng đó: Anthropic Red Team công bố đánh giá năng lực an ninh mạng của Claude Mythos Preview, còn Project Glasswing đề cập đến việc dùng mô hình để nhận diện lỗ hổng và khai thác trong phần mềm [13][
24]. Những thông tin này rất đáng quan tâm với đội ngũ bảo mật, nhưng không nên gộp chung với SWE-bench như thể tất cả chỉ là một điểm số duy nhất.
Dùng con số này thế nào trong đánh giá thực tế?
Nếu nhu cầu của bạn là một tác nhân làm việc trên repository, sửa mã, chạy test và lặp lại nhiều vòng, thì 93,9% trên SWE-bench là điểm khởi đầu quan trọng nhất để tham khảo [1][
2].
Nếu nhu cầu là phân tích lỗ hổng, rà soát bảo mật hoặc nghiên cứu khai thác, nên nhìn sang các chỉ số và tài liệu an ninh mạng thay vì lấy SWE-bench làm thước đo chính [3][
5][
13][
24].
Kết luận ngắn gọn: benchmark được nhắc nhiều nhất của Claude Mythos Preview là SWE-bench, với kết quả 93,9% [1][
2]. Cách đọc chặt chẽ hơn là: đây là tín hiệu rất mạnh cho tác vụ phần mềm trong một điều kiện đánh giá cụ thể, chứ không phải bằng chứng tự động rằng mô hình vượt trội ở mọi lĩnh vực.




