Claude Mythos Preview không nên được đọc như một mẫu Claude nữa xuất hiện trên leaderboard công khai. Trong tài liệu Claude API, Anthropic liệt kê mô hình này riêng như một research preview cho các quy trình phòng thủ an ninh mạng thuộc Project Glasswing; quyền truy cập chỉ qua lời mời và không có đăng ký tự phục vụ.[13] Vì vậy, các điểm benchmark rất đáng chú ý, nhưng không thể xem như điểm của một sản phẩm AI ai cũng có thể tự kiểm chứng ngay.
Các điểm benchmark đáng chú ý
Trong bộ nguồn hiện có, các con số cụ thể chủ yếu xuất hiện qua nguồn bên thứ ba tổng hợp hoặc trích dẫn dữ liệu từ Anthropic và system card, thay vì một bảng xếp hạng công khai dễ tái chạy.[6][
9][
25][
27]
| Nhóm năng lực | Benchmark | Điểm Claude Mythos được báo cáo | Cách đọc nhanh |
|---|---|---|---|
| Coding | SWE-bench Verified | 93,9%[ | W&B nêu mức so sánh của Claude Opus 4.6 là 80,8%.[ |
| Coding đa ngôn ngữ | SWE-bench Multilingual | 87,3%[ | W&B nêu 77,8% cho Claude Opus 4.6.[ |
| Đa phương thức | Đánh giá đa phương thức nội bộ | 59,0%[ | W&B mô tả đây là đánh giá nội bộ và nêu 27,1% cho Claude Opus 4.6.[ |
| An ninh mạng | Cybench | pass@1 = 1,00[ | Authmind mô tả Cybench là benchmark công khai gồm 40 thử thách CTF và nêu 0,89 cho Claude Opus 4.6.[ |
| An ninh mạng | CyberGym | 0,83[ | Authmind mô tả CyberGym là đánh giá tái tạo lỗ hổng có mục tiêu trên 1.507 tác vụ mã nguồn mở thực tế và nêu 0,67 cho Claude Opus 4.6.[ |
| Suy luận | GPQA Diamond | 94,6%[ | llm-stats nêu 91,3% cho Claude Opus 4.6.[ |
| Suy luận | Humanity’s Last Exam, không/có công cụ | 56,8% / 64,7%[ | llm-stats nêu 40,0% khi không dùng công cụ và 53,1% khi có công cụ cho Claude Opus 4.6.[ |
| Agent chạy terminal | Cấu hình Terminal-Bench | 92,1%[ | llm-stats gắn điểm này với Terminus-2 harness, adaptive thinking ở mức tối đa, ngân sách 1 triệu token mỗi tác vụ, timeout mở rộng 4 giờ và cập nhật Terminal-Bench 2.1.[ |
| Kiến thức đa nhiệm | MMMLU | 92,7[ | R&D World cho biết điểm này chồng lấn với dải 92,6–93,6 của Gemini 3.1 Pro và là ngoại lệ duy nhất trong tuyên bố dẫn đầu 17/18 benchmark.[ |
Phần nào được Anthropic xác nhận rõ nhất
Điểm chắc chắn nhất từ nguồn chính thức là trạng thái của mô hình: Claude Mythos Preview được Anthropic cung cấp riêng như một research preview cho các quy trình phòng thủ an ninh mạng trong Project Glasswing, chỉ truy cập bằng lời mời và không có đăng ký tự phục vụ.[13]
Trên trang Project Glasswing, Anthropic mô tả Claude Mythos Preview là một frontier model đa dụng và là mô hình của Anthropic có thế mạnh đặc biệt về coding và các tác vụ kiểu agent. Anthropic cũng giải thích rằng năng lực an ninh mạng của Mythos đến từ khả năng rộng hơn: hiểu sâu và chỉnh sửa phần mềm phức tạp, từ đó tìm cũng như sửa lỗ hổng.[16]
System card được cung cấp trong bộ nguồn mô tả Claude Mythos Preview là một mô hình ngôn ngữ lớn mới, thuộc nhóm frontier model, với năng lực ở nhiều mảng như kỹ nghệ phần mềm, suy luận, sử dụng máy tính, công việc tri thức và hỗ trợ nghiên cứu.[18] Nói cách khác, nguồn chính thức củng cố cách định vị mô hình; còn nhiều điểm số cụ thể trong bảng trên hiện được nhìn thấy chủ yếu qua các nguồn bên thứ ba.[
6][
9][
25][
27]
Vì sao 93,9% trên SWE-bench dễ thành con số tiêu đề
Trong các điểm được báo cáo, 93,9% trên SWE-bench Verified là con số nổi bật nhất. W&B gán mức này cho Claude Mythos Preview và đặt cạnh Claude Opus 4.6 ở 80,8%.[6] Với các nhóm phần mềm, đây là benchmark dễ gây chú ý vì nó đi thẳng vào nhóm bài toán coding và sửa mã mà các mô hình lập trình dạng agent thường được đem ra đánh giá.
Điểm coding đa ngôn ngữ cũng cao: W&B báo cáo Claude Mythos Preview đạt 87,3% trên SWE-bench Multilingual, so với 77,8% của Opus 4.6.[6] Điều đó ủng hộ cách đọc rằng sức mạnh của Mythos không chỉ nằm trong một thiết lập coding đơn lẻ bằng tiếng Anh.
Tuy vậy, điểm SWE-bench không phải giấy bảo đảm rằng mô hình sẽ hoạt động tốt tương tự trong mọi kho mã, mọi bộ công cụ và mọi quy trình review. Với Claude Mythos, còn một giới hạn lớn hơn: theo Anthropic, các nhóm bên ngoài không thể đơn giản tự đăng ký để thử mô hình này.[13]
An ninh mạng: số rất cao, nhưng là bài kiểm tra chuyên biệt
Các điểm an ninh mạng cũng nổi bật. Authmind báo cáo Claude Mythos Preview đạt Cybench hoàn hảo với pass@1 = 1,00; Cybench được mô tả là benchmark công khai gồm 40 thử thách CTF, tức dạng bài thi an ninh mạng Capture the Flag.[27] Với CyberGym, Authmind nêu điểm 0,83 và mô tả đây là đánh giá tác nhân AI trong việc tái tạo lỗ hổng có mục tiêu trên 1.507 tác vụ mã nguồn mở thực tế.[
27]
Những con số này khớp với cách Anthropic định vị Mythos. Trong tài liệu API, Mythos Preview được nêu rõ là research preview cho các quy trình phòng thủ an ninh mạng thuộc Project Glasswing.[13] Trên trang Project Glasswing, Anthropic liên hệ năng lực an ninh mạng của mô hình với khả năng hiểu, chỉnh sửa phần mềm phức tạp và tìm hoặc sửa lỗ hổng.[
16]
Điểm cần nhớ là hình thức bài kiểm tra. CTF và tái tạo lỗ hổng là những bối cảnh đánh giá rất cụ thể.[27] Chúng là tín hiệu mạnh về năng lực phân tích mã và bảo mật, nhưng không thay thế được việc kiểm thử trong quy tắc an toàn, giới hạn công cụ và trách nhiệm vận hành của từng tổ chức.
Suy luận, đa phương thức và agent chạy terminal
Ngoài coding và an ninh mạng, các điểm suy luận được báo cáo cũng rất cao. llm-stats nêu 94,6% trên GPQA Diamond, cùng 56,8% trên Humanity’s Last Exam khi không dùng công cụ và 64,7% khi có công cụ.[25] Việc tách riêng có công cụ và không có công cụ là chi tiết quan trọng: quyền truy cập công cụ có thể làm thay đổi đáng kể khả năng so sánh giữa các mô hình.
Với Terminal-Bench, cấu hình thử nghiệm còn quan trọng hơn. llm-stats báo cáo 92,1%, đồng thời gắn kết quả này với Terminus-2 harness, adaptive thinking ở mức tối đa, ngân sách 1 triệu token cho mỗi tác vụ, timeout mở rộng 4 giờ và cập nhật Terminal-Bench 2.1.[25] Đây không phải chú thích nhỏ ở cuối trang. Với benchmark cho agent, thời gian, ngữ cảnh, công cụ và ngân sách chạy có thể ảnh hưởng mạnh đến kết quả.
Điểm đa phương thức cũng nên được đọc thận trọng. W&B báo cáo 59,0% trong một đánh giá đa phương thức nội bộ cho Mythos Preview, so với 27,1% của Opus 4.6.[6] llm-stats cũng lưu ý rằng SWE-bench Multimodal dùng một triển khai nội bộ và các điểm số không thể so sánh trực tiếp với kết quả trên leaderboard công khai.[
25]
Vì sao không thể đọc như bảng xếp hạng AI thông thường
Có bốn giới hạn chính:
-
Truy cập bị khóa: Claude Mythos Preview là research preview chỉ truy cập bằng lời mời, không có đăng ký tự phục vụ theo Anthropic.[
13] Điều này khiến các nhóm phát triển thông thường khó tái kiểm chứng độc lập.
-
Nguồn số liệu pha trộn: Trong bộ nguồn này, tài liệu chính thức chủ yếu xác nhận trạng thái mô hình, cách định vị và các nhóm năng lực.[
13][
16][
18] Nhiều điểm số cụ thể lại xuất hiện qua nguồn bên thứ ba.[
6][
9][
25][
27]
-
Cấu hình đánh giá nội bộ hoặc đặc thù: Điểm đa phương thức được báo cáo là đánh giá nội bộ.[
6] Terminal-Bench được mô tả với harness riêng, mức thinking tối đa, ngân sách token lớn và timeout kéo dài.[
25]
-
Ý nghĩa phụ thuộc dạng bài: Cybench gồm 40 thử thách CTF, còn CyberGym gồm 1.507 tác vụ mã nguồn mở thực tế để tái tạo lỗ hổng có mục tiêu theo mô tả của Authmind.[
27] Đây là các lớp bài toán quan trọng, nhưng có biên giới rõ ràng.
Kết luận
Nếu chỉ nhìn vào điểm số được báo cáo, Claude Mythos Preview là một mô hình rất mạnh: 93,9% trên SWE-bench Verified, 87,3% trên SWE-bench Multilingual, 59,0% trong đánh giá đa phương thức nội bộ, 0,83 trên CyberGym và pass@1 = 1,00 trên Cybench.[6][
27]
Nhưng điểm quan trọng không chỉ là các con số cao đến đâu. Claude Mythos Preview được Anthropic mô tả là research preview thuộc Project Glasswing, truy cập bằng lời mời, không phải mô hình tiêu chuẩn phát hành rộng rãi.[13] Vì vậy, nên xem các benchmark này là tín hiệu năng lực mạnh về coding, agent và phòng thủ an ninh mạng — chứ không phải một bảng xếp hạng công khai mà mọi nhóm đều có thể tái kiểm chứng đầy đủ.




