studioglobal
Khám phá xu hướng
Câu trả lờiĐã xuất bản7 nguồn

Claude Mythos đạt 93,9% SWE-bench: mạnh đến đâu và vì sao khó so sánh?

Claude Mythos Preview gây chú ý nhất với 93,9% trên SWE bench Verified, nhưng Anthropic mô tả đây là research preview của Project Glasswing, chỉ truy cập bằng lời mời. Các điểm được báo cáo gồm 87,3% trên SWE bench Multilingual, 59,0% trong đánh giá đa phương thức nội bộ, 0,83 trên CyberGym và pass@1 = 1,00 trên Cyb...

17K0
Abstrakte KI-Benchmark-Grafik zu Claude Mythos Preview mit Code- und Score-Elementen
Claude Mythos Benchmarks: 93,9 % SWE-bench und was dahinterstecktSymbolbild: Die Debatte um Claude Mythos dreht sich weniger um einen einzelnen Score als um die Vergleichbarkeit der Evaluationsbedingungen.
Prompt AI

Create a landscape editorial hero image for this Studio Global article: Claude Mythos Benchmarks: 93,9 % SWE-bench und was dahintersteckt. Article summary: Claude Mythos Preview wird vor allem durch 93,9 % auf SWE bench Verified auffällig; weitere berichtete Werte sind 87,3 % auf SWE bench Multilingual und 59,0 % in einer internen multimodalen Evaluation.. Topic tags: ai, anthropic, claude, benchmarks, coding. Reference image context from search candidates: Reference image 1: visual subject "# Claude Mythos Preview Benchmarks – The AI That Scored 93.9% on SWE-bench and Still Won’t Be Released. On April 7, 2026, Anthropic quietly released something extraordinary — and t" source context "Claude Mythos Preview Benchmarks - The AI That Scored 93.9% on ..." Reference image 2: visual subject "A score of 93.9% means Claude Mythos correctly resolved approximately 470 of those 500 real-world GitH

openai.com

Claude Mythos Preview không nên được đọc như một mẫu Claude nữa xuất hiện trên leaderboard công khai. Trong tài liệu Claude API, Anthropic liệt kê mô hình này riêng như một research preview cho các quy trình phòng thủ an ninh mạng thuộc Project Glasswing; quyền truy cập chỉ qua lời mời và không có đăng ký tự phục vụ.[13] Vì vậy, các điểm benchmark rất đáng chú ý, nhưng không thể xem như điểm của một sản phẩm AI ai cũng có thể tự kiểm chứng ngay.

Các điểm benchmark đáng chú ý

Trong bộ nguồn hiện có, các con số cụ thể chủ yếu xuất hiện qua nguồn bên thứ ba tổng hợp hoặc trích dẫn dữ liệu từ Anthropic và system card, thay vì một bảng xếp hạng công khai dễ tái chạy.[6][9][25][27]

Nhóm năng lựcBenchmarkĐiểm Claude Mythos được báo cáoCách đọc nhanh
CodingSWE-bench Verified93,9%[6]W&B nêu mức so sánh của Claude Opus 4.6 là 80,8%.[6]
Coding đa ngôn ngữSWE-bench Multilingual87,3%[6]W&B nêu 77,8% cho Claude Opus 4.6.[6]
Đa phương thứcĐánh giá đa phương thức nội bộ59,0%[6]W&B mô tả đây là đánh giá nội bộ và nêu 27,1% cho Claude Opus 4.6.[6]
An ninh mạngCybenchpass@1 = 1,00[27]Authmind mô tả Cybench là benchmark công khai gồm 40 thử thách CTF và nêu 0,89 cho Claude Opus 4.6.[27]
An ninh mạngCyberGym0,83[27]Authmind mô tả CyberGym là đánh giá tái tạo lỗ hổng có mục tiêu trên 1.507 tác vụ mã nguồn mở thực tế và nêu 0,67 cho Claude Opus 4.6.[27]
Suy luậnGPQA Diamond94,6%[25]llm-stats nêu 91,3% cho Claude Opus 4.6.[25]
Suy luậnHumanity’s Last Exam, không/có công cụ56,8% / 64,7%[25]llm-stats nêu 40,0% khi không dùng công cụ và 53,1% khi có công cụ cho Claude Opus 4.6.[25]
Agent chạy terminalCấu hình Terminal-Bench92,1%[25]llm-stats gắn điểm này với Terminus-2 harness, adaptive thinking ở mức tối đa, ngân sách 1 triệu token mỗi tác vụ, timeout mở rộng 4 giờ và cập nhật Terminal-Bench 2.1.[25]
Kiến thức đa nhiệmMMMLU92,7[9]R&D World cho biết điểm này chồng lấn với dải 92,6–93,6 của Gemini 3.1 Pro và là ngoại lệ duy nhất trong tuyên bố dẫn đầu 17/18 benchmark.[9]

Phần nào được Anthropic xác nhận rõ nhất

Điểm chắc chắn nhất từ nguồn chính thức là trạng thái của mô hình: Claude Mythos Preview được Anthropic cung cấp riêng như một research preview cho các quy trình phòng thủ an ninh mạng trong Project Glasswing, chỉ truy cập bằng lời mời và không có đăng ký tự phục vụ.[13]

Trên trang Project Glasswing, Anthropic mô tả Claude Mythos Preview là một frontier model đa dụng và là mô hình của Anthropic có thế mạnh đặc biệt về coding và các tác vụ kiểu agent. Anthropic cũng giải thích rằng năng lực an ninh mạng của Mythos đến từ khả năng rộng hơn: hiểu sâu và chỉnh sửa phần mềm phức tạp, từ đó tìm cũng như sửa lỗ hổng.[16]

System card được cung cấp trong bộ nguồn mô tả Claude Mythos Preview là một mô hình ngôn ngữ lớn mới, thuộc nhóm frontier model, với năng lực ở nhiều mảng như kỹ nghệ phần mềm, suy luận, sử dụng máy tính, công việc tri thức và hỗ trợ nghiên cứu.[18] Nói cách khác, nguồn chính thức củng cố cách định vị mô hình; còn nhiều điểm số cụ thể trong bảng trên hiện được nhìn thấy chủ yếu qua các nguồn bên thứ ba.[6][9][25][27]

Vì sao 93,9% trên SWE-bench dễ thành con số tiêu đề

Trong các điểm được báo cáo, 93,9% trên SWE-bench Verified là con số nổi bật nhất. W&B gán mức này cho Claude Mythos Preview và đặt cạnh Claude Opus 4.6 ở 80,8%.[6] Với các nhóm phần mềm, đây là benchmark dễ gây chú ý vì nó đi thẳng vào nhóm bài toán coding và sửa mã mà các mô hình lập trình dạng agent thường được đem ra đánh giá.

Điểm coding đa ngôn ngữ cũng cao: W&B báo cáo Claude Mythos Preview đạt 87,3% trên SWE-bench Multilingual, so với 77,8% của Opus 4.6.[6] Điều đó ủng hộ cách đọc rằng sức mạnh của Mythos không chỉ nằm trong một thiết lập coding đơn lẻ bằng tiếng Anh.

Tuy vậy, điểm SWE-bench không phải giấy bảo đảm rằng mô hình sẽ hoạt động tốt tương tự trong mọi kho mã, mọi bộ công cụ và mọi quy trình review. Với Claude Mythos, còn một giới hạn lớn hơn: theo Anthropic, các nhóm bên ngoài không thể đơn giản tự đăng ký để thử mô hình này.[13]

An ninh mạng: số rất cao, nhưng là bài kiểm tra chuyên biệt

Các điểm an ninh mạng cũng nổi bật. Authmind báo cáo Claude Mythos Preview đạt Cybench hoàn hảo với pass@1 = 1,00; Cybench được mô tả là benchmark công khai gồm 40 thử thách CTF, tức dạng bài thi an ninh mạng Capture the Flag.[27] Với CyberGym, Authmind nêu điểm 0,83 và mô tả đây là đánh giá tác nhân AI trong việc tái tạo lỗ hổng có mục tiêu trên 1.507 tác vụ mã nguồn mở thực tế.[27]

Những con số này khớp với cách Anthropic định vị Mythos. Trong tài liệu API, Mythos Preview được nêu rõ là research preview cho các quy trình phòng thủ an ninh mạng thuộc Project Glasswing.[13] Trên trang Project Glasswing, Anthropic liên hệ năng lực an ninh mạng của mô hình với khả năng hiểu, chỉnh sửa phần mềm phức tạp và tìm hoặc sửa lỗ hổng.[16]

Điểm cần nhớ là hình thức bài kiểm tra. CTF và tái tạo lỗ hổng là những bối cảnh đánh giá rất cụ thể.[27] Chúng là tín hiệu mạnh về năng lực phân tích mã và bảo mật, nhưng không thay thế được việc kiểm thử trong quy tắc an toàn, giới hạn công cụ và trách nhiệm vận hành của từng tổ chức.

Suy luận, đa phương thức và agent chạy terminal

Ngoài coding và an ninh mạng, các điểm suy luận được báo cáo cũng rất cao. llm-stats nêu 94,6% trên GPQA Diamond, cùng 56,8% trên Humanity’s Last Exam khi không dùng công cụ và 64,7% khi có công cụ.[25] Việc tách riêng có công cụ và không có công cụ là chi tiết quan trọng: quyền truy cập công cụ có thể làm thay đổi đáng kể khả năng so sánh giữa các mô hình.

Với Terminal-Bench, cấu hình thử nghiệm còn quan trọng hơn. llm-stats báo cáo 92,1%, đồng thời gắn kết quả này với Terminus-2 harness, adaptive thinking ở mức tối đa, ngân sách 1 triệu token cho mỗi tác vụ, timeout mở rộng 4 giờ và cập nhật Terminal-Bench 2.1.[25] Đây không phải chú thích nhỏ ở cuối trang. Với benchmark cho agent, thời gian, ngữ cảnh, công cụ và ngân sách chạy có thể ảnh hưởng mạnh đến kết quả.

Điểm đa phương thức cũng nên được đọc thận trọng. W&B báo cáo 59,0% trong một đánh giá đa phương thức nội bộ cho Mythos Preview, so với 27,1% của Opus 4.6.[6] llm-stats cũng lưu ý rằng SWE-bench Multimodal dùng một triển khai nội bộ và các điểm số không thể so sánh trực tiếp với kết quả trên leaderboard công khai.[25]

Vì sao không thể đọc như bảng xếp hạng AI thông thường

Có bốn giới hạn chính:

  1. Truy cập bị khóa: Claude Mythos Preview là research preview chỉ truy cập bằng lời mời, không có đăng ký tự phục vụ theo Anthropic.[13] Điều này khiến các nhóm phát triển thông thường khó tái kiểm chứng độc lập.

  2. Nguồn số liệu pha trộn: Trong bộ nguồn này, tài liệu chính thức chủ yếu xác nhận trạng thái mô hình, cách định vị và các nhóm năng lực.[13][16][18] Nhiều điểm số cụ thể lại xuất hiện qua nguồn bên thứ ba.[6][9][25][27]

  3. Cấu hình đánh giá nội bộ hoặc đặc thù: Điểm đa phương thức được báo cáo là đánh giá nội bộ.[6] Terminal-Bench được mô tả với harness riêng, mức thinking tối đa, ngân sách token lớn và timeout kéo dài.[25]

  4. Ý nghĩa phụ thuộc dạng bài: Cybench gồm 40 thử thách CTF, còn CyberGym gồm 1.507 tác vụ mã nguồn mở thực tế để tái tạo lỗ hổng có mục tiêu theo mô tả của Authmind.[27] Đây là các lớp bài toán quan trọng, nhưng có biên giới rõ ràng.

Kết luận

Nếu chỉ nhìn vào điểm số được báo cáo, Claude Mythos Preview là một mô hình rất mạnh: 93,9% trên SWE-bench Verified, 87,3% trên SWE-bench Multilingual, 59,0% trong đánh giá đa phương thức nội bộ, 0,83 trên CyberGym và pass@1 = 1,00 trên Cybench.[6][27]

Nhưng điểm quan trọng không chỉ là các con số cao đến đâu. Claude Mythos Preview được Anthropic mô tả là research preview thuộc Project Glasswing, truy cập bằng lời mời, không phải mô hình tiêu chuẩn phát hành rộng rãi.[13] Vì vậy, nên xem các benchmark này là tín hiệu năng lực mạnh về coding, agent và phòng thủ an ninh mạng — chứ không phải một bảng xếp hạng công khai mà mọi nhóm đều có thể tái kiểm chứng đầy đủ.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI

Bài học chính

  • Claude Mythos Preview gây chú ý nhất với 93,9% trên SWE bench Verified, nhưng Anthropic mô tả đây là research preview của Project Glasswing, chỉ truy cập bằng lời mời.
  • Các điểm được báo cáo gồm 87,3% trên SWE bench Multilingual, 59,0% trong đánh giá đa phương thức nội bộ, 0,83 trên CyberGym và pass@1 = 1,00 trên Cybench.
  • Những con số này là tín hiệu mạnh về coding, agent và phòng thủ an ninh mạng, nhưng cần đọc thận trọng vì nguồn số liệu pha trộn, cấu hình thử nghiệm đặc thù và khả năng tái kiểm chứng hạn chế.

Người ta cũng hỏi

Câu trả lời ngắn gọn cho "Claude Mythos đạt 93,9% SWE-bench: mạnh đến đâu và vì sao khó so sánh?" là gì?

Claude Mythos Preview gây chú ý nhất với 93,9% trên SWE bench Verified, nhưng Anthropic mô tả đây là research preview của Project Glasswing, chỉ truy cập bằng lời mời.

Những điểm chính cần xác nhận đầu tiên là gì?

Claude Mythos Preview gây chú ý nhất với 93,9% trên SWE bench Verified, nhưng Anthropic mô tả đây là research preview của Project Glasswing, chỉ truy cập bằng lời mời. Các điểm được báo cáo gồm 87,3% trên SWE bench Multilingual, 59,0% trong đánh giá đa phương thức nội bộ, 0,83 trên CyberGym và pass@1 = 1,00 trên Cybench.

Tôi nên làm gì tiếp theo trong thực tế?

Những con số này là tín hiệu mạnh về coding, agent và phòng thủ an ninh mạng, nhưng cần đọc thận trọng vì nguồn số liệu pha trộn, cấu hình thử nghiệm đặc thù và khả năng tái kiểm chứng hạn chế.

Tôi nên khám phá chủ đề liên quan nào tiếp theo?

Tiếp tục với "Phân tích nghiên cứu: Trẻ học từ nhờ nghe nhiều hơn hay xử lý từ nhanh hơn?" để có góc nhìn khác và trích dẫn bổ sung.

Mở trang liên quan

Tôi nên so sánh điều này với cái gì?

Kiểm tra chéo câu trả lời này với "Trẻ học nói không chỉ nhờ nghe nhiều: cách người lớn đáp lời có liên quan ra sao?".

Mở trang liên quan

Tiếp tục nghiên cứu của bạn

Trao đổi nghiên cứu

Bạn

Câu hỏi nghiên cứu

Was sind die Benchmarks von Claude Mythos?

Studio Global AI30 nguồn

Câu trả lời được trích dẫn

Claude Mythos hat laut den vorliegenden Belegen vor allem öffentlich diskutierte Benchmark-Werte für Coding-, multimodale und mehrsprachige Aufgaben. Die belastbarste Information ist jedoch eingeschränkt: Anthropic beschreibt Claude Mythos Preview als ein separates Research-Preview-Modell für defensive Cybersecurity-Workflows mit Einladungspflicht, nicht als allgemein verfügbares Standardmodell.[1]

Verfügbare Benchmark-Angaben

  • SWE-bench: 93,9% werden in mehreren Drittquellen als Benchmark-Wert für Claude Mythos genannt.[3][5]

  • Multimodal: 59,0% werden als interner multimodaler Evaluationswert für Mythos Preview genannt, gegenüber 27,1% für Opus 4.6.[4]

  • SWE-bench Multilingual: 87,3% werden für Mythos Preview genannt.[4]

  • Terminal-Bench 2.0: Eine Drittquelle erwähnt, dass Terminal-Bench 2.0 mit Terminus-2-Harness, maximalem adaptivem Thinking und einem 1M-Token-Budget pro Aufgabe ausgeführt wurde, nennt im vorliegenden Ausschnitt aber keinen konkreten Score.[7]

Einordnung und Unsicherheit

  • Anthropic selbst bestätigt in den verfügbaren Belegen die Existenz und den eingeschränkten Zugang von Claude Mythos Preview, aber der bereitgestellte offizielle Ausschnitt enthält keine konkreten Benchmark-Zahlen.[1]

  • Die konkreten Scores stammen in den vorliegenden Belegen überwiegend aus Drittquellen oder Snippets, nicht aus vollständig zitierbaren offiziellen Benchmark-Tabellen.[3][4][5]

  • Daher gilt: Insufficient evidence für eine vollständig verifizierte, offizielle Benchmark-Liste von Claude Mythos anhand der bereitgestellten Quellen.

Nguồn

  • [6] Claude Mythos Benchmark Scores | ml-news – Weights & Biases - Wandbwandb.ai

    Image 66 Multimodal and multilingual capabilities The model’s improvements extend to multimodal and multilingual tasks. Internal multimodal evaluations show Mythos Preview scoring 59.0% compared to Opus 4.6’s 27.1%, indicating superior handling of diverse i...

  • [9] Claude Mythos leads 17 of 18 benchmarks Anthropic ... - R&D Worldrdworldonline.com

    Research & Development World Claude Mythos leads 17 of 18 benchmarks Anthropic measured. Muse Spark put Meta back in the frontier club, and OpenAI’s ‘Spud’ model is reportedly near launch By Brian Buntz Anthropic is not planning on publicly releasing it, bu...

  • [13] Models overview - Claude API Docsdocs.anthropic.com

    Models overview - Claude API Docs . Claude Mythos Preview is offered separately as a research preview model for defensive cybersecurity workflows as part of Project Glasswing. Access is invitation-only and there is no self-serve sign-up. Models with the sam...

  • [16] Project Glasswing - Anthropicanthropic.com

    01 /08 Claude Mythos Preview Claude Mythos Preview is a general-purpose frontier model from Anthropic, our most capable yet for coding and agentic tasks. Its strength in cybersecurity is a direct result of that broader capability: a model that can deeply un...

  • [18] [PDF] Claude Mythos Preview System Card - Anthropicwww-cdn.anthropic.com

    Red Teaming benchmark for tool use​ 232 8.3.2.2 Robustness against adaptive attackers across surfaces​ 233 8.3.2.2.1 Coding​ 233 8.3.2.2.2 Computer use​ 234 8.3.2.2.3 Browser use​ 235 8.4 Per-question automated welfare interview results​ 236 8.5 Blocklist u...

  • [25] Claude Mythos Preview: Benchmarks, Pricing & Project Glasswingllm-stats.com

    \SWE-bench Multimodal uses an internal implementation; scores are not directly comparable to public leaderboard results. Terminal-Bench 2.0 was run with the Terminus-2 harness, adaptive thinking at maximum effort, and a 1M token budget per task. With extend...

  • [27] When a Lab Withholds Its Best Model: What the Claude Mythos System Card Signals for Cybersecurityauthmind.com

    On Cybench (a public benchmark drawing from 40 CTF challenges across four major competitions), Claude Mythos Preview achieved a perfect pass@1 score of 1.00. Claude Opus 4.6, the prior generation, scored 0.89. On CyberGym, which evaluates AI agents on targe...