答案已發布3 個月前Last edited 2 個月前17 個來源

Claude Mythos Preview 與 93.9% SWE-bench：別把程式碼成績誤讀成總分

Claude Mythos Preview 最常被引用的數字是 SWE bench 93.9%；這是軟體工程與程式碼任務的訊號，不是模型的整體總分 [1][2]。高 SWE bench 成績通常與代理式工作流程有關：模型可讀檔、執行程式、檢查測試結果並反覆修正，因此比較時要看條件是否一致 [1]。

使用 Studio Global AI 搜尋並查證事實瀏覽更多熱門頁面

Ilustración de un panel de benchmark de IA con código y métricas para Claude Mythos Preview — Benchmark de Claude Mythos Preview: 93,9% en SWE-bench, explicadoImagen editorial generada por IA para representar un benchmark de código.
AI 提示詞
Create a landscape editorial hero image for this Studio Global article: Benchmark de Claude Mythos Preview: 93,9% en SWE-bench, explicado. Article summary: Claude Mythos Preview se reporta con 93,9% en SWE bench; es la cifra más citada para rendimiento en software, pero SWE bench no es una nota general del modelo [1][2].. Topic tags: ai, anthropic, claude, ai benchmarks, coding. Reference image context from search candidates: Reference image 1: visual subject "# Claude Mythos Preview Benchmarks – The AI That Scored 93.9% on SWE-bench and Still Won’t Be Released. On April 7, 2026, Anthropic quietly released something extraordinary — and t" source context "Claude Mythos Preview Benchmarks - The AI That Scored 93.9% on SWE-bench and Still Won't Be Released - Kingy AI" Reference image 2: visual subject "A Tweet from Ramez Naam, American technologist and science fiction writer, citing Epoch A
openai.com

Claude Mythos Preview 之所以被討論，最醒目的數字是：SWE-bench 93.9%。如果你的問題是「Claude Mythos 的 benchmark 是多少？」短答就是這個數字；但如果要拿它來做技術選型，就不能只看一個百分比。SWE-bench 評估的是軟體工程與程式碼相關任務，並不等於模型在推理、安全性、成本、可用性或所有工作場景的總體能力。

先看重點：93.9% 是軟體工程成績

目前最常被引用的 Claude Mythos Preview 成績，是 SWE-bench 93.9% 。這讓它在討論程式碼修復、軟體工程任務，以及類似「程式設計代理」（coding agent）的工作流程時特別受關注。

不過，這裡的關鍵不只是「模型本身多強」，也包括它被放在什麼樣的測試環境中。高 SWE-bench 成績通常出現在代理式設定下：模型可以讀取檔案、執行程式碼、查看測試結果，並在失敗後反覆修改嘗試。換句話說，93.9% 不是孤立的一句「模型裸跑成績」，而是模型能力加上工具環境與評估流程後得到的結果。

93.9% 不代表什麼？

這個數字不應該被當成 Claude Mythos Preview 的總成績。SWE-bench 是偏向軟體工程的基準測試；它無法單獨衡量一般推理、長文寫作、對話品質、安全表現、部署成本，或其他不像寫程式、讀程式、改程式的任務。

比較模型時也要特別小心。比較的基本原則是：同一個 benchmark、相近的工具條件、相近的評估流程。如果一個模型能使用檔案系統、執行測試並多輪迭代，另一個模型卻只能一次性回答，把兩者直接相提並論，很容易得出誤導性的結論。

已被報告的 Claude Mythos Preview 指標

領域	被報告的結果	比較合理的讀法
軟體工程 / SWE-bench	93.9%	最清楚、最常被引用的程式碼任務指標；適合用來討論軟體工程與程式代理能力。
資安能力	83.1%，相較 Claude Opus 4.6 的 66.6%	屬於資安能力基準，不是在測 SWE-bench，也不應混成同一種分數。
Cybench	100%	次級來源稱其在資安挑戰 benchmark Cybench 達 100%；這仍是資安情境，不是通用能力總評。
較廣泛的 benchmark 組合	在 18 項中領先 17 項	這是對 Anthropic 資料的彙整說法；若要把它解讀成總排名，仍需要看各項目細節。

軟體工程與資安：兩條線要分開看

Claude Mythos Preview 的資安表現也受到注意，但那是另一組問題。來源報告 Mythos Preview 在資安能力 benchmark 中為 83.1%，高於 Claude Opus 4.6 的 66.6% 。另有來源稱 Mythos 在 Cybench 達 100%，而 Cybench 被描述為資安挑戰類 benchmark 。

Anthropic 相關資料也主要把 Mythos Preview 放在資安脈絡下討論：Anthropic Red Team 發布了 Claude Mythos Preview 的資安能力評估；Project Glasswing 則包含使用 Claude Mythos Preview 識別漏洞與 exploit 的工作。這些資訊對資安團隊可能很重要，但它們不該和 SWE-bench 混在一起，變成一個模糊的「AI 總分」。

真正做評估時，該怎麼用這個數字？

如果你的場景是讓 AI 代理處理程式碼庫、修 bug、跑測試、根據結果反覆修改，那麼 93.9% SWE-bench 是最值得先看的數字。它能提供一個強烈訊號：在特定軟體工程評估條件下，Claude Mythos Preview 被報告有非常高的表現。

如果你的場景是漏洞分析、安全程式碼審查或 exploit 研究，那麼資安 benchmark 與 Anthropic 的相關文件才是更合適的脈絡。

簡單說：Claude Mythos Preview 最常被引用的 benchmark 是 SWE-bench 93.9% 。嚴謹一點的說法則是：這是一個很強的軟體工程訊號，但不是一張可以概括所有能力的成績單。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

大家也會問