studioglobal
Temukan yang Sedang Tren
JawabanDipublikasikan7 sumber

Benchmark Claude Mythos: 93,9% di SWE-bench, tapi tidak sesederhana leaderboard biasa

Claude Mythos Preview menonjol dengan skor 93,9% di SWE bench Verified, tetapi Anthropic menempatkannya sebagai research preview Project Glasswing yang hanya dapat diakses lewat undangan. Skor lain yang dilaporkan mencakup 87,3% di SWE bench Multilingual, 59,0% pada evaluasi multimodal internal, 0,83 di CyberGym, da...

17K0
Abstrakte KI-Benchmark-Grafik zu Claude Mythos Preview mit Code- und Score-Elementen
Claude Mythos Benchmarks: 93,9 % SWE-bench und was dahinterstecktSymbolbild: Die Debatte um Claude Mythos dreht sich weniger um einen einzelnen Score als um die Vergleichbarkeit der Evaluationsbedingungen.
AI Perintah

Create a landscape editorial hero image for this Studio Global article: Claude Mythos Benchmarks: 93,9 % SWE-bench und was dahintersteckt. Article summary: Claude Mythos Preview wird vor allem durch 93,9 % auf SWE bench Verified auffällig; weitere berichtete Werte sind 87,3 % auf SWE bench Multilingual und 59,0 % in einer internen multimodalen Evaluation.. Topic tags: ai, anthropic, claude, benchmarks, coding. Reference image context from search candidates: Reference image 1: visual subject "# Claude Mythos Preview Benchmarks – The AI That Scored 93.9% on SWE-bench and Still Won’t Be Released. On April 7, 2026, Anthropic quietly released something extraordinary — and t" source context "Claude Mythos Preview Benchmarks - The AI That Scored 93.9% on ..." Reference image 2: visual subject "A score of 93.9% means Claude Mythos correctly resolved approximately 470 of those 500 real-world GitH

openai.com

Claude Mythos Preview bukan sekadar nama baru di deretan model Claude. Dalam dokumentasi API Claude, Anthropic menempatkannya sebagai model research preview terpisah untuk alur kerja keamanan siber defensif di Project Glasswing; aksesnya berbasis undangan dan tidak tersedia lewat pendaftaran mandiri.[13] Jadi, skor benchmark-nya memang layak diperhatikan, tetapi cara membacanya berbeda dari model produk yang bisa langsung diuji siapa pun.

Ringkasan skor yang paling sering dikutip

Dalam kumpulan sumber yang tersedia, angka spesifik Claude Mythos Preview terutama terlihat melalui sumber pihak ketiga yang merujuk data Anthropic, system card, atau ringkasan evaluasi mereka sendiri.[6][9][25][27]

AreaBenchmarkSkor Claude Mythos Preview yang dilaporkanCatatan pembanding
CodingSWE-bench Verified93,9%[6]W&B membandingkannya dengan Claude Opus 4.6 di 80,8%.[6]
Coding multibahasaSWE-bench Multilingual87,3%[6]W&B menyebut Claude Opus 4.6 berada di 77,8%.[6]
MultimodalEvaluasi multimodal internal59,0%[6]W&B menyebut ini evaluasi internal dan membandingkannya dengan 27,1% untuk Claude Opus 4.6.[6]
Keamanan siberCybenchpass@1 = 1,00[27]Authmind menggambarkan Cybench sebagai benchmark publik berisi 40 tantangan CTF dan menyebut Claude Opus 4.6 di 0,89.[27]
Keamanan siberCyberGym0,83[27]Authmind menggambarkan CyberGym sebagai evaluasi reproduksi kerentanan tertarget pada 1.507 tugas open-source nyata dan menyebut Claude Opus 4.6 di 0,67.[27]
ReasoningGPQA Diamond94,6%[25]llm-stats menyebut Claude Opus 4.6 di 91,3%.[25]
ReasoningHumanity’s Last Exam, tanpa / dengan alat56,8% / 64,7%[25]llm-stats menyebut Claude Opus 4.6 di 40,0% tanpa alat dan 53,1% dengan alat.[25]
Agen terminalKonfigurasi Terminal-Bench92,1%[25]llm-stats mengaitkan skor ini dengan Terminus-2 harness, adaptive thinking maksimum, anggaran 1 juta token per tugas, timeout 4 jam, dan pembaruan Terminal-Bench 2.1.[25]
Pengetahuan multitugasMMMLU92,7[9]R&D World melaporkan nilai ini tumpang tindih dengan rentang Gemini 3.1 Pro 92,6–93,6 dan menjadi satu pengecualian dalam klaim unggul di 17 dari 18 benchmark.[9]

Apa yang benar-benar resmi dari Anthropic

Informasi resmi yang paling tegas adalah status modelnya. Anthropic menyebut Claude Mythos Preview sebagai research preview untuk alur kerja keamanan siber defensif dalam Project Glasswing, dengan akses berbasis undangan dan tanpa pendaftaran mandiri.[13]

Di halaman Project Glasswing, Anthropic juga menggambarkan Claude Mythos Preview sebagai general-purpose frontier model dan sebagai model Anthropic yang paling mampu untuk coding serta tugas agenik. Anthropic mengaitkan kekuatan keamanan sibernya dengan kemampuan yang lebih luas: memahami dan memodifikasi perangkat lunak kompleks, lalu menemukan serta memperbaiki kerentanannya.[16]

Sumber system card yang tersedia menggambarkan Claude Mythos Preview sebagai model bahasa besar baru atau frontier model dengan kemampuan antara lain di rekayasa perangkat lunak, reasoning, penggunaan komputer, kerja berbasis pengetahuan, dan bantuan riset.[18] Dengan kata lain, dokumen resmi menguatkan posisi dan bidang kemampuan model ini; sementara angka-angka skor yang dirangkum di atas, dalam kumpulan sumber ini, terutama terlihat lewat sumber pihak ketiga.[6][9][25][27]

Mengapa 93,9% di SWE-bench menjadi angka utama

Jika harus memilih satu angka yang paling mudah menarik perhatian, itu adalah 93,9% di SWE-bench Verified. W&B melaporkan skor tersebut untuk Claude Mythos Preview dan menaruh Claude Opus 4.6 di 80,8% sebagai pembanding.[6] Bagi tim pengembang perangkat lunak, ini wajar menjadi headline score karena langsung berkaitan dengan area yang paling dicari dari model coding agenik: membaca, mengubah, dan memperbaiki kode.

Nilai coding multibahasanya juga tinggi. Pada SWE-bench Multilingual, W&B melaporkan 87,3% untuk Claude Mythos Preview, dibandingkan 77,8% untuk Claude Opus 4.6.[6] Ini membuat klaim kemampuan coding-nya tidak hanya bertumpu pada satu skenario berbahasa Inggris.

Tetap saja, skor SWE-bench bukan jaminan bahwa model akan tampil sama kuatnya di setiap repositori, stack, tooling, aturan review, atau proses deployment. Untuk Claude Mythos Preview, ada batas tambahan yang sangat praktis: menurut Anthropic, tim eksternal tidak bisa begitu saja mengujinya lewat akses self-serve.[13]

Keamanan siber: angkanya besar, konteksnya khusus

Di sisi keamanan siber, angkanya juga mencolok. Authmind melaporkan Claude Mythos Preview mencapai nilai sempurna di Cybench, yaitu pass@1 = 1,00; Cybench dijelaskan sebagai benchmark publik yang mengambil 40 tantangan CTF dari empat kompetisi besar.[27] Dalam konteks keamanan siber, CTF atau capture-the-flag adalah format tantangan teknis yang sering dipakai untuk menguji kemampuan analisis dan eksploitasi secara terkontrol.

Untuk CyberGym, Authmind menyebut skor 0,83 dan menjelaskan evaluasinya sebagai reproduksi kerentanan tertarget pada 1.507 tugas open-source nyata.[27] Angka-angka ini selaras dengan penempatan resmi Anthropic: di dokumentasi API, Mythos Preview memang dikaitkan secara eksplisit dengan alur kerja keamanan siber defensif dalam Project Glasswing.[13]

Namun bentuk tugasnya penting. Tantangan CTF dan reproduksi kerentanan adalah sinyal kuat untuk kemampuan analisis keamanan dan pemahaman kode, tetapi tetap merupakan jenis evaluasi yang terdefinisi jelas.[27] Untuk organisasi nyata, hasil benchmark seperti ini tidak menggantikan pengujian di bawah kebijakan keamanan, pembatasan alat, audit, dan tanggung jawab operasional masing-masing.

Reasoning, multimodal, dan agen terminal

Di luar coding dan keamanan siber, llm-stats melaporkan skor reasoning yang juga tinggi: 94,6% di GPQA Diamond, serta 56,8% di Humanity’s Last Exam tanpa alat dan 64,7% dengan alat.[25] Pemisahan antara tanpa alat dan dengan alat bukan detail kecil. Akses ke alat dapat mengubah cara model menyelesaikan tugas dan membuat perbandingan antarmodel menjadi kurang langsung.

Untuk Terminal-Bench, konfigurasi evaluasinya bahkan lebih menentukan. llm-stats melaporkan skor 92,1%, tetapi mengaitkannya dengan Terminus-2 harness, adaptive thinking pada upaya maksimum, anggaran 1 juta token per tugas, timeout 4 jam, dan pembaruan Terminal-Bench 2.1.[25] Pada benchmark agen, waktu, konteks, tool use, dan anggaran token sering menjadi bagian dari hasil, bukan sekadar catatan kaki.

Klaim multimodal juga perlu dibaca hati-hati. W&B melaporkan 59,0% pada evaluasi multimodal internal untuk Claude Mythos Preview, dibandingkan 27,1% untuk Claude Opus 4.6.[6] Secara terpisah, llm-stats memperingatkan bahwa SWE-bench Multimodal memakai implementasi internal, sehingga skornya tidak langsung sebanding dengan hasil leaderboard publik.[25]

Kenapa skor ini tidak seperti leaderboard biasa

Ada empat batas utama yang perlu diingat:

  1. Akses terbatas. Claude Mythos Preview adalah research preview berbasis undangan tanpa pendaftaran mandiri, menurut Anthropic.[13] Ini membuat reproduksi independen oleh tim developer umum menjadi sulit.

  2. Sumber angka bercampur. Sumber resmi dalam kumpulan ini terutama menguatkan status, posisi, dan area kemampuan model.[13][16][18] Banyak angka skor spesifik terlihat melalui sumber pihak ketiga.[6][9][25][27]

  3. Ada evaluasi internal dan konfigurasi khusus. Nilai multimodal dilaporkan sebagai evaluasi internal.[6] Terminal-Bench dilaporkan dengan harness, mode thinking, anggaran token, dan timeout yang sangat spesifik.[25]

  4. Setiap benchmark punya ruang lingkup sendiri. Cybench disebut berisi 40 tantangan CTF, sedangkan CyberGym mengevaluasi reproduksi kerentanan pada 1.507 tugas open-source nyata.[27] Keduanya penting, tetapi tidak mencakup semua bentuk pekerjaan keamanan siber di dunia nyata.

Kesimpulan

Claude Mythos Preview terlihat luar biasa kuat dalam benchmark yang dilaporkan: 93,9% di SWE-bench Verified, 87,3% di SWE-bench Multilingual, 59,0% pada evaluasi multimodal internal, 0,83 di CyberGym, dan pass@1 = 1,00 di Cybench.[6][27]

Namun poin terpenting bukan hanya tinggi-rendahnya angka. Claude Mythos Preview, menurut Anthropic, adalah model research preview berbasis undangan untuk Project Glasswing, bukan model standar yang tersedia bebas untuk semua pengguna.[13] Jadi, skor-skor tersebut paling aman dibaca sebagai sinyal kemampuan yang sangat kuat untuk coding, agen, dan keamanan siber defensif — bukan sebagai peringkat publik yang sepenuhnya bisa direproduksi oleh siapa saja.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Cari dan periksa fakta dengan Studio Global AI

Poin-poin penting

  • Claude Mythos Preview menonjol dengan skor 93,9% di SWE bench Verified, tetapi Anthropic menempatkannya sebagai research preview Project Glasswing yang hanya dapat diakses lewat undangan.
  • Skor lain yang dilaporkan mencakup 87,3% di SWE bench Multilingual, 59,0% pada evaluasi multimodal internal, 0,83 di CyberGym, dan pass@1 = 1,00 di Cybench.
  • Angka angka itu memberi sinyal kemampuan coding, agen, dan keamanan siber yang kuat, tetapi tidak bisa dibaca persis seperti leaderboard publik yang mudah direproduksi.

Orang-orang juga bertanya

Apa jawaban singkat untuk "Benchmark Claude Mythos: 93,9% di SWE-bench, tapi tidak sesederhana leaderboard biasa"?

Claude Mythos Preview menonjol dengan skor 93,9% di SWE bench Verified, tetapi Anthropic menempatkannya sebagai research preview Project Glasswing yang hanya dapat diakses lewat undangan.

Apa poin penting yang harus divalidasi terlebih dahulu?

Claude Mythos Preview menonjol dengan skor 93,9% di SWE bench Verified, tetapi Anthropic menempatkannya sebagai research preview Project Glasswing yang hanya dapat diakses lewat undangan. Skor lain yang dilaporkan mencakup 87,3% di SWE bench Multilingual, 59,0% pada evaluasi multimodal internal, 0,83 di CyberGym, dan pass@1 = 1,00 di Cybench.

Apa yang harus saya lakukan selanjutnya dalam latihan?

Angka angka itu memberi sinyal kemampuan coding, agen, dan keamanan siber yang kuat, tetapi tidak bisa dibaca persis seperti leaderboard publik yang mudah direproduksi.

Topik terkait manakah yang harus saya jelajahi selanjutnya?

Lanjutkan dengan "Apakah Anak yang Cepat Mengenali Kata Pasti Punya Kosakata Lebih Banyak?" untuk sudut pandang lain dan kutipan tambahan.

Buka halaman terkait

Dengan apa saya harus membandingkannya?

Periksa ulang jawaban ini dengan "Respons Pengasuh yang Lebih Kaya Terkait dengan Kemampuan Bahasa Anak Prasekolah".

Buka halaman terkait

Lanjutkan penelitian Anda

Percakapan penelitian

kamu

Pertanyaan penelitian

Was sind die Benchmarks von Claude Mythos?

Studio Global AI30 sumber

Jawaban yang dikutip

Claude Mythos hat laut den vorliegenden Belegen vor allem öffentlich diskutierte Benchmark-Werte für Coding-, multimodale und mehrsprachige Aufgaben. Die belastbarste Information ist jedoch eingeschränkt: Anthropic beschreibt Claude Mythos Preview als ein separates Research-Preview-Modell für defensive Cybersecurity-Workflows mit Einladungspflicht, nicht als allgemein verfügbares Standardmodell.[1]

Verfügbare Benchmark-Angaben

  • SWE-bench: 93,9% werden in mehreren Drittquellen als Benchmark-Wert für Claude Mythos genannt.[3][5]

  • Multimodal: 59,0% werden als interner multimodaler Evaluationswert für Mythos Preview genannt, gegenüber 27,1% für Opus 4.6.[4]

  • SWE-bench Multilingual: 87,3% werden für Mythos Preview genannt.[4]

  • Terminal-Bench 2.0: Eine Drittquelle erwähnt, dass Terminal-Bench 2.0 mit Terminus-2-Harness, maximalem adaptivem Thinking und einem 1M-Token-Budget pro Aufgabe ausgeführt wurde, nennt im vorliegenden Ausschnitt aber keinen konkreten Score.[7]

Einordnung und Unsicherheit

  • Anthropic selbst bestätigt in den verfügbaren Belegen die Existenz und den eingeschränkten Zugang von Claude Mythos Preview, aber der bereitgestellte offizielle Ausschnitt enthält keine konkreten Benchmark-Zahlen.[1]

  • Die konkreten Scores stammen in den vorliegenden Belegen überwiegend aus Drittquellen oder Snippets, nicht aus vollständig zitierbaren offiziellen Benchmark-Tabellen.[3][4][5]

  • Daher gilt: Insufficient evidence für eine vollständig verifizierte, offizielle Benchmark-Liste von Claude Mythos anhand der bereitgestellten Quellen.

Sumber

  • [6] Claude Mythos Benchmark Scores | ml-news – Weights & Biases - Wandbwandb.ai

    Image 66 Multimodal and multilingual capabilities The model’s improvements extend to multimodal and multilingual tasks. Internal multimodal evaluations show Mythos Preview scoring 59.0% compared to Opus 4.6’s 27.1%, indicating superior handling of diverse i...

  • [9] Claude Mythos leads 17 of 18 benchmarks Anthropic ... - R&D Worldrdworldonline.com

    Research & Development World Claude Mythos leads 17 of 18 benchmarks Anthropic measured. Muse Spark put Meta back in the frontier club, and OpenAI’s ‘Spud’ model is reportedly near launch By Brian Buntz Anthropic is not planning on publicly releasing it, bu...

  • [13] Models overview - Claude API Docsdocs.anthropic.com

    Models overview - Claude API Docs . Claude Mythos Preview is offered separately as a research preview model for defensive cybersecurity workflows as part of Project Glasswing. Access is invitation-only and there is no self-serve sign-up. Models with the sam...

  • [16] Project Glasswing - Anthropicanthropic.com

    01 /08 Claude Mythos Preview Claude Mythos Preview is a general-purpose frontier model from Anthropic, our most capable yet for coding and agentic tasks. Its strength in cybersecurity is a direct result of that broader capability: a model that can deeply un...

  • [18] [PDF] Claude Mythos Preview System Card - Anthropicwww-cdn.anthropic.com

    Red Teaming benchmark for tool use​ 232 8.3.2.2 Robustness against adaptive attackers across surfaces​ 233 8.3.2.2.1 Coding​ 233 8.3.2.2.2 Computer use​ 234 8.3.2.2.3 Browser use​ 235 8.4 Per-question automated welfare interview results​ 236 8.5 Blocklist u...

  • [25] Claude Mythos Preview: Benchmarks, Pricing & Project Glasswingllm-stats.com

    \SWE-bench Multimodal uses an internal implementation; scores are not directly comparable to public leaderboard results. Terminal-Bench 2.0 was run with the Terminus-2 harness, adaptive thinking at maximum effort, and a 1M token budget per task. With extend...

  • [27] When a Lab Withholds Its Best Model: What the Claude Mythos System Card Signals for Cybersecurityauthmind.com

    On Cybench (a public benchmark drawing from 40 CTF challenges across four major competitions), Claude Mythos Preview achieved a perfect pass@1 score of 1.00. Claude Opus 4.6, the prior generation, scored 0.89. On CyberGym, which evaluates AI agents on targe...