Claude Mythos Preview bukan sekadar nama baru di deretan model Claude. Dalam dokumentasi API Claude, Anthropic menempatkannya sebagai model research preview terpisah untuk alur kerja keamanan siber defensif di Project Glasswing; aksesnya berbasis undangan dan tidak tersedia lewat pendaftaran mandiri.[13] Jadi, skor benchmark-nya memang layak diperhatikan, tetapi cara membacanya berbeda dari model produk yang bisa langsung diuji siapa pun.
Ringkasan skor yang paling sering dikutip
Dalam kumpulan sumber yang tersedia, angka spesifik Claude Mythos Preview terutama terlihat melalui sumber pihak ketiga yang merujuk data Anthropic, system card, atau ringkasan evaluasi mereka sendiri.[6][
9][
25][
27]
| Area | Benchmark | Skor Claude Mythos Preview yang dilaporkan | Catatan pembanding |
|---|---|---|---|
| Coding | SWE-bench Verified | 93,9%[ | W&B membandingkannya dengan Claude Opus 4.6 di 80,8%.[ |
| Coding multibahasa | SWE-bench Multilingual | 87,3%[ | W&B menyebut Claude Opus 4.6 berada di 77,8%.[ |
| Multimodal | Evaluasi multimodal internal | 59,0%[ | W&B menyebut ini evaluasi internal dan membandingkannya dengan 27,1% untuk Claude Opus 4.6.[ |
| Keamanan siber | Cybench | pass@1 = 1,00[ | Authmind menggambarkan Cybench sebagai benchmark publik berisi 40 tantangan CTF dan menyebut Claude Opus 4.6 di 0,89.[ |
| Keamanan siber | CyberGym | 0,83[ | Authmind menggambarkan CyberGym sebagai evaluasi reproduksi kerentanan tertarget pada 1.507 tugas open-source nyata dan menyebut Claude Opus 4.6 di 0,67.[ |
| Reasoning | GPQA Diamond | 94,6%[ | llm-stats menyebut Claude Opus 4.6 di 91,3%.[ |
| Reasoning | Humanity’s Last Exam, tanpa / dengan alat | 56,8% / 64,7%[ | llm-stats menyebut Claude Opus 4.6 di 40,0% tanpa alat dan 53,1% dengan alat.[ |
| Agen terminal | Konfigurasi Terminal-Bench | 92,1%[ | llm-stats mengaitkan skor ini dengan Terminus-2 harness, adaptive thinking maksimum, anggaran 1 juta token per tugas, timeout 4 jam, dan pembaruan Terminal-Bench 2.1.[ |
| Pengetahuan multitugas | MMMLU | 92,7[ | R&D World melaporkan nilai ini tumpang tindih dengan rentang Gemini 3.1 Pro 92,6–93,6 dan menjadi satu pengecualian dalam klaim unggul di 17 dari 18 benchmark.[ |
Apa yang benar-benar resmi dari Anthropic
Informasi resmi yang paling tegas adalah status modelnya. Anthropic menyebut Claude Mythos Preview sebagai research preview untuk alur kerja keamanan siber defensif dalam Project Glasswing, dengan akses berbasis undangan dan tanpa pendaftaran mandiri.[13]
Di halaman Project Glasswing, Anthropic juga menggambarkan Claude Mythos Preview sebagai general-purpose frontier model dan sebagai model Anthropic yang paling mampu untuk coding serta tugas agenik. Anthropic mengaitkan kekuatan keamanan sibernya dengan kemampuan yang lebih luas: memahami dan memodifikasi perangkat lunak kompleks, lalu menemukan serta memperbaiki kerentanannya.[16]
Sumber system card yang tersedia menggambarkan Claude Mythos Preview sebagai model bahasa besar baru atau frontier model dengan kemampuan antara lain di rekayasa perangkat lunak, reasoning, penggunaan komputer, kerja berbasis pengetahuan, dan bantuan riset.[18] Dengan kata lain, dokumen resmi menguatkan posisi dan bidang kemampuan model ini; sementara angka-angka skor yang dirangkum di atas, dalam kumpulan sumber ini, terutama terlihat lewat sumber pihak ketiga.[
6][
9][
25][
27]
Mengapa 93,9% di SWE-bench menjadi angka utama
Jika harus memilih satu angka yang paling mudah menarik perhatian, itu adalah 93,9% di SWE-bench Verified. W&B melaporkan skor tersebut untuk Claude Mythos Preview dan menaruh Claude Opus 4.6 di 80,8% sebagai pembanding.[6] Bagi tim pengembang perangkat lunak, ini wajar menjadi headline score karena langsung berkaitan dengan area yang paling dicari dari model coding agenik: membaca, mengubah, dan memperbaiki kode.
Nilai coding multibahasanya juga tinggi. Pada SWE-bench Multilingual, W&B melaporkan 87,3% untuk Claude Mythos Preview, dibandingkan 77,8% untuk Claude Opus 4.6.[6] Ini membuat klaim kemampuan coding-nya tidak hanya bertumpu pada satu skenario berbahasa Inggris.
Tetap saja, skor SWE-bench bukan jaminan bahwa model akan tampil sama kuatnya di setiap repositori, stack, tooling, aturan review, atau proses deployment. Untuk Claude Mythos Preview, ada batas tambahan yang sangat praktis: menurut Anthropic, tim eksternal tidak bisa begitu saja mengujinya lewat akses self-serve.[13]
Keamanan siber: angkanya besar, konteksnya khusus
Di sisi keamanan siber, angkanya juga mencolok. Authmind melaporkan Claude Mythos Preview mencapai nilai sempurna di Cybench, yaitu pass@1 = 1,00; Cybench dijelaskan sebagai benchmark publik yang mengambil 40 tantangan CTF dari empat kompetisi besar.[27] Dalam konteks keamanan siber, CTF atau capture-the-flag adalah format tantangan teknis yang sering dipakai untuk menguji kemampuan analisis dan eksploitasi secara terkontrol.
Untuk CyberGym, Authmind menyebut skor 0,83 dan menjelaskan evaluasinya sebagai reproduksi kerentanan tertarget pada 1.507 tugas open-source nyata.[27] Angka-angka ini selaras dengan penempatan resmi Anthropic: di dokumentasi API, Mythos Preview memang dikaitkan secara eksplisit dengan alur kerja keamanan siber defensif dalam Project Glasswing.[
13]
Namun bentuk tugasnya penting. Tantangan CTF dan reproduksi kerentanan adalah sinyal kuat untuk kemampuan analisis keamanan dan pemahaman kode, tetapi tetap merupakan jenis evaluasi yang terdefinisi jelas.[27] Untuk organisasi nyata, hasil benchmark seperti ini tidak menggantikan pengujian di bawah kebijakan keamanan, pembatasan alat, audit, dan tanggung jawab operasional masing-masing.
Reasoning, multimodal, dan agen terminal
Di luar coding dan keamanan siber, llm-stats melaporkan skor reasoning yang juga tinggi: 94,6% di GPQA Diamond, serta 56,8% di Humanity’s Last Exam tanpa alat dan 64,7% dengan alat.[25] Pemisahan antara tanpa alat dan dengan alat bukan detail kecil. Akses ke alat dapat mengubah cara model menyelesaikan tugas dan membuat perbandingan antarmodel menjadi kurang langsung.
Untuk Terminal-Bench, konfigurasi evaluasinya bahkan lebih menentukan. llm-stats melaporkan skor 92,1%, tetapi mengaitkannya dengan Terminus-2 harness, adaptive thinking pada upaya maksimum, anggaran 1 juta token per tugas, timeout 4 jam, dan pembaruan Terminal-Bench 2.1.[25] Pada benchmark agen, waktu, konteks, tool use, dan anggaran token sering menjadi bagian dari hasil, bukan sekadar catatan kaki.
Klaim multimodal juga perlu dibaca hati-hati. W&B melaporkan 59,0% pada evaluasi multimodal internal untuk Claude Mythos Preview, dibandingkan 27,1% untuk Claude Opus 4.6.[6] Secara terpisah, llm-stats memperingatkan bahwa SWE-bench Multimodal memakai implementasi internal, sehingga skornya tidak langsung sebanding dengan hasil leaderboard publik.[
25]
Kenapa skor ini tidak seperti leaderboard biasa
Ada empat batas utama yang perlu diingat:
-
Akses terbatas. Claude Mythos Preview adalah research preview berbasis undangan tanpa pendaftaran mandiri, menurut Anthropic.[
13] Ini membuat reproduksi independen oleh tim developer umum menjadi sulit.
-
Sumber angka bercampur. Sumber resmi dalam kumpulan ini terutama menguatkan status, posisi, dan area kemampuan model.[
13][
16][
18] Banyak angka skor spesifik terlihat melalui sumber pihak ketiga.[
6][
9][
25][
27]
-
Ada evaluasi internal dan konfigurasi khusus. Nilai multimodal dilaporkan sebagai evaluasi internal.[
6] Terminal-Bench dilaporkan dengan harness, mode thinking, anggaran token, dan timeout yang sangat spesifik.[
25]
-
Setiap benchmark punya ruang lingkup sendiri. Cybench disebut berisi 40 tantangan CTF, sedangkan CyberGym mengevaluasi reproduksi kerentanan pada 1.507 tugas open-source nyata.[
27] Keduanya penting, tetapi tidak mencakup semua bentuk pekerjaan keamanan siber di dunia nyata.
Kesimpulan
Claude Mythos Preview terlihat luar biasa kuat dalam benchmark yang dilaporkan: 93,9% di SWE-bench Verified, 87,3% di SWE-bench Multilingual, 59,0% pada evaluasi multimodal internal, 0,83 di CyberGym, dan pass@1 = 1,00 di Cybench.[6][
27]
Namun poin terpenting bukan hanya tinggi-rendahnya angka. Claude Mythos Preview, menurut Anthropic, adalah model research preview berbasis undangan untuk Project Glasswing, bukan model standar yang tersedia bebas untuk semua pengguna.[13] Jadi, skor-skor tersebut paling aman dibaca sebagai sinyal kemampuan yang sangat kuat untuk coding, agen, dan keamanan siber defensif — bukan sebagai peringkat publik yang sepenuhnya bisa direproduksi oleh siapa saja.




