Claude Mythos Preview sedang banyak dibicarakan karena satu angka yang mencolok: 93,9% di SWE-bench. Untuk pembaca yang mengikuti perkembangan AI, angka ini terdengar seperti “skor akhir”. Padahal, pembacaannya perlu lebih hati-hati: SWE-bench menguji tugas-tugas kode dan rekayasa perangkat lunak, bukan seluruh kemampuan sebuah model AI [1][
2].
Angka utamanya: 93,9% di SWE-bench
Hasil utama yang dilaporkan untuk Claude Mythos Preview adalah 93,9% di SWE-bench [1][
2]. Artinya, model ini tampak sangat kuat ketika dinilai pada tugas yang mirip pekerjaan pengembang: memahami repositori, memperbaiki kode, dan menangani alur kerja pemrograman yang bisa dikerjakan oleh agen AI [
1].
Namun, konteks pengujiannya penting. Skor tinggi di SWE-bench biasanya dicapai ketika model berjalan sebagai agen: ia dapat membaca berkas, menjalankan kode, melihat hasil pengujian, lalu mengulang percobaan sampai menemukan solusi yang lebih baik [1]. Jadi, angka 93,9% tidak hanya mencerminkan “otak” model, tetapi juga lingkungan alat dan cara evaluasi yang digunakan.
Yang tidak bisa disimpulkan dari skor 93,9%
Skor 93,9% sebaiknya tidak dibaca sebagai nilai keseluruhan Claude Mythos Preview. Benchmark perangkat lunak tidak otomatis mengukur penalaran umum, keamanan, ketersediaan, biaya operasional, atau performa pada tugas yang tidak mirip dengan menulis, meninjau, atau memodifikasi kode [1].
Untuk perbandingan yang adil, patokannya sederhana: bandingkan model pada benchmark yang sama, dengan kondisi yang setara. Jika satu model memakai alur agen dengan akses ke berkas, eksekusi kode, dan beberapa kali iterasi, lalu model lain diuji tanpa alat-alat itu, kesimpulannya bisa menyesatkan [1].
Ringkasan benchmark yang dilaporkan
| Area | Hasil yang dilaporkan | Cara membacanya |
|---|---|---|
| Software / SWE-bench | 93,9% | Ini angka paling jelas untuk tugas pemrograman dan agen kode [ |
| Keamanan siber | 83,1% vs 66,6% untuk Claude Opus 4.6 | Perbandingan yang dilaporkan pada benchmark kemampuan keamanan siber; ini tidak mengukur hal yang sama dengan SWE-bench [ |
| Cybench | 100% | Laporan sekunder tentang tantangan keamanan siber, bukan evaluasi umum seluruh kemampuan model [ |
| Kumpulan benchmark yang lebih luas | Memimpin 17 dari 18 benchmark yang diukur | Klaim agregat dari laporan tentang data Anthropic; perlu melihat rinciannya sebelum menjadikannya peringkat umum [ |
Software dan keamanan siber adalah sinyal yang berbeda
Metrik keamanan siber Claude Mythos Preview berada di kategori lain. Satu sumber melaporkan skor 83,1% untuk Mythos Preview, dibanding 66,6% untuk Claude Opus 4.6, pada benchmark kemampuan keamanan siber [3]. Sumber lain menyebut Mythos mencapai 100% di Cybench, yang digambarkan sebagai benchmark untuk tantangan keamanan siber [
5].
Sumber Anthropic yang tersedia di sini juga banyak berfokus pada ranah tersebut. Anthropic Red Team menerbitkan evaluasi kemampuan keamanan siber Claude Mythos Preview, sementara Project Glasswing mencakup pekerjaan terkait identifikasi kerentanan dan eksploit dengan model ini [13][
24]. Ini bisa sangat relevan bagi tim keamanan, tetapi jangan dicampur dengan SWE-bench seolah-olah semuanya adalah satu skor yang sama.
Cara memakai angka ini dalam evaluasi nyata
Jika kebutuhan Anda adalah agen yang bekerja di atas repositori, memperbaiki kode, menjalankan tes, dan melakukan iterasi, maka 93,9% di SWE-bench adalah angka awal yang paling berguna untuk diperhatikan [1][
2]. Jika kebutuhannya adalah analisis kerentanan, tinjauan keamanan, atau riset eksploit, maka metrik dan dokumen keamanan siber lebih tepat dijadikan konteks [
3][
5][
13][
24].
Kesimpulan praktisnya: Claude Mythos Preview dilaporkan meraih 93,9% di SWE-bench, dan itulah jawaban singkat untuk benchmark yang paling sering dikutip [1][
2]. Namun, pembacaan yang lebih ketat adalah ini: skor tersebut merupakan sinyal kuat untuk tugas perangkat lunak dalam kondisi evaluasi tertentu, bukan bukti otomatis bahwa model ini unggul di semua domain.




