studioglobal
Temukan yang Sedang Tren
JawabanDipublikasikan7 sumber

Claude Mythos Preview dan Skor 93,9% di SWE-bench

Angka yang paling sering dikutip untuk Claude Mythos Preview adalah 93,9% di SWE bench, benchmark untuk tugas perangkat lunak; relevan untuk coding dan agen, tetapi bukan nilai umum model [1][2]. Metrik keamanan siber perlu dibaca terpisah: ada laporan 83,1% dibanding 66,6% untuk Claude Opus 4.6, serta 100% di Cyben...

17K0
Ilustración de un panel de benchmark de IA con código y métricas para Claude Mythos Preview
Benchmark de Claude Mythos Preview: 93,9% en SWE-bench, explicadoImagen editorial generada por IA para representar un benchmark de código.
AI Perintah

Create a landscape editorial hero image for this Studio Global article: Benchmark de Claude Mythos Preview: 93,9% en SWE-bench, explicado. Article summary: Claude Mythos Preview se reporta con 93,9% en SWE bench; es la cifra más citada para rendimiento en software, pero SWE bench no es una nota general del modelo [1][2].. Topic tags: ai, anthropic, claude, ai benchmarks, coding. Reference image context from search candidates: Reference image 1: visual subject "# Claude Mythos Preview Benchmarks – The AI That Scored 93.9% on SWE-bench and Still Won’t Be Released. On April 7, 2026, Anthropic quietly released something extraordinary — and t" source context "Claude Mythos Preview Benchmarks - The AI That Scored 93.9% on SWE-bench and Still Won't Be Released - Kingy AI" Reference image 2: visual subject "A Tweet from Ramez Naam, American technologist and science fiction writer, citing Epoch A

openai.com

Claude Mythos Preview sedang banyak dibicarakan karena satu angka yang mencolok: 93,9% di SWE-bench. Untuk pembaca yang mengikuti perkembangan AI, angka ini terdengar seperti “skor akhir”. Padahal, pembacaannya perlu lebih hati-hati: SWE-bench menguji tugas-tugas kode dan rekayasa perangkat lunak, bukan seluruh kemampuan sebuah model AI [1][2].

Angka utamanya: 93,9% di SWE-bench

Hasil utama yang dilaporkan untuk Claude Mythos Preview adalah 93,9% di SWE-bench [1][2]. Artinya, model ini tampak sangat kuat ketika dinilai pada tugas yang mirip pekerjaan pengembang: memahami repositori, memperbaiki kode, dan menangani alur kerja pemrograman yang bisa dikerjakan oleh agen AI [1].

Namun, konteks pengujiannya penting. Skor tinggi di SWE-bench biasanya dicapai ketika model berjalan sebagai agen: ia dapat membaca berkas, menjalankan kode, melihat hasil pengujian, lalu mengulang percobaan sampai menemukan solusi yang lebih baik [1]. Jadi, angka 93,9% tidak hanya mencerminkan “otak” model, tetapi juga lingkungan alat dan cara evaluasi yang digunakan.

Yang tidak bisa disimpulkan dari skor 93,9%

Skor 93,9% sebaiknya tidak dibaca sebagai nilai keseluruhan Claude Mythos Preview. Benchmark perangkat lunak tidak otomatis mengukur penalaran umum, keamanan, ketersediaan, biaya operasional, atau performa pada tugas yang tidak mirip dengan menulis, meninjau, atau memodifikasi kode [1].

Untuk perbandingan yang adil, patokannya sederhana: bandingkan model pada benchmark yang sama, dengan kondisi yang setara. Jika satu model memakai alur agen dengan akses ke berkas, eksekusi kode, dan beberapa kali iterasi, lalu model lain diuji tanpa alat-alat itu, kesimpulannya bisa menyesatkan [1].

Ringkasan benchmark yang dilaporkan

AreaHasil yang dilaporkanCara membacanya
Software / SWE-bench93,9%Ini angka paling jelas untuk tugas pemrograman dan agen kode [1][2].
Keamanan siber83,1% vs 66,6% untuk Claude Opus 4.6Perbandingan yang dilaporkan pada benchmark kemampuan keamanan siber; ini tidak mengukur hal yang sama dengan SWE-bench [3].
Cybench100%Laporan sekunder tentang tantangan keamanan siber, bukan evaluasi umum seluruh kemampuan model [5].
Kumpulan benchmark yang lebih luasMemimpin 17 dari 18 benchmark yang diukurKlaim agregat dari laporan tentang data Anthropic; perlu melihat rinciannya sebelum menjadikannya peringkat umum [7].

Software dan keamanan siber adalah sinyal yang berbeda

Metrik keamanan siber Claude Mythos Preview berada di kategori lain. Satu sumber melaporkan skor 83,1% untuk Mythos Preview, dibanding 66,6% untuk Claude Opus 4.6, pada benchmark kemampuan keamanan siber [3]. Sumber lain menyebut Mythos mencapai 100% di Cybench, yang digambarkan sebagai benchmark untuk tantangan keamanan siber [5].

Sumber Anthropic yang tersedia di sini juga banyak berfokus pada ranah tersebut. Anthropic Red Team menerbitkan evaluasi kemampuan keamanan siber Claude Mythos Preview, sementara Project Glasswing mencakup pekerjaan terkait identifikasi kerentanan dan eksploit dengan model ini [13][24]. Ini bisa sangat relevan bagi tim keamanan, tetapi jangan dicampur dengan SWE-bench seolah-olah semuanya adalah satu skor yang sama.

Cara memakai angka ini dalam evaluasi nyata

Jika kebutuhan Anda adalah agen yang bekerja di atas repositori, memperbaiki kode, menjalankan tes, dan melakukan iterasi, maka 93,9% di SWE-bench adalah angka awal yang paling berguna untuk diperhatikan [1][2]. Jika kebutuhannya adalah analisis kerentanan, tinjauan keamanan, atau riset eksploit, maka metrik dan dokumen keamanan siber lebih tepat dijadikan konteks [3][5][13][24].

Kesimpulan praktisnya: Claude Mythos Preview dilaporkan meraih 93,9% di SWE-bench, dan itulah jawaban singkat untuk benchmark yang paling sering dikutip [1][2]. Namun, pembacaan yang lebih ketat adalah ini: skor tersebut merupakan sinyal kuat untuk tugas perangkat lunak dalam kondisi evaluasi tertentu, bukan bukti otomatis bahwa model ini unggul di semua domain.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Cari dan periksa fakta dengan Studio Global AI

Poin-poin penting

  • Angka yang paling sering dikutip untuk Claude Mythos Preview adalah 93,9% di SWE bench, benchmark untuk tugas perangkat lunak; relevan untuk coding dan agen, tetapi bukan nilai umum model [1][2].
  • Metrik keamanan siber perlu dibaca terpisah: ada laporan 83,1% dibanding 66,6% untuk Claude Opus 4.6, serta 100% di Cybench dalam sumber sekunder [3][5].
  • Sumber Anthropic yang tersedia di sini lebih banyak membahas kemampuan keamanan siber dan Project Glasswing, bukan satu skor tunggal untuk semua aspek performa [13][24].

Orang-orang juga bertanya

Apa jawaban singkat untuk "Claude Mythos Preview dan Skor 93,9% di SWE-bench"?

Angka yang paling sering dikutip untuk Claude Mythos Preview adalah 93,9% di SWE bench, benchmark untuk tugas perangkat lunak; relevan untuk coding dan agen, tetapi bukan nilai umum model [1][2].

Apa poin penting yang harus divalidasi terlebih dahulu?

Angka yang paling sering dikutip untuk Claude Mythos Preview adalah 93,9% di SWE bench, benchmark untuk tugas perangkat lunak; relevan untuk coding dan agen, tetapi bukan nilai umum model [1][2]. Metrik keamanan siber perlu dibaca terpisah: ada laporan 83,1% dibanding 66,6% untuk Claude Opus 4.6, serta 100% di Cybench dalam sumber sekunder [3][5].

Apa yang harus saya lakukan selanjutnya dalam latihan?

Sumber Anthropic yang tersedia di sini lebih banyak membahas kemampuan keamanan siber dan Project Glasswing, bukan satu skor tunggal untuk semua aspek performa [13][24].

Topik terkait manakah yang harus saya jelajahi selanjutnya?

Lanjutkan dengan "Apakah Anak yang Cepat Mengenali Kata Pasti Punya Kosakata Lebih Banyak?" untuk sudut pandang lain dan kutipan tambahan.

Buka halaman terkait

Dengan apa saya harus membandingkannya?

Periksa ulang jawaban ini dengan "Respons Pengasuh yang Lebih Kaya Terkait dengan Kemampuan Bahasa Anak Prasekolah".

Buka halaman terkait

Lanjutkan penelitian Anda

Percakapan penelitian

kamu

Pertanyaan penelitian

¿Cuál es el benchmark de Claude Mythos?

Studio Global AI24 sumber

Jawaban yang dikutip

Claude Mythos Preview aparece reportado principalmente con un 93.9% en SWE-bench, un benchmark de tareas reales de ingeniería de software/corrección de código [2]. También se reportan cifras de ciberseguridad, pero ahí la fuente más directa es Anthropic Red Team y el contexto es evaluación de capacidades ofensivas/defensivas, no un benchmark general de IA [1].

  • Benchmark más citado: SWE-bench, con 93.9% para Claude Mythos Preview [2].
  • Ciberseguridad: se menciona una ventaja frente a Claude Opus 4.6, con 83.1% vs. 66.6% en benchmarks de capacidad de ciberseguridad según reportes secundarios [4].
  • Cybench: algunos análisis secundarios afirman 100% en Cybench, un benchmark de retos de ciberseguridad [7].
  • Caveat: no veo una página pública estándar de Anthropic con una tabla completa de benchmarks generales de “Claude Mythos”; la fuente oficial visible se centra en capacidades de ciberseguridad [1]. Por eso, tomaría el 93.9% en SWE-bench como la cifra más citada, pero no como una evaluación completa del modelo.

Sumber