Claude Opus 4.7 sebaiknya tidak dibaca dari satu angka saja. Model ini lebih tepat dipahami sebagai model untuk penalaran kompleks, agentic coding, dan alur kerja panjang. Dalam dokumentasinya, Anthropic menyebut Claude Opus 4.7 sebagai model yang tersedia umum paling mampu untuk penalaran kompleks dan agentic coding [1]. AWS juga menggambarkannya sebagai peningkatan dari Opus 4.6 untuk alur produksi seperti agentic coding, pekerjaan berbasis pengetahuan, pemahaman visual, dan tugas berdurasi panjang [
7].
Bagi banyak pengembang, angka yang paling menarik adalah 87,6% di SWE-bench Verified, yang dilaporkan AWS berdasarkan data Anthropic [7]. Namun, angka itu perlu dibaca dengan hati-hati. AWS sendiri mencatat bahwa Opus 4.7 bisa membutuhkan perubahan prompting dan penyesuaian harness agar hasilnya optimal [
7].
Ringkasan hasil benchmark yang dilaporkan
| Area | Benchmark | Hasil dilaporkan | Cara membacanya |
|---|---|---|---|
| Coding dan agen | SWE-bench Verified | 87,6% | Angka paling menonjol untuk menilai kemampuan menyelesaikan tugas software pada Claude Opus 4.7 [ |
| Coding dan agen | SWE-bench Pro | 64,3% | Pelengkap untuk membaca performa pada tugas software yang lebih berat atau berbeda dari SWE-bench Verified [ |
| Agen di terminal | Terminal-Bench 2.0 | 69,4% | Relevan ketika model perlu bekerja di lingkungan mirip terminal atau memakai tools [ |
| Agen finansial | Finance Agent v1.1 | 64,4% | Lebih dekat dengan skenario analisis atau otomatisasi keuangan [ |
| Coding internal | Benchmark internal 93 tugas | +13% resolusi dibanding Opus 4.6 | Peningkatan relatif pada evaluasi tertentu, bukan janji bahwa semua proyek akan naik sebesar itu [ |
| Research-agent internal | Skor keseluruhan | 0,715 | Anthropic menyebutnya sebagai hasil kuat untuk pekerjaan multi-step pada benchmark research-agent internalnya [ |
| Research-agent internal | General Finance | 0,813 vs 0,767 pada Opus 4.6 | Menunjukkan peningkatan dari Opus 4.6 pada modul finansial internal Anthropic [ |
Apa arti 87,6% di SWE-bench Verified?
Untuk tim yang membandingkan model sebagai coding agent, SWE-bench Verified adalah angka headline paling jelas dari sumber yang tersedia: AWS melaporkan 87,6% untuk Claude Opus 4.7 [7]. Secara praktis, ini menempatkan perhatian pada kemampuan model dalam tugas rekayasa perangkat lunak dan penyelesaian masalah kode, sejalan dengan deskripsi Anthropic tentang Opus 4.7 sebagai model yang kuat untuk penalaran kompleks dan agentic coding [
1].
Tetapi angka 87,6% bukan rapor umum untuk semua jenis pekerjaan. SWE-bench Verified menguji jenis kemampuan tertentu. Ia tidak otomatis menggantikan benchmark untuk terminal, keuangan, visi, pekerjaan panjang, atau riset. Karena itu, untuk keputusan teknis, SWE-bench Pro dan Terminal-Bench 2.0 sebaiknya ikut dilihat bersama skor utama [6][
7].
Mengapa ada angka yang berbeda?
Tidak semua sumber menampilkan angka yang sama. Salah satu sumber sekunder melaporkan 82,4% di SWE-bench Verified, sedangkan AWS melaporkan 87,6% untuk Claude Opus 4.7 [2][
7]. Perbedaan ini penting: menyalin satu persentase tanpa menyebut sumber dapat membuat perbandingan menjadi rancu.
Cara paling aman adalah selalu menulis nama benchmark, skor, dan sumbernya. Jika tersedia, konfigurasi pengujian juga perlu diperhatikan. AWS menyebut bahwa Opus 4.7 mungkin membutuhkan perubahan prompting dan penyesuaian harness untuk memaksimalkan hasilnya, sehingga cara pengujian bisa memengaruhi performa yang terlihat [7].
Benchmark mana yang perlu dilihat?
Jika fokus utamanya adalah pemrograman, mulai dari SWE-bench Verified, tetapi jangan berhenti di sana. SWE-bench Pro dan Terminal-Bench 2.0 membantu menilai skenario ketika model harus menyelesaikan tugas software yang lebih kompleks atau berinteraksi dengan lingkungan dan tools [6][
7].
Jika kebutuhan Anda lebih dekat ke keuangan atau riset, data internal Anthropic lebih relevan sebagai petunjuk awal. Pada benchmark research-agent internal, Opus 4.7 memperoleh skor keseluruhan 0,715 dan skor 0,813 di General Finance, dibandingkan 0,767 untuk Opus 4.6 pada modul yang sama [8]. Meski begitu, hasil tersebut tetap perlu dibaca sebagai evaluasi internal, bukan verifikasi independen.
Jika yang dicari adalah workflow perusahaan yang panjang, informasi publik menunjukkan peningkatan pada tugas berdurasi panjang, kemampuan mengikuti instruksi, dan bekerja dalam situasi yang ambigu, menurut AWS yang mengutip Anthropic [7]. Dalam konteks ini, benchmark berguna sebagai peta awal, tetapi uji yang paling menentukan tetaplah uji pada harness, tools, dan prompt milik tim Anda sendiri.
Kesimpulan
Jika harus memilih satu angka yang paling mudah dikutip, benchmark utama Claude Opus 4.7 adalah 87,6% di SWE-bench Verified, terutama untuk agentic coding [7]. Namun, pembacaan yang lebih bertanggung jawab harus mencakup angka lain: 64,3% di SWE-bench Pro, 69,4% di Terminal-Bench 2.0, 64,4% di Finance Agent v1.1, serta hasil internal Anthropic untuk pekerjaan multi-step dan finansial [
7][
8].
Pertanyaan yang lebih tepat bukan sekadar “berapa benchmark Claude Opus 4.7?”, melainkan “benchmark mana yang paling mirip dengan pekerjaan yang akan saya jalankan?”. Untuk pengembangan software, SWE-bench Verified adalah titik awal. Untuk agen terminal, keuangan, atau riset, benchmark pelengkap bisa sama pentingnya.




