Argumen terkuat untuk Claude Opus 4.6 datang dari SWE-Bench Verified. Laporan yang dikutip menempatkannya di 79,2%, 79,4%, atau 80,8% pada varian benchmark tersebut .
GPT-5.3-Codex lebih sulit diringkas karena laporan yang tersedia memakai jalur SWE-Bench yang berbeda. Satu analisis GPT-5.4 mencantumkan GPT-5.3-Codex di 56,8% pada SWE-Bench Pro, sementara dua perbandingan Opus-vs-Codex mencantumkan GPT-5.3-Codex di 78,2% pada SWE-Bench Pro Public . Itu bukan alasan untuk merata-ratakan skor, melainkan peringatan bahwa ranking kasual bisa menyesatkan. Beberapa sumber secara eksplisit mengingatkan bahwa SWE-Bench Verified dan SWE-Bench Pro Public tidak dapat dibandingkan langsung
.
Untuk GPT-5.4, keunggulan coding paling bersih terhadap GPT-5.3-Codex dalam sumber ini juga tipis: 57,7% pada SWE-Bench Pro versus 56,8% untuk GPT-5.3-Codex dalam analisis yang sama . Ringkasan lain juga menyoroti angka GPT-5.4 sebesar 57,7% pada SWE-Bench Pro Public, sambil mengingatkan bahwa perbandingan Claude-vs-GPT yang lebih luas bukan hasil yang benar-benar setara
.
Terminal-Bench 2.0 mudah disalahartikan karena leaderboard publik mencantumkan pasangan agen/model, bukan skor model dasar yang berdiri sendiri . Di leaderboard itu, GPT-5.3-Codex muncul di 78,4% bersama SageAgent, 77,3% bersama Droid, dan 75,1% bersama Simple Codex
. Claude Opus 4.6 muncul di 79,8% bersama ForgeCode, 75,3% bersama Capy, dan 62,9% bersama Terminus 2
.
Rentang tersebut cukup besar untuk mengubah pemenang yang terlihat. Perbandingan berfokus GPT-5.4 melaporkan GPT-5.3-Codex unggul atas Claude Opus 4.6 di Terminal-Bench 2.0, yaitu 77,3% versus 65,4% . Namun leaderboard publik menampilkan pasangan ForgeCode/Claude Opus 4.6 di 79,8%, di atas pasangan SageAgent/GPT-5.3-Codex di 78,4%
. Kesimpulan praktisnya: untuk evaluasi terminal-agent, samakan dulu harness sebelum mengklaim model mana yang lebih baik.
Jika tolok ukur utama Anda adalah kualitas perbaikan bug repositori ala SWE-Bench Verified, Claude Opus 4.6 adalah titik awal paling kuat berdasarkan sumber ini. Skor Verified yang dilaporkan terkonsentrasi di sekitar 79% sampai 81%: 79,2% dalam analisis GPT-5.4, 79,4% dalam perbandingan Opus-vs-Codex, dan 80,8% dalam rangkuman benchmark lain .
Namun itu tidak membuktikan Opus 4.6 menang di semua pekerjaan coding. Ceritanya di Terminal-Bench bercampur: beberapa laporan perbandingan mengutip 65,4%, sementara leaderboard publik menunjukkan 79,8% ketika Opus 4.6 dipasangkan dengan ForgeCode dan 62,9% ketika dipasangkan dengan Terminus 2 . Dengan kata lain, Opus 4.6 adalah kandidat awal yang aman untuk perbaikan repositori gaya Verified, tetapi bukan juara universal untuk semua jenis coding.
GPT-5.3-Codex punya kasus paling kuat di keluarga OpenAI ketika beban kerjanya mirip pekerjaan agen di shell atau terminal. Ia dilaporkan di 77,3% pada Terminal-Bench 2.0 dalam laporan perbandingan, dan leaderboard publik mencantumkan GPT-5.3-Codex di 78,4% bersama SageAgent, 77,3% bersama Droid, serta 75,1% bersama Simple Codex .
Interpretasi SWE-Bench untuk GPT-5.3-Codex perlu lebih hati-hati. Sebagian laporan mencantumkannya di 78,2% pada SWE-Bench Pro Public, sementara laporan lain mencantumkan 56,8% pada SWE-Bench Pro . Karena sumber yang dikutip memperingatkan bahwa varian-varian ini tidak bisa dipertukarkan begitu saja, GPT-5.3-Codex sebaiknya dinilai pada varian SWE-Bench dan pengaturan evaluasi yang sama dengan rencana penggunaan Anda
.
Dalam kumpulan benchmark yang tersedia, GPT-5.4 tidak tampak sebagai lompatan besar untuk coding. Perbandingan satu sumber memberi GPT-5.4 keunggulan tipis di SWE-Bench Pro atas GPT-5.3-Codex, 57,7% versus 56,8%, tetapi sekaligus menunjukkan hasil Terminal-Bench 2.0 yang lebih rendah, 75,1% versus 77,3% .
Data yang lebih khas dari GPT-5.4 justru ada pada penggunaan tool. Analisis GPT-5.4 menyebut tool search mengurangi penggunaan token MCP sebesar 47% dengan memuat definisi tool sesuai kebutuhan, bukan memasukkan semua definisi ke dalam konteks . Untuk agen coding yang banyak memakai tool, ini bisa menjadi keuntungan sistem yang nyata. Tetapi tetap ukur secara terpisah dari akurasi benchmark seperti SWE-Bench atau Terminal-Bench.
Mulailah dengan Claude Opus 4.6 untuk perbaikan bug repositori gaya SWE-Bench Verified. Masukkan GPT-5.3-Codex dalam adu uji internal untuk workflow terminal-agent. Uji GPT-5.4 bila Anda membutuhkan model OpenAI terbaru atau ingin mengukur efisiensi tool search dan penggunaan token MCP .
Vonis paling aman bukan bahwa satu model mendominasi semua pekerjaan coding. Pemenangnya berubah mengikuti varian benchmark, agent harness, dan jenis pekerjaan yang benar-benar akan Anda jalankan .
Comments
0 comments