Gambaran benchmark publik belum menunjuk satu pemenang mutlak. Dari laporan yang dikutip, Claude Opus 4.6 terlihat paling kuat di SWE-Bench Verified, GPT-5.3-Codex menjadi model OpenAI dengan sinyal Terminal-Bench 2.0 terbaik, sedangkan kenaikan langsung GPT-5.4 atas GPT-5.3-Codex di tugas coding tampak kecil, bukan lompatan besar [1][
3][
5][
7][
9].
Tetapi ada jebakan metodologis yang penting. Varian SWE-Bench tidak sama satu sama lain, dan hasil Terminal-Bench publik dipengaruhi agent harness atau kerangka agen yang menjalankan model, bukan hanya model dasarnya [1][
6][
7][
10]. Jadi, pertanyaannya bukan sekadar model mana yang paling pintar, melainkan model mana yang paling cocok untuk beban kerja Anda.
Jawaban cepat: pilih berdasarkan pekerjaan
| Kebutuhan | Model pertama yang layak diuji | Dasar | Catatan utama |
|---|---|---|---|
| Perbaikan bug repositori ala SWE-Bench Verified | Claude Opus 4.6 | Opus 4.6 dilaporkan sekitar 79,2% sampai 80,8% di SWE-Bench Verified dalam laporan yang dikutip [ | Bandingkan dengan hasil Verified lain, bukan dengan SWE-Bench Pro Public seolah-olah itu tes yang sama [ |
| Workflow coding berbasis terminal dan agen | GPT-5.3-Codex, tetapi cek harness-nya | Perbandingan yang berfokus pada GPT-5.4 menaruh GPT-5.3-Codex di 77,3% pada Terminal-Bench 2.0, di atas GPT-5.4 di 75,1% dan Claude Opus 4.6 di 65,4% [ | Leaderboard publik memeringkat pasangan agen/model; Claude Opus 4.6 mencapai 79,8% saat dipasangkan dengan ForgeCode [ |
| Pemilihan model coding khusus OpenAI | GPT-5.4, dengan ekspektasi kenaikan bertahap | Satu perbandingan melaporkan GPT-5.4 di 57,7% pada SWE-Bench Pro versus 56,8% untuk GPT-5.3-Codex [ | Dalam perbandingan yang sama, GPT-5.4 berada di bawah GPT-5.3-Codex pada Terminal-Bench 2.0 [ |
| Sistem yang berat memakai tool atau MCP | GPT-5.4 perlu diuji terpisah | Analisis GPT-5.4 menyebut tool search memangkas penggunaan token MCP sebesar 47% dengan memuat definisi tool sesuai kebutuhan [ | Efisiensi token bukan hal yang sama dengan kemenangan di benchmark bug fixing [ |
Jebakan benchmark: jangan membandingkan apel dengan jeruk
SWE-Bench Verified dan SWE-Bench Pro Public memberi sinyal berbeda
Argumen terkuat untuk Claude Opus 4.6 datang dari SWE-Bench Verified. Laporan yang dikutip menempatkannya di 79,2%, 79,4%, atau 80,8% pada varian benchmark tersebut [3][
5][
7][
9].
GPT-5.3-Codex lebih sulit diringkas karena laporan yang tersedia memakai jalur SWE-Bench yang berbeda. Satu analisis GPT-5.4 mencantumkan GPT-5.3-Codex di 56,8% pada SWE-Bench Pro, sementara dua perbandingan Opus-vs-Codex mencantumkan GPT-5.3-Codex di 78,2% pada SWE-Bench Pro Public [3][
6][
7]. Itu bukan alasan untuk merata-ratakan skor, melainkan peringatan bahwa ranking kasual bisa menyesatkan. Beberapa sumber secara eksplisit mengingatkan bahwa SWE-Bench Verified dan SWE-Bench Pro Public tidak dapat dibandingkan langsung [
6][
7][
10].
Untuk GPT-5.4, keunggulan coding paling bersih terhadap GPT-5.3-Codex dalam sumber ini juga tipis: 57,7% pada SWE-Bench Pro versus 56,8% untuk GPT-5.3-Codex dalam analisis yang sama [3]. Ringkasan lain juga menyoroti angka GPT-5.4 sebesar 57,7% pada SWE-Bench Pro Public, sambil mengingatkan bahwa perbandingan Claude-vs-GPT yang lebih luas bukan hasil yang benar-benar setara [
10].
Hasil Terminal-Bench ikut membawa peran agent harness
Terminal-Bench 2.0 mudah disalahartikan karena leaderboard publik mencantumkan pasangan agen/model, bukan skor model dasar yang berdiri sendiri [1]. Di leaderboard itu, GPT-5.3-Codex muncul di 78,4% bersama SageAgent, 77,3% bersama Droid, dan 75,1% bersama Simple Codex [
1]. Claude Opus 4.6 muncul di 79,8% bersama ForgeCode, 75,3% bersama Capy, dan 62,9% bersama Terminus 2 [
1].
Rentang tersebut cukup besar untuk mengubah pemenang yang terlihat. Perbandingan berfokus GPT-5.4 melaporkan GPT-5.3-Codex unggul atas Claude Opus 4.6 di Terminal-Bench 2.0, yaitu 77,3% versus 65,4% [3]. Namun leaderboard publik menampilkan pasangan ForgeCode/Claude Opus 4.6 di 79,8%, di atas pasangan SageAgent/GPT-5.3-Codex di 78,4% [
1]. Kesimpulan praktisnya: untuk evaluasi terminal-agent, samakan dulu harness sebelum mengklaim model mana yang lebih baik.
Membaca kekuatan tiap model
Claude Opus 4.6: sinyal terkuat untuk bug fixing gaya Verified
Jika tolok ukur utama Anda adalah kualitas perbaikan bug repositori ala SWE-Bench Verified, Claude Opus 4.6 adalah titik awal paling kuat berdasarkan sumber ini. Skor Verified yang dilaporkan terkonsentrasi di sekitar 79% sampai 81%: 79,2% dalam analisis GPT-5.4, 79,4% dalam perbandingan Opus-vs-Codex, dan 80,8% dalam rangkuman benchmark lain [3][
5][
6][
7][
9].
Namun itu tidak membuktikan Opus 4.6 menang di semua pekerjaan coding. Ceritanya di Terminal-Bench bercampur: beberapa laporan perbandingan mengutip 65,4%, sementara leaderboard publik menunjukkan 79,8% ketika Opus 4.6 dipasangkan dengan ForgeCode dan 62,9% ketika dipasangkan dengan Terminus 2 [1][
3][
7][
9]. Dengan kata lain, Opus 4.6 adalah kandidat awal yang aman untuk perbaikan repositori gaya Verified, tetapi bukan juara universal untuk semua jenis coding.
GPT-5.3-Codex: kandidat OpenAI yang kuat untuk pekerjaan terminal-agent
GPT-5.3-Codex punya kasus paling kuat di keluarga OpenAI ketika beban kerjanya mirip pekerjaan agen di shell atau terminal. Ia dilaporkan di 77,3% pada Terminal-Bench 2.0 dalam laporan perbandingan, dan leaderboard publik mencantumkan GPT-5.3-Codex di 78,4% bersama SageAgent, 77,3% bersama Droid, serta 75,1% bersama Simple Codex [1][
3][
7][
9].
Interpretasi SWE-Bench untuk GPT-5.3-Codex perlu lebih hati-hati. Sebagian laporan mencantumkannya di 78,2% pada SWE-Bench Pro Public, sementara laporan lain mencantumkan 56,8% pada SWE-Bench Pro [3][
6][
7][
9]. Karena sumber yang dikutip memperingatkan bahwa varian-varian ini tidak bisa dipertukarkan begitu saja, GPT-5.3-Codex sebaiknya dinilai pada varian SWE-Bench dan pengaturan evaluasi yang sama dengan rencana penggunaan Anda [
6][
7][
10].
GPT-5.4: kenaikan coding moderat, lebih menarik di sisi tool
Dalam kumpulan benchmark yang tersedia, GPT-5.4 tidak tampak sebagai lompatan besar untuk coding. Perbandingan satu sumber memberi GPT-5.4 keunggulan tipis di SWE-Bench Pro atas GPT-5.3-Codex, 57,7% versus 56,8%, tetapi sekaligus menunjukkan hasil Terminal-Bench 2.0 yang lebih rendah, 75,1% versus 77,3% [3].
Data yang lebih khas dari GPT-5.4 justru ada pada penggunaan tool. Analisis GPT-5.4 menyebut tool search mengurangi penggunaan token MCP sebesar 47% dengan memuat definisi tool sesuai kebutuhan, bukan memasukkan semua definisi ke dalam konteks [3]. Untuk agen coding yang banyak memakai tool, ini bisa menjadi keuntungan sistem yang nyata. Tetapi tetap ukur secara terpisah dari akurasi benchmark seperti SWE-Bench atau Terminal-Bench.
Cara membandingkan tanpa tertipu angka cantik
- Tentukan varian benchmark sebelum menentukan pemenang. SWE-Bench Verified, SWE-Bench Pro, dan SWE-Bench Pro Public tidak sebaiknya dilebur menjadi satu tabel skor [
6][
7][
10].
- Samakan agent harness untuk tugas terminal. Leaderboard publik Terminal-Bench 2.0 menunjukkan model yang sama bisa mendapatkan akurasi berbeda ketika dipasangkan dengan agen berbeda [
1].
- Pisahkan akurasi coding dari efisiensi tool. Klaim pengurangan token MCP sebesar 47% pada GPT-5.4 berguna untuk sistem yang berat memakai tool, tetapi itu bukan klaim yang sama dengan menang di SWE-Bench atau Terminal-Bench [
3].
- Perlakukan ranking lintas-sumber sebagai arah awal, bukan vonis akhir. Sumber yang tersedia mendukung pemenang berbeda di benchmark berbeda; satu ranking universal akan melebih-lebihkan bukti yang ada [
1][
3][
6][
7][
10].
Kesimpulan
Mulailah dengan Claude Opus 4.6 untuk perbaikan bug repositori gaya SWE-Bench Verified. Masukkan GPT-5.3-Codex dalam adu uji internal untuk workflow terminal-agent. Uji GPT-5.4 bila Anda membutuhkan model OpenAI terbaru atau ingin mengukur efisiensi tool search dan penggunaan token MCP [1][
3][
5][
7][
9].
Vonis paling aman bukan bahwa satu model mendominasi semua pekerjaan coding. Pemenangnya berubah mengikuti varian benchmark, agent harness, dan jenis pekerjaan yang benar-benar akan Anda jalankan [1][
6][
7][
10].




