studioglobal
Temukan yang Sedang Tren
JawabanDipublikasikan7 sumber

GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: Mana yang Terbaik untuk Coding?

Belum ada juara coding universal: Claude Opus 4.6 paling kuat di SWE Bench Verified sekitar 79–81%, GPT 5.3 Codex unggul dalam perbandingan OpenAI Terminal Bench 2.0 yang dikutip, dan GPT 5.4 naik tipis, bukan jauh [1... Uji Opus 4.6 lebih dulu untuk perbaikan bug repositori ala Verified, GPT 5.3 Codex untuk workflo...

5.2K0
Abstract comparison of AI coding models on a benchmark leaderboard
GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: The Coding Winner Depends on the BenchmarkBenchmark results point to different winners depending on the test variant and agent harness.
AI Perintah

Create a landscape editorial hero image for this Studio Global article: GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: The Coding Winner Depends on the Benchmark. Article summary: There is no universal coding winner: Claude Opus 4.6 has the strongest reported SWE Bench Verified signal at about 79 81%, GPT 5.3 Codex leads the cited Terminal Bench 2.0 comparison at 77.3%, and GPT 5.4's same sourc.... Topic tags: ai, ai benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "gpt-5.4 vs opus 4.6. # GPT-5.4 vs Claude Opus 4.6: Which One Is Better for Coding? OpenAI has launched GPT-5.4, the latest iteration of its GPT-5 family, and, as per them, it’s the" source context "GPT-5.4 vs Claude Opus 4.6: Which One Is Better for Coding? - Bind AI" Reference image 2: visual subject "gpt-5.4 vs opus 4.6. # GPT-5.4 vs Claude Opus 4.6: Whic

openai.com

Gambaran benchmark publik belum menunjuk satu pemenang mutlak. Dari laporan yang dikutip, Claude Opus 4.6 terlihat paling kuat di SWE-Bench Verified, GPT-5.3-Codex menjadi model OpenAI dengan sinyal Terminal-Bench 2.0 terbaik, sedangkan kenaikan langsung GPT-5.4 atas GPT-5.3-Codex di tugas coding tampak kecil, bukan lompatan besar [1][3][5][7][9].

Tetapi ada jebakan metodologis yang penting. Varian SWE-Bench tidak sama satu sama lain, dan hasil Terminal-Bench publik dipengaruhi agent harness atau kerangka agen yang menjalankan model, bukan hanya model dasarnya [1][6][7][10]. Jadi, pertanyaannya bukan sekadar model mana yang paling pintar, melainkan model mana yang paling cocok untuk beban kerja Anda.

Jawaban cepat: pilih berdasarkan pekerjaan

KebutuhanModel pertama yang layak diujiDasarCatatan utama
Perbaikan bug repositori ala SWE-Bench VerifiedClaude Opus 4.6Opus 4.6 dilaporkan sekitar 79,2% sampai 80,8% di SWE-Bench Verified dalam laporan yang dikutip [3][5][7][9].Bandingkan dengan hasil Verified lain, bukan dengan SWE-Bench Pro Public seolah-olah itu tes yang sama [6][7][10].
Workflow coding berbasis terminal dan agenGPT-5.3-Codex, tetapi cek harness-nyaPerbandingan yang berfokus pada GPT-5.4 menaruh GPT-5.3-Codex di 77,3% pada Terminal-Bench 2.0, di atas GPT-5.4 di 75,1% dan Claude Opus 4.6 di 65,4% [3].Leaderboard publik memeringkat pasangan agen/model; Claude Opus 4.6 mencapai 79,8% saat dipasangkan dengan ForgeCode [1].
Pemilihan model coding khusus OpenAIGPT-5.4, dengan ekspektasi kenaikan bertahapSatu perbandingan melaporkan GPT-5.4 di 57,7% pada SWE-Bench Pro versus 56,8% untuk GPT-5.3-Codex [3].Dalam perbandingan yang sama, GPT-5.4 berada di bawah GPT-5.3-Codex pada Terminal-Bench 2.0 [3].
Sistem yang berat memakai tool atau MCPGPT-5.4 perlu diuji terpisahAnalisis GPT-5.4 menyebut tool search memangkas penggunaan token MCP sebesar 47% dengan memuat definisi tool sesuai kebutuhan [3].Efisiensi token bukan hal yang sama dengan kemenangan di benchmark bug fixing [3].

Jebakan benchmark: jangan membandingkan apel dengan jeruk

SWE-Bench Verified dan SWE-Bench Pro Public memberi sinyal berbeda

Argumen terkuat untuk Claude Opus 4.6 datang dari SWE-Bench Verified. Laporan yang dikutip menempatkannya di 79,2%, 79,4%, atau 80,8% pada varian benchmark tersebut [3][5][7][9].

GPT-5.3-Codex lebih sulit diringkas karena laporan yang tersedia memakai jalur SWE-Bench yang berbeda. Satu analisis GPT-5.4 mencantumkan GPT-5.3-Codex di 56,8% pada SWE-Bench Pro, sementara dua perbandingan Opus-vs-Codex mencantumkan GPT-5.3-Codex di 78,2% pada SWE-Bench Pro Public [3][6][7]. Itu bukan alasan untuk merata-ratakan skor, melainkan peringatan bahwa ranking kasual bisa menyesatkan. Beberapa sumber secara eksplisit mengingatkan bahwa SWE-Bench Verified dan SWE-Bench Pro Public tidak dapat dibandingkan langsung [6][7][10].

Untuk GPT-5.4, keunggulan coding paling bersih terhadap GPT-5.3-Codex dalam sumber ini juga tipis: 57,7% pada SWE-Bench Pro versus 56,8% untuk GPT-5.3-Codex dalam analisis yang sama [3]. Ringkasan lain juga menyoroti angka GPT-5.4 sebesar 57,7% pada SWE-Bench Pro Public, sambil mengingatkan bahwa perbandingan Claude-vs-GPT yang lebih luas bukan hasil yang benar-benar setara [10].

Hasil Terminal-Bench ikut membawa peran agent harness

Terminal-Bench 2.0 mudah disalahartikan karena leaderboard publik mencantumkan pasangan agen/model, bukan skor model dasar yang berdiri sendiri [1]. Di leaderboard itu, GPT-5.3-Codex muncul di 78,4% bersama SageAgent, 77,3% bersama Droid, dan 75,1% bersama Simple Codex [1]. Claude Opus 4.6 muncul di 79,8% bersama ForgeCode, 75,3% bersama Capy, dan 62,9% bersama Terminus 2 [1].

Rentang tersebut cukup besar untuk mengubah pemenang yang terlihat. Perbandingan berfokus GPT-5.4 melaporkan GPT-5.3-Codex unggul atas Claude Opus 4.6 di Terminal-Bench 2.0, yaitu 77,3% versus 65,4% [3]. Namun leaderboard publik menampilkan pasangan ForgeCode/Claude Opus 4.6 di 79,8%, di atas pasangan SageAgent/GPT-5.3-Codex di 78,4% [1]. Kesimpulan praktisnya: untuk evaluasi terminal-agent, samakan dulu harness sebelum mengklaim model mana yang lebih baik.

Membaca kekuatan tiap model

Claude Opus 4.6: sinyal terkuat untuk bug fixing gaya Verified

Jika tolok ukur utama Anda adalah kualitas perbaikan bug repositori ala SWE-Bench Verified, Claude Opus 4.6 adalah titik awal paling kuat berdasarkan sumber ini. Skor Verified yang dilaporkan terkonsentrasi di sekitar 79% sampai 81%: 79,2% dalam analisis GPT-5.4, 79,4% dalam perbandingan Opus-vs-Codex, dan 80,8% dalam rangkuman benchmark lain [3][5][6][7][9].

Namun itu tidak membuktikan Opus 4.6 menang di semua pekerjaan coding. Ceritanya di Terminal-Bench bercampur: beberapa laporan perbandingan mengutip 65,4%, sementara leaderboard publik menunjukkan 79,8% ketika Opus 4.6 dipasangkan dengan ForgeCode dan 62,9% ketika dipasangkan dengan Terminus 2 [1][3][7][9]. Dengan kata lain, Opus 4.6 adalah kandidat awal yang aman untuk perbaikan repositori gaya Verified, tetapi bukan juara universal untuk semua jenis coding.

GPT-5.3-Codex: kandidat OpenAI yang kuat untuk pekerjaan terminal-agent

GPT-5.3-Codex punya kasus paling kuat di keluarga OpenAI ketika beban kerjanya mirip pekerjaan agen di shell atau terminal. Ia dilaporkan di 77,3% pada Terminal-Bench 2.0 dalam laporan perbandingan, dan leaderboard publik mencantumkan GPT-5.3-Codex di 78,4% bersama SageAgent, 77,3% bersama Droid, serta 75,1% bersama Simple Codex [1][3][7][9].

Interpretasi SWE-Bench untuk GPT-5.3-Codex perlu lebih hati-hati. Sebagian laporan mencantumkannya di 78,2% pada SWE-Bench Pro Public, sementara laporan lain mencantumkan 56,8% pada SWE-Bench Pro [3][6][7][9]. Karena sumber yang dikutip memperingatkan bahwa varian-varian ini tidak bisa dipertukarkan begitu saja, GPT-5.3-Codex sebaiknya dinilai pada varian SWE-Bench dan pengaturan evaluasi yang sama dengan rencana penggunaan Anda [6][7][10].

GPT-5.4: kenaikan coding moderat, lebih menarik di sisi tool

Dalam kumpulan benchmark yang tersedia, GPT-5.4 tidak tampak sebagai lompatan besar untuk coding. Perbandingan satu sumber memberi GPT-5.4 keunggulan tipis di SWE-Bench Pro atas GPT-5.3-Codex, 57,7% versus 56,8%, tetapi sekaligus menunjukkan hasil Terminal-Bench 2.0 yang lebih rendah, 75,1% versus 77,3% [3].

Data yang lebih khas dari GPT-5.4 justru ada pada penggunaan tool. Analisis GPT-5.4 menyebut tool search mengurangi penggunaan token MCP sebesar 47% dengan memuat definisi tool sesuai kebutuhan, bukan memasukkan semua definisi ke dalam konteks [3]. Untuk agen coding yang banyak memakai tool, ini bisa menjadi keuntungan sistem yang nyata. Tetapi tetap ukur secara terpisah dari akurasi benchmark seperti SWE-Bench atau Terminal-Bench.

Cara membandingkan tanpa tertipu angka cantik

  1. Tentukan varian benchmark sebelum menentukan pemenang. SWE-Bench Verified, SWE-Bench Pro, dan SWE-Bench Pro Public tidak sebaiknya dilebur menjadi satu tabel skor [6][7][10].
  2. Samakan agent harness untuk tugas terminal. Leaderboard publik Terminal-Bench 2.0 menunjukkan model yang sama bisa mendapatkan akurasi berbeda ketika dipasangkan dengan agen berbeda [1].
  3. Pisahkan akurasi coding dari efisiensi tool. Klaim pengurangan token MCP sebesar 47% pada GPT-5.4 berguna untuk sistem yang berat memakai tool, tetapi itu bukan klaim yang sama dengan menang di SWE-Bench atau Terminal-Bench [3].
  4. Perlakukan ranking lintas-sumber sebagai arah awal, bukan vonis akhir. Sumber yang tersedia mendukung pemenang berbeda di benchmark berbeda; satu ranking universal akan melebih-lebihkan bukti yang ada [1][3][6][7][10].

Kesimpulan

Mulailah dengan Claude Opus 4.6 untuk perbaikan bug repositori gaya SWE-Bench Verified. Masukkan GPT-5.3-Codex dalam adu uji internal untuk workflow terminal-agent. Uji GPT-5.4 bila Anda membutuhkan model OpenAI terbaru atau ingin mengukur efisiensi tool search dan penggunaan token MCP [1][3][5][7][9].

Vonis paling aman bukan bahwa satu model mendominasi semua pekerjaan coding. Pemenangnya berubah mengikuti varian benchmark, agent harness, dan jenis pekerjaan yang benar-benar akan Anda jalankan [1][6][7][10].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Cari dan periksa fakta dengan Studio Global AI

Poin-poin penting

  • Belum ada juara coding universal: Claude Opus 4.6 paling kuat di SWE Bench Verified sekitar 79–81%, GPT 5.3 Codex unggul dalam perbandingan OpenAI Terminal Bench 2.0 yang dikutip, dan GPT 5.4 naik tipis, bukan jauh [1...
  • Uji Opus 4.6 lebih dulu untuk perbaikan bug repositori ala Verified, GPT 5.3 Codex untuk workflow agen terminal, dan GPT 5.4 bila sistem Anda banyak memakai tool atau MCP dengan klaim penghematan token 47% [1][3].
  • Jangan menyamakan SWE Bench Verified, SWE Bench Pro, dan SWE Bench Pro Public; beberapa laporan menyebut varian itu tidak bisa dibandingkan langsung [6][7][10].

Orang-orang juga bertanya

Apa jawaban singkat untuk "GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: Mana yang Terbaik untuk Coding?"?

Belum ada juara coding universal: Claude Opus 4.6 paling kuat di SWE Bench Verified sekitar 79–81%, GPT 5.3 Codex unggul dalam perbandingan OpenAI Terminal Bench 2.0 yang dikutip, dan GPT 5.4 naik tipis, bukan jauh [1...

Apa poin penting yang harus divalidasi terlebih dahulu?

Belum ada juara coding universal: Claude Opus 4.6 paling kuat di SWE Bench Verified sekitar 79–81%, GPT 5.3 Codex unggul dalam perbandingan OpenAI Terminal Bench 2.0 yang dikutip, dan GPT 5.4 naik tipis, bukan jauh [1... Uji Opus 4.6 lebih dulu untuk perbaikan bug repositori ala Verified, GPT 5.3 Codex untuk workflow agen terminal, dan GPT 5.4 bila sistem Anda banyak memakai tool atau MCP dengan klaim penghematan token 47% [1][3].

Apa yang harus saya lakukan selanjutnya dalam latihan?

Jangan menyamakan SWE Bench Verified, SWE Bench Pro, dan SWE Bench Pro Public; beberapa laporan menyebut varian itu tidak bisa dibandingkan langsung [6][7][10].

Topik terkait manakah yang harus saya jelajahi selanjutnya?

Lanjutkan dengan "Chip AI Bikin Bursa Korea Selatan Salip Kanada Jadi Nomor 7 Dunia" untuk sudut pandang lain dan kutipan tambahan.

Buka halaman terkait

Dengan apa saya harus membandingkannya?

Periksa ulang jawaban ini dengan "Saat Dibius Total, Otak Masih Bisa Merespons Suara—Tapi Belum Tentu Memahami Bahasa".

Buka halaman terkait

Lanjutkan penelitian Anda

Sumber

  • [1] 2.0 Leaderboardtbench.ai

    Rank Agent Model Date Agent Org Model Org Accuracy -- -- -- -- -- -- -- -- 4 ForgeCode Claude Opus 4.6 2026-03-12 ForgeCode Anthropic 79.8%± 1.6 5 SageAgent GPT-5.3-Codex 2026-03-13 OpenSage OpenAI 78.4%± 2.2 6 ForgeCode Gemini 3.1 Pro 2026-03-02 ForgeCode...

  • [3] GPT-5.4: The Real Leap Isn't Coding | Blog - Alex Lavaeealexlavaee.me

    - Coding benchmarks are flat. SWE-Bench Pro: 57.7% vs 56.8% for GPT-5.3-Codex. Terminal-Bench 2.0 actually regressed from 77.3% to 75.1%. - Tool search cuts MCP token usage by 47% by loading tool definitions on demand instead of cramming them all into conte...

  • [5] Best AI for Coding 2026: SWE-Bench Breakdown—Opus 4.6 ...marc0.dev

    I dug into all of them. Here's what the benchmarks actually say, what they don't, and which model is worth your money depending on what you actually build. … Benchmark Claude Opus 4.6 GPT-5.3 Codex Winner -- -- -- -- SWE-bench Verified 80.8% 56.8% Opus 4.6...

  • [6] Claude Opus 4.6 vs GPT-5.3 Codex: Complete Comparisondigitalapplied.com

    79.4% Claude SWE-bench Verified 78.2% GPT-5.3 SWE-bench Pro 77.3% Claude GPQA Diamond 25% GPT-5.3 Speed Gain Key Takeaways Claude leads SWE-bench Verified:: Opus 4.6 scores 79.4% on SWE-bench Verified while GPT-5.3-Codex leads SWE-bench Pro Public at 78.2%...

  • [7] Claude Opus 4.6 vs GPT-5.3 Codex: We Tested Both on Real ...intelligibberish.com

    The Benchmark Numbers Before getting to practical testing, here’s how the flagship models compare on standardized benchmarks. Claude Opus 4.6: - SWE-bench Verified: 79.4% - GPQA Diamond: 77.3% - Terminal-Bench 2.0: 65.4% GPT-5.3 Codex: - SWE-bench Pro Publi...

  • [9] New GPT and Claude Releases Continue to One-Up Themselvesblog.kilo.ai

    - Agent Teams (preview) — multiple Claude instances collaborating in parallel on tasks like code review, testing, and documentation - 80.8% on SWE-Bench Verified — the highest score on real-world bug-fixing evaluations - 65.4% on Terminal-Bench 2.0 — a new...

  • [10] SWE-bench 2026: Claude Opus 4.6 vs GPT-5.4 Coding Benchmarksevolink.ai

    Here is the practical answer: - Claude Opus 4.6 has strong official coding claims from Anthropic, including public discussion of SWE-bench Verified methodology and strong performance on Terminal-Bench 2.0. - GPT-5.4 has strong official coding claims from Op...