Sampai April 2026, membandingkan GPT‑5.5, Claude Opus 4.7, Kimi K2.6, dan DeepSeek V4 bukan soal mencari satu model yang selalu menang. Lebih tepat dibaca sebagai peta beban kerja: model mana yang lebih kuat untuk agen yang memakai browser dan terminal, mana yang lebih pas untuk memperbaiki repo produksi, mana yang praktis untuk open weights, dan mana yang layak diuji untuk konteks panjang.
Catatan pentingnya: angka benchmark dari berbagai lab, vendor, tool, dan setting inferensi tidak selalu bisa dibandingkan lurus. LM Council juga mengingatkan bahwa benchmark independen bisa tidak cocok dengan skor self-reported dari organisasi AI. [12]
Kesimpulan cepat
- Untuk agentic computer-use, workflow browser, dan agen yang banyak memakai terminal: GPT‑5.5 punya sinyal publik paling kuat. Data peluncuran OpenAI mencantumkan Terminal‑Bench 2.0 82,7%, OSWorld‑Verified 78,7%, BrowseComp 84,4%, dan Toolathlon 55,6%. [
5]
- Untuk perbaikan codebase produksi dan coding gaya SWE‑Bench: Claude Opus 4.7 menjadi kandidat terkuat. Angka yang dilaporkan mencakup SWE‑Bench Verified 87,6% dan SWE‑Bench Pro 64,3%. [
17]
- Untuk stack coding open weights: Kimi K2.6 sangat kompetitif. Materi resmi Kimi mencatat Terminal‑Bench 2.0 66,7%, SWE‑Bench Pro 58,6%, SWE‑Bench Verified 80,2%, dan LiveCodeBench v6 89,6. [
29]
- Untuk eksperimen long-context berbasis open-source/open-weights: DeepSeek V4 layak masuk daftar uji, tetapi varian persisnya harus dicek. DeepSeek menyebut V4 Preview resmi live dan open-sourced pada 24 April 2026. [
42]
- Untuk reasoning sains: Claude Opus 4.7 dilaporkan mencapai GPQA Diamond 94,2%; Kimi K2.6 mencapai GPQA-Diamond 90,5% dan AIME 2026 96,4%; tabel DeepSeek V4-Pro/Pro-Max melaporkan GPQA Diamond 90,1. [
19][
27][
29][
37]
Tiga hal yang perlu dipahami sebelum membaca tabel
- Setiap benchmark mengukur kemampuan yang berbeda. Terminal‑Bench, SWE‑Bench, BrowseComp, OSWorld, GPQA, dan HLE tidak menguji hal yang sama. Model yang bagus untuk coding belum tentu paling baik untuk riset web, long-context retrieval, atau computer-use. [
5][
17][
29]
- Akses tool dan effort inferensi bisa mengubah hasil. OpenAI system card menjelaskan GPT‑5.5 Pro sebagai model dasar yang sama dengan GPT‑5.5, tetapi memakai setting parallel test-time compute. Jadi skor GPT‑5.5 dan GPT‑5.5 Pro tidak boleh dianggap berasal dari budget inferensi yang identik. [
3]
- Leaderboard publik bagus untuk shortlist, bukan keputusan final. Skor self-reported dan hasil benchmark independen bisa berbeda, sehingga tim yang akan memakai model di produksi tetap perlu evaluasi dengan workload sendiri. [
12]
Peta kekuatan tiap model
| Model | Posisi publik | Sinyal terkuat | Catatan utama |
|---|---|---|---|
| GPT‑5.5 | Materi peluncuran OpenAI menekankan computer-use, tool-use, dan workflow agentic. [ | Terminal‑Bench 2.0 82,7%, OSWorld‑Verified 78,7%, BrowseComp 84,4%; GPT‑5.5 Pro BrowseComp 90,1. [ | Skor Pro jangan dibaca sama seperti GPT‑5.5 reguler, karena Pro memakai parallel test-time compute. [ |
| Claude Opus 4.7 | Anthropic menyebutnya model hybrid reasoning untuk coding dan AI agents, dengan context window 1 juta token. [ | SWE‑Bench Verified 87,6% dan SWE‑Bench Pro 64,3%. [ | Context window besar tidak otomatis berarti recall sempurna; ringkasan StationX mencatat caveat pada recall ekstrem di 1 juta token. [ |
| Kimi K2.6 | Model open-source/open-weights dari Moonshot/Kimi yang berorientasi coding. [ | Terminal‑Bench 2.0 66,7%, SWE‑Bench Pro 58,6%, SWE‑Bench Verified 80,2%, LiveCodeBench v6 89,6. [ | Artificial Analysis menyebut Kimi K2.6 mendukung input gambar dan video secara native serta max context length 256k; performa riil tetap bisa dipengaruhi setup deployment. [ |
| DeepSeek V4-Pro / Pro-Max | Dokumen resmi menyebut DeepSeek V4 Preview live dan open-sourced; kartu Hugging Face memosisikan seri V4 sebagai model bahasa MoE. [ | SWE Verified 80,6, SWE Pro 55,4, Terminal Bench 2.0 67,9, dan GPQA Diamond 90,1. [ | Nama DeepSeek V4 mencakup perbedaan varian, jadi hasil Flash, Pro, dan Pro-Max perlu dibaca terpisah. [ |
Tabel benchmark head-to-head
| Benchmark | GPT‑5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4-Pro / Pro-Max | Cara membacanya |
|---|---|---|---|---|---|
| Terminal‑Bench 2.0 | 82,7% [ | 69,4% dilaporkan [ | 66,7% [ | 67,9% [ | Untuk tugas command-line dan autonomous coding, keunggulan GPT‑5.5 terlihat paling jelas. |
| SWE‑Bench Pro | 58,6% [ | 64,3% [ | 58,6% [ | 55,4% [ | Pada benchmark software engineering yang lebih berat, Claude Opus 4.7 berada di depan. |
| SWE‑Bench Verified | Tidak ada nilai publik yang benar-benar sebanding dalam kumpulan sumber ini | 87,6% [ | 80,2% [ | 80,6% [ | Untuk tugas gaya penyelesaian issue repo, sinyal terkuat ada pada Claude. |
| OSWorld‑Verified | 78,7% [ | 78,0% [ | 73,1% [ | Tidak ada nilai sebanding | Untuk computer-use, GPT‑5.5 dan Claude Opus 4.7 sangat berdekatan. |
| BrowseComp | 84,4%; GPT‑5.5 Pro 90,1% [ | 79,3% [ | 83,2%; Agent Swarm 86,3% [ | Tidak ada nilai sebanding | Untuk browser-agent dan riset web, GPT‑5.5 Pro dan Kimi Agent Swarm sama-sama memberi sinyal kuat. |
| GPQA Diamond | Tidak ada nilai resmi sebanding dalam kumpulan sumber ini | 94,2% [ | 90,5% [ | 90,1% [ | Untuk reasoning sains tingkat lanjut, skor Claude yang dilaporkan paling tinggi. |
| HLE / hard reasoning | Tidak ada nilai langsung yang sebanding | HLE no-tools 46,9%, with-tools 54,7% [ | HLE-Full 34,7%; with-tools 54,0% [ | HLE 37,7% [ | Pada HLE dengan tool, Claude dan Kimi cukup dekat; nilai DeepSeek yang tercantum lebih rendah. |
| Long context | Spesifikasi konteks publik tidak jelas dalam kutipan peluncuran yang tersedia | Context window 1 juta token [ | Max context length 256k [ | Materi V4 memberi positioning long-context [ | Untuk long-context, Claude dan DeepSeek lebih jelas diposisikan, tetapi kualitas recall tetap harus diuji sendiri. |
Pilihan terbaik berdasarkan pekerjaan
1. Agen coding yang banyak memakai terminal: GPT‑5.5
Jika workload Anda melibatkan aksi terminal, browser atau tool use, tugas OS-level, dan loop agen multi-langkah, GPT‑5.5 terlihat paling kuat dalam data ini. OpenAI melaporkan Terminal‑Bench 2.0 82,7%, OSWorld‑Verified 78,7%, BrowseComp 84,4%, dan Toolathlon 55,6%. [5]
Namun, jangan menyamakan GPT‑5.5 Pro dengan GPT‑5.5 reguler. Skor BrowseComp GPT‑5.5 Pro mencapai 90,1%, tetapi OpenAI system card menyebut Pro sebagai setting parallel test-time compute pada model dasar yang sama. [3][
5]
Cocok untuk: coding agents, agen riset browser, automasi computer-use, asisten enterprise yang banyak memakai tool.
2. Perbaikan codebase produksi: Claude Opus 4.7
Kalau KPI utama Anda adalah memperbaiki bug di repository nyata, menyiapkan pull request, membuat test lulus, dan memahami codebase besar, Claude Opus 4.7 adalah kandidat shortlist paling kuat. SWE‑Bench Verified 87,6% dan SWE‑Bench Pro 64,3% menempatkannya di depan pada benchmark software engineering yang dilaporkan. [17]
Anthropic juga memosisikan Claude Opus 4.7 sebagai model hybrid reasoning untuk coding dan AI agents dengan context window 1 juta token, sehingga wajar untuk diuji pada workflow codebase besar. [14]
Cocok untuk: maintenance repo, code review, refactor kompleks, developer copilot, engineering agents.
3. Stack coding open weights: Kimi K2.6
Jika kebutuhan Anda adalah model open weights atau deployment yang memberi kontrol lebih besar, Kimi K2.6 masuk jajaran kandidat terkuat. Tabel resmi Kimi mencantumkan Terminal‑Bench 2.0 66,7%, SWE‑Bench Pro 58,6%, SWE‑Bench Verified 80,2%, SciCode 52,2%, dan LiveCodeBench v6 89,6. [29]
Materi publik Kimi juga menunjukkan sinyal kuat untuk workload agentic dan search-style, termasuk BrowseComp 83,2% dan Agent Swarm BrowseComp 86,3%. [34] Artificial Analysis menyebut model ini mendukung input gambar dan video secara native serta context length 256k. [
32]
Cocok untuk: deployment open model, coding agents, agen riset, dan tim yang butuh kontrol hosting lebih besar.
4. Eksperimen long-context open-source/open-weights: DeepSeek V4
DeepSeek menyebut V4 Preview resmi live dan open-sourced pada 24 April 2026. [42] Kartu model DeepSeek-V4-Pro memosisikan seri V4 sebagai model bahasa Mixture-of-Experts atau MoE. [
37]
Set benchmark DeepSeek V4-Pro/Pro-Max yang dilaporkan mencakup Terminal Bench 2.0 67,9, SWE Verified 80,6, SWE Pro 55,4, dan GPQA Diamond 90,1. [37] Ini membuatnya layak masuk shortlist untuk eksperimen open-source/open-weights dan long-context, tetapi skor harus selalu dibaca bersama nama varian yang tepat. [
37][
42]
Cocok untuk: aplikasi long-context, eksperimen open-source/open-weights, dan tim yang membandingkan frontier model hosted dengan alternatif yang bisa dideploy.
5. Reasoning sains dan matematika: Claude unggul di GPQA, tetapi gambarnya tidak tunggal
Dalam angka yang tersedia, Claude Opus 4.7 mencapai GPQA Diamond 94,2%. [19] Kimi K2.6 melaporkan GPQA-Diamond 90,5% dan AIME 2026 96,4%. [
27][
29] DeepSeek V4-Pro/Pro-Max melaporkan GPQA Diamond 90,1. [
37]
Artinya, Claude sangat layak masuk shortlist untuk reasoning sains. Namun untuk workload matematika dan sains, keputusan sebaiknya tidak bertumpu pada satu benchmark saja. Perbedaan setup benchmark, akses tool, dan mode effort bisa mengubah hasil. [12]
Checklist evaluasi sebelum memilih model
- Jangan memutuskan dari satu benchmark publik. Skor publik dan self-reported bisa berbeda dari run independen, jadi uji dengan prompt, tool budget, timeout, dan rubrik penilaian yang sama. [
12]
- Pisahkan GPT‑5.5 dan GPT‑5.5 Pro. Setting Pro memakai parallel test-time compute, sehingga hasil reguler dan Pro tidak mewakili budget compute yang sama. [
3]
- Tentukan dulu kebutuhan open weights. Jika kontrol data, self-hosting, atau kustomisasi model menjadi syarat utama, evaluasi Kimi K2.6 dan DeepSeek V4 di jalur terpisah. [
29][
34][
37][
42]
- Jangan menilai long context hanya dari ukuran window. Claude Opus 4.7 punya positioning 1 juta token, Kimi K2.6 dilaporkan punya max context 256k, dan materi DeepSeek V4 menekankan long-context; tetap uji recall, kepatuhan instruksi, dan biaya pada dokumen Anda sendiri. [
14][
17][
32][
37][
42]
- Untuk coding agents, gabungkan benchmark publik dengan repo internal. Skor gaya SWE‑Bench berguna sebagai sinyal, tetapi repo produksi punya dependency, flaky tests, coding style, dan constraint review yang berbeda. [
17]
Keterbatasan perbandingan ini
- Tidak ada perbandingan publik lengkap dalam kumpulan sumber ini yang menguji keempat model di lab independen yang sama, dengan harness, tool access, dan effort setting yang sama; LM Council juga memperingatkan bahwa hasil independen bisa tidak sama dengan skor self-reported. [
12]
- GPT‑5.5 Pro tidak boleh dibaca sama dengan GPT‑5.5 reguler, karena OpenAI system card menjelaskan Pro sebagai setting parallel test-time compute pada model dasar yang sama. [
3]
- Skor DeepSeek V4 bersifat spesifik varian. V4 Preview, V4-Pro, dan Pro-Max tidak boleh dicampur menjadi satu skor tunggal bernama DeepSeek V4. [
37][
42]
- Untuk deployment open weights seperti Kimi K2.6 dan DeepSeek V4, serving stack, hardware, quantization, dan setting konteks bisa memengaruhi performa dunia nyata; karena itu benchmark publik perlu dilengkapi evaluasi deployment sendiri. [
29][
34][
37]
Intinya
Shortlist GPT‑5.5 bila pekerjaan utama Anda adalah agentic computer-use, browsing, orkestrasi tool, dan coding yang banyak melibatkan terminal. [5]
Prioritaskan Claude Opus 4.7 bila nilai produk Anda bertumpu pada bug fixing level repo, perbaikan codebase, dan software engineering gaya SWE‑Bench. [14][
17]
Uji Kimi K2.6 bila Anda butuh model coding open weights dengan sinyal kuat di SWE‑Bench, Terminal‑Bench, dan agentic search. [29][
34]
Masukkan DeepSeek V4-Pro/Pro-Max ke shortlist bila eksperimen long-context open-source/open-weights dan deployability menjadi constraint utama, tetapi selalu verifikasi varian dan setup benchmarknya. [37][
42]
Keputusan produk yang paling aman: gunakan tabel benchmark publik untuk membuat shortlist, lalu pilih model final berdasarkan tugas nyata, latency, biaya, batasan privasi, dan failure-mode tests di lingkungan Anda sendiri. [12]




