studioglobal
Temukan yang Sedang Tren
JawabanDipublikasikan6 sumber

DeepSeek V4, Kimi K2.6, Claude Opus 4.7, dan GPT-5.5: perbandingan benchmark

Tidak ada juara mutlak: data resmi OpenAI mencatat GPT 5.5 82,7% di Terminal Bench 2.0 dan 58,6% di SWE Bench Pro, sementara data langsung untuk DeepSeek V4 lebih banyak baru soal ketersediaan API [24][25]. Untuk perbaikan issue GitHub dan benchmark coding, angka pihak ketiga yang dikutip lebih condong ke Claude Opu...

18K0
Illustration eines Benchmark-Dashboards für DeepSeek V4, Kimi K2.6, Claude Opus 4.7 und GPT-5.5
DeepSeek V4 vsBenchmark-Vergleiche zwischen Frontier-Modellen sind nur sinnvoll, wenn offizielle Werte, Sekundärdaten und eigene Evals getrennt betrachtet werden.
AI Perintah

Create a landscape editorial hero image for this Studio Global article: DeepSeek V4 vs. Kimi K2.6 vs. Claude Opus 4.7 vs. GPT-5.5: Benchmark-Vergleich. Article summary: Es gibt keinen sauber belegten Gesamtsieger: GPT 5.5 ist offiziell mit 82,7% auf Terminal Bench 2.0 und 58,6% auf SWE Bench Pro belegt, während Claude Opus 4.7 in Sekundärdaten bei SWE bench stärker wirkt; für Kimi K2.... Topic tags: ai, llm, ai benchmarks, coding agents, developer tools. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.yo

openai.com

Benchmark model AI sering menggoda untuk dibaca seperti klasemen: siapa nomor satu, siapa tertinggal. Untuk empat model ini, pendekatan itu kurang aman. Bobot datanya tidak sama. OpenAI menerbitkan angka resmi untuk GPT-5.5 di Terminal-Bench 2.0 dan SWE-Bench Pro [24]. DeepSeek, lewat changelog API resminya, terutama mengonfirmasi ketersediaan V4-Pro dan V4-Flash [25]. Sementara itu, angka pembanding paling langsung untuk Claude Opus 4.7 dan Kimi K2.6 dalam sumber yang digunakan di sini lebih banyak berasal dari analisis pihak ketiga [4][6].

Ringkasan cepat: pakai untuk apa?

  • Coding dan perbaikan issue GitHub: Claude Opus 4.7 terlihat lebih kuat daripada GPT-5.5 pada angka SWE-Bench, SWE-Bench Verified, dan CursorBench yang dikutip oleh LushBinary [4].
  • Terminal-agent dan computer use: GPT-5.5 punya dasar paling jelas, termasuk 82,7% di Terminal-Bench 2.0 dalam publikasi OpenAI [24].
  • Coding-agent yang sensitif biaya: Kimi K2.6 digambarkan CodeRouter sebagai pemenang biaya/kualitas dengan harga US$0,60 untuk input dan US$4,00 untuk output per 1 juta token [6].
  • DeepSeek V4: V4-Pro dan V4-Flash sudah tersedia melalui DeepSeek API, tetapi sumber yang dipakai di sini belum memberikan matriks benchmark resmi empat model melawan Kimi K2.6, Claude Opus 4.7, dan GPT-5.5 [25].

Yang benar-benar bisa disimpulkan dari sumber

OpenAI menjelaskan Terminal-Bench 2.0 sebagai benchmark untuk workflow command-line kompleks yang membutuhkan perencanaan, iterasi, dan koordinasi tool; GPT-5.5 mencapai 82,7% pada benchmark itu menurut OpenAI [24]. Pada SWE-Bench Pro, yang mengevaluasi penyelesaian issue GitHub dunia nyata, OpenAI mencatat GPT-5.5 di 58,6% [24].

DeepSeek mendokumentasikan bahwa V4-Pro dan V4-Flash dapat dipakai lewat antarmuka OpenAI ChatCompletions maupun antarmuka Anthropic, dengan parameter model deepseek-v4-pro dan deepseek-v4-flash [25]. Ini bukti ketersediaan API, bukan bukti bahwa DeepSeek V4 menang di benchmark tertentu.

Untuk Claude Opus 4.7 dan Kimi K2.6, angka langsung dalam artikel ini perlu dibaca lebih hati-hati: LushBinary menyediakan nilai Claude-vs-GPT, sedangkan CodeRouter memberi klaim harga dan penempatan Kimi K2.6 serta DeepSeek V4 [4][6].

Tabel benchmark yang ada di sumber

Catatan: Belum ada angka sebanding berarti sumber yang dipakai di sini tidak menyediakan nilai yang cukup kuat dan langsung sebanding untuk kombinasi model-benchmark tersebut.

Benchmark / kriteriaDeepSeek V4Kimi K2.6Claude Opus 4.7GPT-5.5
SWE-Bench ProBelum ada angka sebandingsetara GPT-5.5 menurut CodeRouter [6]64,3% [4]58,6% [24]
SWE-Bench VerifiedBelum ada angka sebandingBelum ada angka sebanding87,6% [4]sekitar 85% [4]
Terminal-Bench 2.0Belum ada angka sebandingBelum ada angka sebandingsekitar 72% [4]82,7% [24]
GDPval / knowledge workBelum ada angka sebandingBelum ada angka sebandingsekitar 78% [4]84,9% [4]
OSWorld-Verified / computer useBelum ada angka sebandingBelum ada angka sebandingsekitar 65% [4]78,7% [4]
GPQA DiamondBelum ada angka sebandingBelum ada angka sebanding94,2% [4]sekitar 93% [4]
CursorBenchBelum ada angka sebandingBelum ada angka sebanding70% [4]sekitar 65% [4]
Tau2-bench TelecomBelum ada angka sebandingBelum ada angka sebandingsekitar 90% [4]98,0% [4]
Vision & Document ArenaBelum ada angka sebandingBelum ada angka sebandingperingkat 1 menurut laporan Arena yang dikutip AINews [1]Belum ada angka sebanding
Harga / konteksV4 Flash: US$0,14 input / US$0,28 output per 1 juta token dan konteks 1 juta token [6]US$0,60 input / US$4,00 output per 1 juta token [6]Belum ada angka di sumber iniBelum ada angka di sumber ini

Coding: Claude Opus 4.7 unggul di angka yang tersedia

Jika fokusnya adalah coding, terutama memperbaiki bug atau issue di repository, data yang tersedia lebih mengarah ke Claude Opus 4.7. LushBinary mencatat Claude Opus 4.7 di 64,3% pada SWE-Bench Pro, dibandingkan 58,6% untuk GPT-5.5; angka GPT-5.5 sebesar 58,6% itu juga muncul dalam publikasi resmi OpenAI [4][24]. Claude Opus 4.7 juga berada di depan GPT-5.5 pada SWE-Bench Verified dan CursorBench menurut sumber pihak ketiga yang sama [4].

Kimi K2.6 tetap menarik untuk coding karena CodeRouter menempatkannya pada level GPT-5.5 di SWE-Bench Pro sambil menyebut harga token yang rendah [6]. Bagi tim yang menjalankan banyak agent-run, draft, atau retry, selisih biaya per 1 juta token bisa menjadi faktor penting. Namun, klaim biaya/kualitas tetap perlu dibuktikan dengan evaluasi internal pada kode dan workflow sendiri.

Untuk DeepSeek V4, sumber resmi DeepSeek yang dipakai di sini belum memberi angka coding-benchmark. Yang sudah jelas adalah V4-Pro dan V4-Flash tersedia di API [25].

Terminal-agent dan computer use: GPT-5.5 paling kuat buktinya

Untuk tugas yang melibatkan terminal, shell command, dan orkestrasi tool, GPT-5.5 punya bukti publik paling kuat. OpenAI menyebut 82,7% pada Terminal-Bench 2.0, benchmark yang menguji workflow command-line kompleks dengan perencanaan, iterasi, dan koordinasi tool [24]. Dalam perbandingan LushBinary, Claude Opus 4.7 ditempatkan sekitar 72% pada benchmark yang sama [4].

Sumber pihak ketiga yang sama juga lebih menguntungkan GPT-5.5 pada metrik knowledge work dan computer use: 84,9% di GDPval dibanding sekitar 78% untuk Claude Opus 4.7, serta 78,7% di OSWorld-Verified dibanding sekitar 65% untuk Claude Opus 4.7 [4]. Jadi, untuk workflow yang dekat dengan terminal-agent, tool-calling, dan penggunaan komputer, GPT-5.5 adalah titik awal yang paling kuat berdasarkan angka yang tersedia.

Vision dan dokumen: sinyal positif paling jelas ada pada Claude

Untuk tugas vision dan dokumen, sumber yang tersedia tidak menyediakan tabel lengkap empat model. Sinyal paling jelas adalah untuk Claude Opus 4.7: laporan Arena yang dikutip Latent Space/AINews menyebut Claude Opus 4.7 berada di peringkat 1 Vision & Document Arena [1].

LLM Stats juga melaporkan bahwa Claude Opus 4.7 dapat memproses gambar hingga 2.576 piksel pada sisi panjang, atau sekitar 3,75 megapiksel; GPT-5.5 disebut mendukung input gambar dan diberi nilai MMMU-Pro 81,2% tanpa tool serta 83,2% dengan tool [5]. Angka ini membantu membaca posisi Claude terhadap GPT-5.5, tetapi belum menggantikan uji empat arah yang setara dengan Kimi K2.6 dan DeepSeek V4.

Harga-kinerja: Kimi K2.6 dan DeepSeek V4 Flash layak masuk daftar uji

Argumen harga paling jelas dalam sumber ini ada pada Kimi K2.6. CodeRouter menyebut Kimi K2.6 sebagai pemenang biaya/kualitas dengan harga US$0,60 untuk input dan US$4,00 untuk output per 1 juta token [6].

DeepSeek V4 Flash dalam sumber yang sama ditampilkan sebagai opsi workhorse murah dengan US$0,14 untuk input dan US$0,28 untuk output per 1 juta token, serta konteks 1 juta token [6]. Dokumentasi resmi DeepSeek juga mengonfirmasi bahwa V4-Pro dan V4-Flash tersedia lewat antarmuka API saat ini [25].

Namun, harga murah bukan berarti otomatis menang di benchmark. Dalam produksi, yang paling penting adalah biaya per hasil yang diterima: berapa kali model harus mencoba ulang, seberapa parah kesalahannya, dan berapa banyak kerja manusia yang diperlukan untuk memperbaiki output.

Cara menguji empat model ini secara adil

Untuk keputusan produksi, jangan hanya mengandalkan papan skor publik. Buat set evaluasi kecil dari tugas nyata: issue dari codebase sendiri, dokumen yang benar-benar dipakai, atau workflow agent yang memang akan dijalankan. Ukur bukan cuma jawaban pertama, tetapi juga biaya per hasil yang diterima, kebutuhan retry, tingkat kesalahan, waktu jalan, dan stabilitas.

Pisahkan pula nilai resmi vendor dari data pihak ketiga. Dalam perbandingan ini, GPT-5.5 punya angka resmi OpenAI untuk Terminal-Bench 2.0 dan SWE-Bench Pro [24]. DeepSeek V4 punya bukti resmi ketersediaan API [25]. Sementara itu, pernyataan pembanding paling kuat untuk Claude Opus 4.7 dan Kimi K2.6 di sini terutama berasal dari sumber pihak ketiga [4][6].

Kesimpulan

Tidak ada pemenang mutlak. Claude Opus 4.7 memimpin pada angka coding yang dikutip, GPT-5.5 paling kuat buktinya untuk terminal-agent dan computer use, Kimi K2.6 membawa narasi harga-kinerja paling jelas, dan DeepSeek V4 adalah kandidat API yang sudah tersedia tetapi perlu diukur dalam eval sendiri [4][24][6][25].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Cari dan periksa fakta dengan Studio Global AI

Poin-poin penting

  • Tidak ada juara mutlak: data resmi OpenAI mencatat GPT 5.5 82,7% di Terminal Bench 2.0 dan 58,6% di SWE Bench Pro, sementara data langsung untuk DeepSeek V4 lebih banyak baru soal ketersediaan API [24][25].
  • Untuk perbaikan issue GitHub dan benchmark coding, angka pihak ketiga yang dikutip lebih condong ke Claude Opus 4.7; untuk terminal agent dan computer use, GPT 5.5 punya bukti paling kuat [4][24].
  • Kimi K2.6 digambarkan sebagai kandidat harga/kualitas dengan US$0,60 input dan US$4,00 output per 1 juta token, sedangkan DeepSeek V4 Pro dan V4 Flash sudah tersedia lewat DeepSeek API [6][25].

Orang-orang juga bertanya

Apa jawaban singkat untuk "DeepSeek V4, Kimi K2.6, Claude Opus 4.7, dan GPT-5.5: perbandingan benchmark"?

Tidak ada juara mutlak: data resmi OpenAI mencatat GPT 5.5 82,7% di Terminal Bench 2.0 dan 58,6% di SWE Bench Pro, sementara data langsung untuk DeepSeek V4 lebih banyak baru soal ketersediaan API [24][25].

Apa poin penting yang harus divalidasi terlebih dahulu?

Tidak ada juara mutlak: data resmi OpenAI mencatat GPT 5.5 82,7% di Terminal Bench 2.0 dan 58,6% di SWE Bench Pro, sementara data langsung untuk DeepSeek V4 lebih banyak baru soal ketersediaan API [24][25]. Untuk perbaikan issue GitHub dan benchmark coding, angka pihak ketiga yang dikutip lebih condong ke Claude Opus 4.7; untuk terminal agent dan computer use, GPT 5.5 punya bukti paling kuat [4][24].

Apa yang harus saya lakukan selanjutnya dalam latihan?

Kimi K2.6 digambarkan sebagai kandidat harga/kualitas dengan US$0,60 input dan US$4,00 output per 1 juta token, sedangkan DeepSeek V4 Pro dan V4 Flash sudah tersedia lewat DeepSeek API [6][25].

Topik terkait manakah yang harus saya jelajahi selanjutnya?

Lanjutkan dengan "Apakah Anak yang Cepat Mengenali Kata Pasti Punya Kosakata Lebih Banyak?" untuk sudut pandang lain dan kutipan tambahan.

Buka halaman terkait

Dengan apa saya harus membandingkannya?

Periksa ulang jawaban ini dengan "Respons Pengasuh yang Lebih Kaya Terkait dengan Kemampuan Bahasa Anak Prasekolah".

Buka halaman terkait

Lanjutkan penelitian Anda

Percakapan penelitian

kamu

Pertanyaan penelitian

Vergleiche die Benchmarks von DeepSeek V4, Kimi K2.6, Claude Opus 4.7 und GPT-5.5.

Studio Global AI26 sumber

Jawaban yang dikutip

Ein sauberer Benchmark-Vergleich ist derzeit nur eingeschränkt möglich: Für Claude Opus 4.7 und GPT-5.5 kursieren konkrete Vergleichswerte, aber für DeepSeek V4 und Kimi K2.6 finde ich keine gleichwertig belastbaren offiziellen Benchmark-Tabellen in den verfügbaren Quellen. Daher: Claude Opus 4.7 wirkt bei SWE-bench stärker, GPT-5.5 bei Terminal-/Agent-/Computer-Use-Benchmarks; Kimi K2.6 wird vor allem als Preis-Leistungs-Modell beschrieben; DeepSeek V4 ist laut DeepSeek-API-Changelog verfügbar, aber ohne robuste öffentliche Benchmark-Abdeckung in den gefundenen Quellen [4][6].

Benchmark / KriteriumDeepSeek V4Kimi K2.6Claude Opus 4.7GPT-5.5
SWE-bench ProInsufficient evidencelaut Sekundärquelle etwa auf GPT-5.5-Niveau bzw. starkes Preis-Leistungs-Profil [6]64.3% [4]58.6% [4]
SWE-bench VerifiedInsufficient evidenceInsufficient evidence87.6% [4]ca. 85% [4]
Terminal-Bench 2.0Insufficient evidenceInsufficient evidenceca. 72% [4]82.7% [4]
GDPval / Knowledge WorkInsufficient evidenceInsufficient evidenceca. 78% [4]84.9% [4]
OSWorld-Verified / Computer UseInsufficient evidenceInsufficient evidenceca. 65% [4]78.7% [4]
Vision / Document ArenaInsufficient evidenceInsufficient evidencelaut Arena-Bericht Platz 1 in Vision & Document Arena [1]Insufficient evidence
Preis-LeistungInsufficient evidenceals starker Kosten-/Qualitäts-Kandidat beschrieben [6]teuer/stark, aber nicht als Kostenführer beschrieben [6]stark, aber nicht Kostenführer laut Vergleich [6]
  • Coding: Claude Opus 4.7 liegt in den gefundenen Zahlen bei SWE-bench Pro und SWE-bench Verified vor GPT-5.5 [4].

  • Agentic / Terminal / Computer Use: GPT-5.5 liegt in den gefundenen Vergleichswerten bei Terminal-Bench 2.0, GDPval und OSWorld-Verified vor Claude Opus 4.7 [4].

  • Multimodal/Vision: Claude Opus 4.7 wird in den gefundenen Arena-Berichten als führend in Vision & Document Arena beschrieben [1].

  • Kimi K2.6: Die verfügbaren Quellen beschreiben Kimi K2.6 eher als Preis-Leistungs- bzw. Open-Model-Kandidat; belastbare direkte Zahlen für alle Benchmarks neben den anderen drei Modellen fehlen in den gefundenen Quellen [6][8].

  • DeepSeek V4: DeepSeek V4-Pro und V4-Flash werden im DeepSeek-API-Changelog als verfügbar genannt, aber ich finde in den verfügbaren Quellen keine ausreichend belastbare offizielle Benchmark-Tabelle für einen fairen direkten Vergleich [6].

  • Wichtig: Die beste belastbare Aussage ist nicht “ein Modell gewinnt alles”, sondern: Claude Opus 4.7 ist nach den gefundenen Zahlen stärker bei SWE-bench, GPT-5.5 stärker bei Terminal-/Agent-/Computer-Use, Kimi K2.6 wahrscheinlich attraktiver bei Kosten pro Leistung, und DeepSeek V4 bleibt mangels öffentlicher Benchmark-Daten schwer einzuordnen [4][6].

Sumber

  • [1] [AINews] Moonshot Kimi K2.6: the world's leading Open Model ...latent.space

    Arena results continued to matter for multimodal models. @arena reported Claude Opus 4.7 taking 1 in Vision & Document Arena, with +4 points over Opus 4.6 in Document Arena and a large margin over the next non-Anthropic models. Subcategory wins included dia...

  • [4] GPT-5.5 vs Claude Opus 4.7: Benchmarks, Pricing & Coding ...lushbinary.com

    Benchmark GPT-5.5 Opus 4.7 Gemini 3.1 Pro --- --- SWE-bench Pro 58.6% 64.3% 54.2% SWE-bench Verified 85% 87.6% 80% Terminal-Bench 2.0 82.7% 72% 68% GDPval (Knowledge Work) 84.9% 78% 75% OSWorld-Verified (Computer Use) 78.7% 65% 60% GPQA Diamond 93% 94.2% 91...

  • [5] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com

    Vision: 3.75 MP vs Standard Opus 4.7 reads images at roughly 3.3× the resolution of any comparable model. Up to 2,576 pixels on the long edge ( 3.75 megapixels), versus 1,568 px ( 1.15 MP) on prior Claude models. Scores align: Opus 4.7 reports 91.0% on Char...

  • [6] GPT-5.5, DeepSeek V4, Kimi K2.6 at a Glance - CodeRoutercoderouter.io

    TL;DR — In one week (April 20–23, 2026), four frontier coding models shipped: Kimi K2.6 (Moonshot, Apr 20), GPT-5.5 (OpenAI, Apr 23), DeepSeek V4 Pro + V4 Flash (preview, April). Claude Opus 4.7 is still the SWE-Bench Pro champion. Kimi K2.6 is the new cost...

  • [24] Introducing GPT-5.5 - OpenAIopenai.com

    Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...

  • [25] Change Log | DeepSeek API Docsapi-docs.deepseek.com

    DeepSeek API Docs Logo DeepSeek API Docs Logo Change Log Date: 2026-04-24​ DeepSeek-V4​ The DeepSeek API now supports V4-Pro and V4-Flash, available via both the OpenAI ChatCompletions interface and the Anthropic interface. To access the new models, the bas...