studioglobal
Temukan yang Sedang Tren
LaporanDipublikasikan10 sumber

GPT-5.5 vs Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6: siapa unggul?

GPT 5.5 adalah all rounder paling kuat dalam data yang tersedia: 60 poin untuk GPT 5.5 xhigh dan 59 untuk GPT 5.5 high di Artificial Analysis, plus 84,4% di BrowseComp [2][3]. Claude Opus 4.7 unggul di SWE Bench Pro dengan 64,3% melawan GPT 5.5 di 58,6%, dan sedikit unggul di GPQA Diamond dengan 94,2% melawan 93,6%;...

17K0
Abstrakte Illustration eines KI-Benchmark-Dashboards mit mehreren konkurrierenden Sprachmodellen
GPT-5.5 vsKI-generierte redaktionelle Illustration zu einem Vergleich aktueller Sprachmodell-Benchmarks.
AI Perintah

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs. Claude Opus 4.7, DeepSeek V4 und Kimi K2.6: Benchmark-Vergleich. Article summary: GPT 5.5 ist in den verfügbaren Quellen der stärkste belegte Allrounder: Es führt den Artificial Analysis Index mit 60 Punkten in der xhigh Konfiguration und liegt bei BrowseComp mit 84,4 % vor Claude Opus 4.7.. Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB

openai.com

Kalau hasil benchmark dibaca seperti klasemen bola, kesimpulannya bisa menyesatkan. Data yang tersedia tidak menjalankan GPT-5.5, Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6 dalam satu tes independen yang seragam. Angkanya datang dari potongan benchmark, varian model, serta analisis vendor atau pihak kedua yang tidak selalu memakai konfigurasi sama [2][3][7][21].

Gambaran besarnya tetap cukup jelas: GPT-5.5 memiliki posisi keseluruhan paling kuat dalam data yang bisa dibandingkan; Claude Opus 4.7 sangat kuat untuk coding dan beberapa tes pengetahuan; DeepSeek V4 menonjol karena performanya dekat dengan model teratas tetapi harga API-nya jauh lebih rendah; sementara Kimi K2.6 menarik secara teknis, tetapi belum punya cukup angka langsung untuk diranking setara [1][2][3][7][22][24].

Jawaban singkat yang paling adil

GPT-5.5 adalah all-rounder paling kuat berdasarkan bukti yang tersedia. Dalam potongan Artificial Analysis, GPT-5.5 xhigh mencetak 60 poin, GPT-5.5 high 59 poin, dan Claude Opus 4.7 57 poin [2]. Di BrowseComp, GPT-5.5 berada di 84,4%, sedikit di atas DeepSeek V4 di 83,4% dan Claude Opus 4.7 di 79,3% [3].

Claude Opus 4.7 paling menonjol untuk sebagian pekerjaan software dan pengetahuan. Claude unggul di SWE-Bench Pro dengan 64,3% dibanding GPT-5.5 di 58,6%, serta unggul tipis di GPQA Diamond dengan 94,2% dibanding 93,6% [22][24]. Namun di Terminal-Bench 2.0, GPT-5.5 berbalik unggul jauh: 82,7% melawan 69,4% untuk Claude Opus 4.7 [22][24].

DeepSeek V4 adalah penantang dari sisi harga-kinerja. VentureBeat menyebut DeepSeek V4 mencapai 83,4% di BrowseComp, hanya satu poin persentase di bawah GPT-5.5 dan di atas Claude Opus 4.7 [3]. Mashable mengutip harga API DeepSeek V4 sebesar US$1,74 per 1 juta token input dan US$3,48 per 1 juta token output, dibanding US$5/US$30 untuk GPT-5.5 dan US$5/US$25 untuk Claude Opus 4.7 [1].

Kimi K2.6 belum bisa dimasukkan ke ranking angka yang sama. DocsBot menggambarkan Kimi K2.6 sebagai model open-source, native multimodal, dan agentic dengan arsitektur 1T-parameter-MoE, 32B parameter aktif, serta konteks 256K [7]. Namun sumber yang tersedia belum memberikan cukup angka benchmark langsung melawan GPT-5.5, Claude Opus 4.7, dan DeepSeek V4 [7].

Perbandingan utama

ModelKlaim terkuat yang didukung dataAngka penting dari sumberCara membacanya
GPT-5.5Memimpin potongan Artificial Analysis Intelligence Index [2]Intelligence Index: 60 xhigh, 59 high [2]; BrowseComp: 84,4%, GPT-5.5 Pro: 90,1% [3]; Terminal-Bench 2.0: 82,7% [22][24]Titik awal terbaik jika butuh model serba bisa, tetapi bukan pemenang di semua tes
Claude Opus 4.7Sangat kuat untuk SWE-Bench, GPQA, dan beberapa tugas agentic [20][22][24]Intelligence Index: 57 [2]; SWE-Bench Pro: 64,3% [22][24]; SWE-Bench Verified: 87,6% [20]; GPQA Diamond: 94,2% [22]Menarik untuk coding, review, penalaran pengetahuan, dan beberapa tugas finansial
DeepSeek V4Hampir menyamai GPT-5.5 di BrowseComp [3]BrowseComp: 83,4% [3]; harga API: US$1,74 input dan US$3,48 output per 1 juta token [1]Kuat jika biaya dan performa riset web lebih penting daripada status juara umum
Kimi K2.6Diposisikan sebagai model terbuka, multimodal, agentic, dan berkonteks panjang [7]1T-parameter-MoE, 32B parameter aktif, konteks 256K menurut DocsBot [7]Layak diuji secara teknis, tetapi belum cukup data untuk perbandingan numerik langsung

Mengapa benchmark ini bukan papan skor final

Keterbatasan utamanya adalah konsistensi data. Dalam perbandingan model frontier terkait, DataCamp mengingatkan bahwa angka benchmark bisa bersifat vendor-reported dan memakai konfigurasi harness yang berbeda [21]. Artinya, selisih beberapa poin tidak selalu otomatis berarti satu model pasti lebih baik di semua situasi.

Varian model juga tidak selalu sama. Artificial Analysis menampilkan GPT-5.5 xhigh, GPT-5.5 high, dan Claude Opus 4.7 dengan Adaptive Reasoning dan Max Effort [2]. VentureBeat mengacu pada DeepSeek-V4-Pro-Max [3]. Perbedaan seperti ini bisa berpengaruh besar, terutama di tugas reasoning, coding, dan agentic yang sensitif terhadap effort, tool use, serta cara benchmark dijalankan.

Jadi pertanyaan yang lebih berguna bukan hanya: model mana nomor satu? Pertanyaan praktisnya: untuk beban kerja apa model itu paling terbukti kuat?

Performa umum: GPT-5.5 memimpin Intelligence Index yang tersedia

Indikator umum paling jelas dalam sumber yang tersedia adalah potongan Artificial Analysis Intelligence Index. Di sana, GPT-5.5 xhigh berada di posisi pertama dengan 60 poin, GPT-5.5 high berada di posisi kedua dengan 59 poin, dan Claude Opus 4.7 dengan Adaptive Reasoning dan Max Effort berada di posisi ketiga dengan 57 poin [2].

Angka ini mendukung keunggulan GPT-5.5 atas Claude Opus 4.7 dalam indeks tersebut [2]. Namun potongan yang sama tidak memberi nilai lengkap yang bisa langsung dikutip untuk DeepSeek V4 dan Kimi K2.6 dalam perbandingan empat model yang bersih [2][7].

BrowseComp: DeepSeek V4 menempel ketat GPT-5.5

BrowseComp adalah perbandingan tiga arah paling jelas antara GPT-5.5, Claude Opus 4.7, dan DeepSeek V4 dalam sumber yang tersedia. VentureBeat mengutip 90,1% untuk GPT-5.5 Pro, 84,4% untuk GPT-5.5, 83,4% untuk DeepSeek V4, dan 79,3% untuk Claude Opus 4.7 [3].

Model atau varianSkor BrowseCompCatatan
GPT-5.5 Pro90,1%Jelas paling tinggi dalam potongan ini [3]
GPT-5.584,4%Sedikit di atas DeepSeek V4 [3]
DeepSeek V483,4%Hanya 1,0 poin persentase di bawah GPT-5.5 [3]
Claude Opus 4.779,3%Di bawah GPT-5.5 dan DeepSeek V4 pada tes ini [3]
Kimi K2.6Tidak ada angka langsung yang sebanding dalam sumber yang tersediaBelum adil untuk diranking [7]

VentureBeat juga menilai DeepSeek-V4-Pro-Max belum menumbangkan GPT-5.5 atau Claude Opus 4.7 secara keseluruhan pada benchmark yang bisa dibandingkan langsung [3]. Bacaan yang lebih tepat: DeepSeek V4 sangat dekat dengan GPT-5.5 di BrowseComp, tetapi satu benchmark kuat belum cukup untuk menyatakan kemenangan umum [3].

Coding dan software engineering: Claude menang SWE, GPT menang Terminal

Untuk coding, tidak ada juara tunggal. Claude Opus 4.7 unggul di SWE-Bench Pro dengan 64,3%, sementara GPT-5.5 berada di 58,6% [22][24]. Vellum juga menyebut Claude Opus 4.7 mencapai 87,6% di SWE-Bench Verified [20]. Namun di Terminal-Bench 2.0, GPT-5.5 unggul jauh dengan 82,7% dibanding 69,4% untuk Claude Opus 4.7 [22][24].

BenchmarkGPT-5.5Claude Opus 4.7Kesimpulan
SWE-Bench Pro58,6%64,3%Claude unggul [22][24]
SWE-Bench VerifiedTidak ada angka GPT-5.5 langsung yang dikutip dalam sumber tersedia87,6%Nilai Claude kuat, tetapi bukan perbandingan empat model lengkap [20]
Terminal-Bench 2.082,7%69,4%GPT-5.5 unggul jelas [22][24]

Untuk DeepSeek V4 dan Kimi K2.6, sumber yang tersedia belum cukup untuk mengisi tabel coding yang setara. VentureBeat menyebut DeepSeek V4 mendekati model teratas pada beberapa benchmark yang bisa dibandingkan, tetapi angka paling jelas dalam potongan sumber adalah BrowseComp [3]. Untuk Kimi K2.6, DocsBot lebih banyak memberi detail arsitektur dan kemampuan umum, bukan matriks benchmark lengkap melawan tiga model lain [7].

Reasoning dan pengetahuan: saling salip tergantung tes

Pada tes pengetahuan dan reasoning, GPT-5.5 dan Claude Opus 4.7 sangat berdekatan. Di GPQA Diamond, Vellum mencantumkan GPT-5.5 di 93,6% dan Claude Opus 4.7 di 94,2% [22]. Mashable mencantumkan angka GPQA Diamond yang sama, lalu menambahkan Humanity’s Last Exam: tanpa tools, GPT-5.5 unggul 40,6% melawan 31,2%; dengan tools, Claude Opus 4.7 unggul tipis 54,7% melawan 52,2% [8].

BenchmarkGPT-5.5Claude Opus 4.7Pemenang dalam angka tersedia
GPQA Diamond93,6%94,2%Claude Opus 4.7 tipis [8][22]
Humanity’s Last Exam40,6%31,2%GPT-5.5 [8]
Humanity’s Last Exam dengan tools52,2%54,7%Claude Opus 4.7 tipis [8]

Artinya, untuk pertanyaan pengetahuan sulit, pilihan model sebaiknya tidak hanya didasarkan pada satu angka. Setup tools, jenis soal, dan cara evaluasi bisa mengubah urutan pemenang [8][21].

Tugas profesional dan agentic: hasilnya campuran

Di benchmark profesional dan agentic, polanya juga tidak satu arah. Vellum mencantumkan GPT-5.5 di 84,9% untuk GDPval dibanding 80,3% untuk Claude Opus 4.7; 78,7% untuk OSWorld-Verified dibanding 78,0%; serta 75,3% untuk MCP Atlas dibanding 79,1% untuk Claude [22]. OpenAI mencantumkan FinanceAgent v1.1 di 60,0% untuk GPT-5.5 dan 64,4% untuk Claude Opus 4.7 [24].

BenchmarkGPT-5.5Claude Opus 4.7Kesimpulan
GDPval84,9%80,3%GPT-5.5 unggul [22][24]
OSWorld-Verified78,7%78,0%GPT-5.5 unggul tipis [22]
MCP Atlas75,3%79,1%Claude Opus 4.7 unggul [22]
FinanceAgent v1.160,0%64,4%Claude Opus 4.7 unggul [24]

Anthropic juga merujuk benchmark internal research-agent, dengan Claude Opus 4.7 disebut berbagi skor keseluruhan tertinggi 0,715 pada enam modul dan meraih 0,813 di modul General Finance dibanding 0,767 untuk Opus 4.6 [6]. Karena benchmark ini internal dan tidak mencakup keempat model secara seimbang dalam data yang tersedia, lebih tepat dibaca sebagai sinyal kekuatan agentic Claude, bukan ranking independen empat model [6].

Harga API dan konteks: DeepSeek V4 paling mencolok

Untuk penggunaan produksi, satu atau dua poin benchmark bukan satu-satunya pertimbangan. Harga API dihitung per token, yaitu satuan pemrosesan teks yang dipakai dalam penagihan model. Mashable mengutip DeepSeek V4 di US$1,74 per 1 juta token input dan US$3,48 per 1 juta token output, dengan konteks 1 juta token [1]. Sumber yang sama mengutip GPT-5.5 di US$5 per 1 juta token input dan US$30 per 1 juta token output; Claude Opus 4.7 di US$5 input dan US$25 output per 1 juta token; keduanya juga dengan konteks 1 juta token [1].

ModelHarga input per 1 juta tokenHarga output per 1 juta tokenKonteks dalam sumber
DeepSeek V4US$1,74US$3,481 juta token [1]
GPT-5.5US$5US$301 juta token [1]
Claude Opus 4.7US$5US$251 juta token [1]
Kimi K2.6Tidak ada harga yang cukup kuat dalam sumber tersediaTidak ada harga yang cukup kuat dalam sumber tersedia256K token menurut DocsBot [7]

Perbedaan ini penting bila aplikasi memproses dokumen panjang, banyak percakapan, atau output besar. Dalam angka yang dikutip, DeepSeek V4 jauh lebih murah daripada GPT-5.5 dan Claude Opus 4.7, sambil tetap mencetak 83,4% di BrowseComp [1][3].

Kimi K2.6: jangan dianggap kalah, tetapi datanya belum lengkap

Kimi K2.6 adalah kasus khusus. DocsBot menyebutnya sebagai model open-source, native multimodal, dan agentic dari Moonshot AI, dengan arsitektur 1T-parameter-MoE, 32B parameter aktif, konteks 256K, serta orkestrasi agent sampai 300 sub-agent dan 4.000 langkah terkoordinasi [7]. Ini membuatnya menarik untuk eksperimen coding panjang, desain berbasis coding, dan workflow agentic [7].

Namun detail teknis tidak sama dengan bukti benchmark langsung. Dalam sumber yang tersedia, belum ada angka yang cukup lengkap untuk menempatkan Kimi K2.6 secara adil di tabel yang sama dengan GPT-5.5, Claude Opus 4.7, dan DeepSeek V4 [7]. Kesimpulan yang paling aman: Kimi layak diuji, tetapi belum layak dipaksa masuk ranking numerik empat arah.

Pilih model berdasarkan kebutuhan

Jika prioritas Anda adalah …Titik awal yang paling masuk akalAlasannya
Performa umum paling kuat berdasarkan bukti tersediaGPT-5.5Memimpin potongan Intelligence Index dan berada di atas Claude Opus 4.7 serta sedikit di atas DeepSeek V4 di BrowseComp [2][3]
Software engineering yang mirip SWE-BenchClaude Opus 4.7Unggul di SWE-Bench Pro dan disebut mencapai 87,6% di SWE-Bench Verified [20][22][24]
Tugas terminal, computer use, dan eksekusi agentic tertentuGPT-5.5Unggul jauh di Terminal-Bench 2.0 serta lebih tinggi dari Claude di GDPval dan OSWorld-Verified [22][24]
Riset web dengan biaya API rendahDeepSeek V4Mencapai 83,4% di BrowseComp dan punya harga API yang dikutip jauh lebih rendah [1][3]
Eksperimen model terbuka multimodal-agenticKimi K2.6Disebut open-source, native multimodal, agentic, dan memiliki konteks 256K, tetapi belum punya basis benchmark langsung yang lengkap [7]

Kesimpulan

Kesimpulan paling kuat bukan bahwa satu model menyapu bersih semua kategori. GPT-5.5 adalah all-rounder paling terbukti dalam sumber yang tersedia karena memimpin potongan Artificial Analysis, kuat di BrowseComp, dan mencatat hasil tinggi di beberapa benchmark profesional [2][3][22][24]. Claude Opus 4.7 tetap menjadi model papan atas, terutama untuk SWE-Bench Pro, SWE-Bench Verified, GPQA Diamond, dan beberapa tugas finansial-agentic [20][22][24]. DeepSeek V4 adalah kandidat harga-kinerja paling menarik karena mendekati GPT-5.5 di BrowseComp dengan harga API yang jauh lebih rendah dalam angka yang dikutip [1][3]. Kimi K2.6 sebaiknya diperlakukan sebagai model teknis yang menjanjikan, tetapi belum bisa dinilai setara tanpa benchmark dan harga yang langsung sebanding [7].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Cari dan periksa fakta dengan Studio Global AI

Poin-poin penting

  • GPT 5.5 adalah all rounder paling kuat dalam data yang tersedia: 60 poin untuk GPT 5.5 xhigh dan 59 untuk GPT 5.5 high di Artificial Analysis, plus 84,4% di BrowseComp [2][3].
  • Claude Opus 4.7 unggul di SWE Bench Pro dengan 64,3% melawan GPT 5.5 di 58,6%, dan sedikit unggul di GPQA Diamond dengan 94,2% melawan 93,6%; GPT 5.5 unggul jauh di Terminal Bench 2.0 dengan 82,7% melawan 69,4% [22][24].
  • DeepSeek V4 adalah kandidat harga kinerja paling mencolok: 83,4% di BrowseComp, hanya 1,0 poin persentase di bawah GPT 5.5, dengan harga API yang dikutip jauh lebih rendah [1][3].
  • Kimi K2.6 menarik secara teknis sebagai model open source multimodal agentic dengan konteks 256K, tetapi sumber yang tersedia belum memberi cukup angka langsung untuk ranking yang adil [7].

Orang-orang juga bertanya

Apa jawaban singkat untuk "GPT-5.5 vs Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6: siapa unggul?"?

GPT 5.5 adalah all rounder paling kuat dalam data yang tersedia: 60 poin untuk GPT 5.5 xhigh dan 59 untuk GPT 5.5 high di Artificial Analysis, plus 84,4% di BrowseComp [2][3].

Apa poin penting yang harus divalidasi terlebih dahulu?

GPT 5.5 adalah all rounder paling kuat dalam data yang tersedia: 60 poin untuk GPT 5.5 xhigh dan 59 untuk GPT 5.5 high di Artificial Analysis, plus 84,4% di BrowseComp [2][3]. Claude Opus 4.7 unggul di SWE Bench Pro dengan 64,3% melawan GPT 5.5 di 58,6%, dan sedikit unggul di GPQA Diamond dengan 94,2% melawan 93,6%; GPT 5.5 unggul jauh di Terminal Bench 2.0 dengan 82,7% melawan 69,4% [22][24].

Apa yang harus saya lakukan selanjutnya dalam latihan?

DeepSeek V4 adalah kandidat harga kinerja paling mencolok: 83,4% di BrowseComp, hanya 1,0 poin persentase di bawah GPT 5.5, dengan harga API yang dikutip jauh lebih rendah [1][3].

Topik terkait manakah yang harus saya jelajahi selanjutnya?

Lanjutkan dengan "Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: siapa unggul di benchmark 2026?" untuk sudut pandang lain dan kutipan tambahan.

Buka halaman terkait

Dengan apa saya harus membandingkannya?

Periksa ulang jawaban ini dengan "Northwest vs. Southeast Timber: Mengapa Jawabannya larger; larger?".

Buka halaman terkait

Lanjutkan penelitian Anda

Percakapan penelitian

kamu

Pertanyaan penelitian

Recherchieren Sie die Benchmarks von Claude Opus 4.7, GPT-5.5, DeepSeek V4 und Kimi K2.6 und vergleichen Sie sie so umfassend wie möglich im Format eines Forschungsberichts, damit alle sie leicht verstehen können.

Studio Global AI26 sumber

Jawaban yang dikutip

Auf Basis der vorliegenden Belege wirkt GPT-5.5 insgesamt am stärksten belegt: Es führt im genannten „Intelligence Index“ und liegt auch bei BrowseComp vor Claude Opus 4.7 und knapp vor DeepSeek V4 [6][7]. DeepSeek V4 ist besonders auffällig, weil es bei BrowseComp Claude Opus 4.7 schlägt und GPT-5.5 fast erreicht, aber die verfügbaren Belege reichen nicht, um es insgesamt vor GPT-5.5 oder Claude Opus 4.7 einzuordnen [7]. Für Kimi K2.6 fehlen belastbare Zahlenwerte; hier ist die Evidenz deutlich schwächer [21].

Key findings

  • GPT-5.5 wird im verfügbaren Artificial-Analysis-Ausschnitt als Nummer 1 und 2 des „Intelligence Index“ geführt: GPT-5.5 „xhigh“ mit 60 Punkten und GPT-5.5 „high“ mit 59 Punkten [6].

  • Claude Opus 4.7 wird im selben Ausschnitt mit „Adaptive Reasoning, Max Effort“ bei 57 Punkten genannt und damit hinter GPT-5.5 xhigh und GPT-5.5 high eingeordnet [6].

  • Bei BrowseComp erreicht DeepSeek V4 laut verfügbarem Bericht 83,4 %, Claude Opus 4.7 79,3 % und GPT-5.5 84,4 %; GPT-5.5 Pro liegt mit 90,1 % deutlich höher [7].

  • DeepSeek V4 schlägt Claude Opus 4.7 in BrowseComp, liegt dort aber knapp hinter GPT-5.5 und klar hinter GPT-5.5 Pro [7].

  • Trotz des starken BrowseComp-Werts heißt es im verfügbaren Bericht, DeepSeek-V4-Pro-Max entthrone GPT-5.5 oder Claude Opus 4.7 auf den direkt vergleichbaren Benchmarks insgesamt nicht [7].

  • Für Claude Opus 4.7 liegen mehrere konkrete Benchmarkwerte vor: SWE-bench Pro 64,3 %, SWE-bench Verified 87,6 %, Terminal-Bench 69,4 % und GPQA Diamond 94,2 % [3].

  • Ein weiterer verfügbarer Benchmarkhinweis nennt Claude Opus 4.7 mit 82,7 % auf FinanceBench, allerdings stammt dieser Wert aus einem sekundären Blogkontext und sollte vorsichtig interpretiert werden [2].

  • Für Kimi K2.6 enthält die verfügbare Evidenz keine belastbaren numerischen Benchmarkwerte; ein Reddit-Beitrag behauptet lediglich, DeepSeek V4 sei im „Vibe Code Benchmark“ das führende Open-Weight-Modell und Kimi K2.6 liege dort auf Platz 2 [21].

Vergleichstabelle

ModellBeste verfügbare EvidenzGenannte BenchmarkwerteEinordnung
GPT-5.5Führt den „Intelligence Index“ in zwei Varianten [6]Intelligence Index: 60 xhigh, 59 high; BrowseComp: 84,4 %; GPT-5.5 Pro BrowseComp: 90,1 % [6][7]Stärkster belegt unter den vier Modellen, vor allem im Intelligence Index und bei BrowseComp [6][7]
Claude Opus 4.7Platz 3 im genannten Intelligence Index-Ausschnitt [6]Intelligence Index: 57; BrowseComp: 79,3 %; SWE-bench Pro: 64,3 %; SWE-bench Verified: 87,6 %; Terminal-Bench: 69,4 %; GPQA Diamond: 94,2 %; FinanceBench: 82,7 % [2][3][6][7]Sehr stark belegt, aber in den verfügbaren Vergleichsdaten hinter GPT-5.5 und bei BrowseComp hinter DeepSeek V4 [6][7]
DeepSeek V4Sehr stark bei BrowseComp [7]BrowseComp: 83,4 %; API-Preis: $1.74 pro 1 Mio. Input-Tokens und $3.48 pro 1 Mio. Output-Tokens [5][7]Nahe an GPT-5.5 bei BrowseComp und besser als Claude Opus 4.7 in diesem Benchmark, aber nicht klarer Gesamtsieger [7]
Kimi K2.6Nur schwacher Rankinghinweis aus Reddit [21]Keine belastbaren Zahlenwerte in der bereitgestellten Evidenz [21]Insufficient evidence: Keine solide numerische Einordnung möglich [21]

Benchmark-für-Benchmark-Vergleich

Intelligence Index

  • GPT-5.5 liegt im verfügbaren Ausschnitt des „Intelligence Index“ auf Platz 1 mit 60 Punkten in der xhigh-Konfiguration und auf Platz 2 mit 59 Punkten in der high-Konfiguration [6].

  • Claude Opus 4.7 liegt in der Konfiguration „Adaptive Reasoning, Max Effort“ bei 57 Punkten und wird damit hinter beiden GPT-5.5-Varianten genannt [6].

  • Für DeepSeek V4 und Kimi K2.6 werden im verfügbaren Ausschnitt keine konkreten Intelligence-Index-Werte genannt [6].

BrowseComp

  • GPT-5.5 erreicht bei BrowseComp 84,4 %, während GPT-5.5 Pro 90,1 % erreicht [7].

  • DeepSeek V4 erreicht bei BrowseComp 83,4 % und liegt damit sehr knapp hinter GPT-5.5, aber deutlich hinter GPT-5.5 Pro [7].

  • Claude Opus 4.7 erreicht bei BrowseComp 79,3 % und liegt damit hinter DeepSeek V4 und GPT-5.5 [7].

  • Kimi K2.6 hat in der bereitgestellten Evidenz keinen BrowseComp-Wert [7][21].

Coding- und Software-Benchmarks

  • Claude Opus 4.7 wird mit 64,3 % auf SWE-bench Pro und 87,6 % auf SWE-bench Verified angegeben [3].

  • Claude Opus 4.7 wird außerdem mit etwa 70 % auf CursorBench genannt, aber dieser Vergleich stammt aus einem Kontext zu GPT-5.4, nicht GPT-5.5 [4].

  • Für GPT-5.5, DeepSeek V4 und Kimi K2.6 liegen in der bereitgestellten Evidenz keine direkt vergleichbaren SWE-bench-Pro- oder SWE-bench-Verified-Werte vor [3][4][7][21].

  • Ein Reddit-Beitrag behauptet, DeepSeek V4 sei im „Vibe Code Benchmark“ das führende Open-Weight-Modell und Kimi K2.6 liege dahinter auf Platz 2, aber dieser Beleg ist schwächer als die übrigen Quellen und enthält im Ausschnitt keine konkreten Prozentwerte [21].

Reasoning- und Wissens-Benchmarks

  • Claude Opus 4.7 wird mit 94,2 % auf GPQA Diamond angegeben [3].

  • Für GPT-5.5, DeepSeek V4 und Kimi K2.6 liegen in der bereitgestellten Evidenz keine direkt vergleichbaren GPQA-Diamond-Werte vor [3][6][7][21].

FinanceBench

  • Claude Opus 4.7 wird in einem verfügbaren Blogausschnitt mit 82,7 % auf FinanceBench erwähnt [2].

  • Für GPT-5.5, DeepSeek V4 und Kimi K2.6 liegen in der bereitgestellten Evidenz keine FinanceBench-Werte vor [2][5][7][21].

Preis- und Kontextvergleich

  • DeepSeek V4 wird mit $1.74 pro 1 Million Input-Tokens und $3.48 pro 1 Million Output-Tokens bei einem Kontextfenster von 1 Million Tokens angegeben [5].

  • GPT-5.5 wird mit $5 pro 1 Million Input-Tokens und $30 pro 1 Million Output-Tokens bei einem Kontextfenster von 1 Million Tokens angegeben [5].

  • Für Claude Opus 4.7 ist im verfügbaren Ausschnitt nur der Beginn einer Preisangabe erkennbar, aber kein vollständiger Output-Preis, daher reicht die Evidenz für einen vollständigen Kostenvergleich nicht aus [5].

  • Für Kimi K2.6 enthält die bereitgestellte Evidenz keinen Preiswert [5][21].

Verständliche Einordnung

  • Wenn man nur die verfügbaren Zahlen betrachtet, ist GPT-5.5 der sicherste Kandidat für die stärkste Gesamtleistung, weil es den genannten Intelligence Index anführt und bei BrowseComp vor DeepSeek V4 und Claude Opus 4.7 liegt [6][7].

  • DeepSeek V4 ist der stärkste Herausforderer in den verfügbaren Zahlen, weil es bei BrowseComp mit 83,4 % fast GPT-5.5 erreicht und Claude Opus 4.7 übertrifft [7].

  • Claude Opus 4.7 ist am breitesten mit konkreten Einzelbenchmarks belegt, vor allem in SWE-bench, Terminal-Bench, GPQA Diamond und FinanceBench [2][3].

  • Kimi K2.6 kann anhand der bereitgestellten Evidenz nicht fair numerisch mit den anderen drei Modellen verglichen werden, weil die einzige konkrete Aussage nur ein schwacher Reddit-Rankinghinweis ohne Zahlenwerte ist [21].

Evidence notes

  • Die stärksten quantitativen Vergleichsdaten in der bereitgestellten Evidenz sind der Intelligence-Index-Ausschnitt und der BrowseComp-Vergleich, weil sie mehrere der angefragten Modelle direkt nebeneinander nennen [6][7].

  • Die Claude-Opus-4.7-Werte zu SWE-bench Pro, SWE-bench Verified, Terminal-Bench und GPQA Diamond sind nützlich, aber sie erlauben keinen vollständigen Vier-Modell-Vergleich, weil entsprechende Werte für GPT-5.5, DeepSeek V4 und Kimi K2.6 in der Evidenz fehlen [3].

  • Der Kimi-K2.6-Hinweis ist deutlich schwächer, weil er aus einem Reddit-Beitrag stammt und im verfügbaren Ausschnitt keine numerischen Ergebnisse enthält [21].

  • Ein Vergleich mit GPT-5.4 ist nur indirekt relevant, weil die Nutzerfrage GPT-5.5 betrifft; die verfügbare Quelle nennt dort außerdem, dass Benchmarkwerte teils vendor-reported sind und unterschiedliche Harness-Konfigurationen nutzen [4].

Limitations / uncertainty

  • Insufficient evidence: Für Kimi K2.6 fehlen belastbare Benchmarkzahlen in der bereitgestellten Evidenz [21].

  • Insufficient evidence: Für GPT-5.5 fehlen in der bereitgestellten Evidenz konkrete Werte zu SWE-bench, GPQA Diamond, Terminal-Bench, FinanceBench und Vibe Code [6][7].

  • Insufficient evidence: Für DeepSeek V4 fehlen in der bereitgestellten Evidenz konkrete Werte zu SWE-bench, GPQA Diamond, Terminal-Bench und FinanceBench [5][7][21].

  • Die Modelle werden teils in unterschiedlichen Varianten oder Testmodi genannt, etwa GPT-5.5 xhigh, GPT-5.5 high, Claude Opus 4.7 „Adaptive Reasoning, Max Effort“ und DeepSeek-V4-Pro-Max, wodurch ein 1:1-Vergleich nur eingeschränkt möglich ist [6][7].

  • Die bereitgestellte Evidenz enthält keine vollständigen offiziellen Modellkarten oder Primärquellen mit einheitlichem Benchmark-Setup für alle vier Modelle [1][3][6][7].

Summary

  • GPT-5.5: Beste belegte Gesamtposition, führt den Intelligence Index und liegt bei BrowseComp vor DeepSeek V4 und Claude Opus 4.7 [6][7].

  • DeepSeek V4: Sehr stark bei BrowseComp, knapp hinter GPT-5.5 und vor Claude Opus 4.7; außerdem deutlich günstiger als GPT-5.5 in der verfügbaren Preisangabe [5][7].

  • Claude Opus 4.7: Sehr gut dokumentiert mit vielen Einzelbenchmarks, aber in den direkt verfügbaren Vergleichszahlen hinter GPT-5.5 und bei BrowseComp hinter DeepSeek V4 [2][3][6][7].

  • Kimi K2.6: Nicht seriös numerisch bewertbar, weil die bereitgestellte Evidenz nur einen schwachen Rankinghinweis ohne konkrete Zahlen enthält [21].

Sumber

  • [1] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com

    Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...

  • [2] DeepSeek V4 Pro (Reasoning, High Effort) vs Kimi K2.6artificialanalysis.ai

    What are the top AI models? The top AI models by Intelligence Index are: 1. GPT-5.5 (xhigh) (60), 2. GPT-5.5 (high) (59), 3. Claude Opus 4.7 (Adaptive Reasoning, Max Effort) (57), 4. Gemini 3.1 Pro Preview (57), 5. GPT-5.4 (xhigh) (57). Which is the fastest...

  • [3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com

    BrowseComp is the standout: DeepSeek’s 83.4% beats Claude Opus 4.7’s 79.3% and nearly matches GPT-5.5’s 84.4%, though GPT-5.5 Pro’s 90.1% remains well ahead. So ultimately, DeepSeek-V4-Pro-Max does not appear to dethrone GPT-5.5 or Claude Opus 4.7 on the be...

  • [6] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...

  • [7] Kimi K2.6 vs DeepSeek-V4 Pro - DocsBot AIdocsbot.ai

    Kimi K2.6 Kimi K2.6 is Moonshot AI's latest open-source native multimodal agentic model, advancing long-horizon coding, coding-driven design, proactive autonomous execution, and swarm-based task orchestration. It keeps the Kimi K2.5 1T parameter MoE archite...

  • [8] OpenAI's GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com

    Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...

  • [20] Claude Opus 4.7 Benchmarks Explained - Vellumvellum.ai

    Is Claude Opus 4.7 the most powerful Claude model? No. Claude Mythos Preview is Anthropic's most capable model and leads Opus 4.7 on most benchmarks in the comparison table, including SWE-bench Pro (77.8% vs 64.3%), SWE-bench Verified (93.9% vs 87.6%), Term...

  • [21] Claude Opus 4.7 vs. GPT-5.4: Which Frontier Model Should You Use?datacamp.com

    --- --- Benchmark Claude Opus 4.7 GPT-5.4 Notes SWE-bench Pro 64.3% 57.7% Vendor-reported; different harness configurations SWE-bench Verified 87.6% Not published OpenAI has not released an official score on this variant CursorBench 70% Not published Cursor...

  • [22] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [24] Introducing GPT-5.5 - OpenAIopenai.com

    Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization⁠(op...