studioglobal
Популярное в «Открыть»
ОтчетыОпубликовано9 источники

GPT-5.5, Claude Opus 4.7, Kimi K2.6, dan DeepSeek V4: peta kekuatan benchmark

Tidak ada pemenang tunggal: GPT 5.5 memimpin ARC AGI 2 dengan 85% vs 75,8% untuk Claude, dan Terminal Bench 2.0 dengan 82,7%; Claude Opus 4.7 lebih kuat di HLE dan SWE Bench Pro.[1][3][9] Kimi K2.6 paling tepat dibaca sebagai kandidat coding dan agentic yang kuat: skornya 54 di Artificial Analysis dan 87 di benchmar...

18K0
Сравнение четырёх AI-моделей GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 на фоне графиков бенчмарков
GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмаркахСравнение бенчмарков показывает не одного абсолютного лидера, а разные сильные стороны моделей.
Промпт ИИ

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмарках. Article summary: Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro; вывод ограничен тем, что источники сравнивают разные режим.... Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.

openai.com

Membandingkan GPT-5.5, Claude Opus 4.7, Kimi K2.6, dan DeepSeek V4 tidak bisa disederhanakan menjadi satu papan peringkat. Benchmark yang tersedia memakai tugas, mode model, dan sumber yang berbeda. Namun polanya cukup jelas: GPT-5.5 paling menonjol di ARC dan tugas terminal bergaya agen, Claude Opus 4.7 kuat di HLE dan SWE-Bench Pro, Kimi K2.6 kompetitif untuk coding dan skenario open-weight, sedangkan DeepSeek V4 bukan pemimpin skor tertinggi tetapi sangat menarik dari sisi biaya API.[1][2][3][4][6][8][9][13]

Jawaban cepat: pilih berdasarkan pekerjaan, bukan gengsi model

  • GPT-5.5 layak diuji lebih dulu untuk tugas ARC, visual reasoning, dan agen berbasis terminal. DocsBot mencatat 85% pada ARC-AGI-2 untuk GPT-5.5, dibanding 75,8% untuk Claude Opus 4.7; VentureBeat mencatat 82,7% pada Terminal-Bench 2.0 untuk GPT-5.5, dibanding 69,4% untuk Claude dan 67,9% untuk DeepSeek.[1][3]
  • Claude Opus 4.7 terlihat paling kuat di beberapa benchmark penalaran berat dan software engineering. VentureBeat menempatkan Claude di atas GPT-5.5 dan DeepSeek pada Humanity’s Last Exam, baik tanpa alat maupun dengan alat, sementara DataCamp mencatat 64,3% pada SWE-Bench Pro, di atas 58,6% untuk GPT-5.5 dan 55,4% untuk DeepSeek V4 Pro.[3][9]
  • Kimi K2.6 adalah kandidat kuat untuk coding dan agentic workload, tetapi lebih sedikit muncul dalam tabel yang benar-benar sejajar dengan tiga model lain. Di Artificial Analysis, Kimi K2.6 mendapat skor 54, di bawah GPT-5.5 medium dengan 57 tetapi di atas Claude Opus 4.7 non-reasoning high dengan 52.[13]
  • DeepSeek V4 lebih tepat dibaca sebagai opsi price-performance. Mashable mencatat harganya US$1,74 per 1 juta token input dan US$3,48 per 1 juta token output, lebih rendah daripada GPT-5.5 di US$5/US$30 dan Claude Opus 4.7 di US$5/US$25.[2]

Tabel perbandingan benchmark

Tanda berarti sumber yang tersedia tidak memberikan angka yang benar-benar sebanding untuk model tersebut.

Benchmark / sumberGPT-5.5Claude Opus 4.7Kimi K2.6DeepSeek V4Makna praktis
ARC-AGI-2, DocsBot85%75,8%GPT-5.5 unggul 9,2 poin persentase atas Claude.[1]
ARC-AGI-1, DocsBot95%93,5%GPT-5.5 sedikit di atas Claude.[1]
Leaderboard Artificial Analysis57, GPT-5.5 medium52, Claude Opus 4.7 non-reasoning high54Pada irisan ini, GPT-5.5 di atas Kimi dan mode Claude yang tercantum; DeepSeek V4 tidak muncul di cuplikan yang tersedia.[13]
Humanity’s Last Exam tanpa alat, VentureBeat41,4%46,9%37,7%Claude memimpin di baris dasar yang ditampilkan.[3]
Humanity’s Last Exam dengan alat, VentureBeat52,2%; GPT-5.5 Pro 57,2%54,7%48,2%Claude di atas GPT-5.5 dasar, tetapi baris GPT-5.5 Pro berada di atas Claude.[3]
Terminal-Bench 2.0, VentureBeat82,7%69,4%67,9%Ini salah satu kemenangan paling jelas untuk GPT-5.5.[3]
SWE-Bench Pro, DataCamp58,6%64,3%55,4%, DeepSeek V4 ProClaude unggul atas GPT-5.5 dan DeepSeek V4 Pro.[9]
SWE-Bench Verified, Verdent87,6%80,2%Claude di atas Kimi pada irisan coding ini.[6]
Benchmark coding, AkitaOnRails96, GPT-5.5 xHigh/Codex978778, V4 Flash; 69, V4 ProClaude dan GPT-5.5 hampir setara; Kimi di atas dua baris DeepSeek V4.[8]

Mengapa tidak ada juara mutlak

Masalah utamanya bukan kurangnya angka, melainkan tidak semua angka mengukur hal yang sama. Artificial Analysis membandingkan GPT-5.5 medium, Kimi K2.6, dan Claude Opus 4.7 non-reasoning high. AkitaOnRails memakai GPT-5.5 xHigh/Codex serta membedakan DeepSeek V4 Flash dan DeepSeek V4 Pro. VentureBeat bahkan memisahkan baris GPT-5.5 dan GPT-5.5 Pro.[13][8][3]

Karena itu, angka tertinggi di satu tabel tidak otomatis berarti model terbaik untuk semua pekerjaan. LLM Stats menulis bahwa dari 10 benchmark yang dilaporkan oleh kedua penyedia, Claude Opus 4.7 unggul pada 6 benchmark, sementara GPT-5.5 unggul pada 4. Kemenangan Claude terkonsentrasi pada tes reasoning-heavy dan review-grade, sedangkan kemenangan GPT-5.5 terkonsentrasi pada long-running tool-use dan tugas shell-driven.[4]

Area yang paling kuat untuk GPT-5.5

Sinyal paling jelas untuk GPT-5.5 datang dari ARC dan Terminal-Bench. Pada ARC-AGI-2, GPT-5.5 mencatat 85% dibanding 75,8% untuk Claude Opus 4.7; pada ARC-AGI-1, GPT-5.5 mencatat 95% dibanding 93,5% untuk Claude.[1]

Di Terminal-Bench 2.0, GPT-5.5 mencapai 82,7%, jauh di atas Claude Opus 4.7 dengan 69,4% dan DeepSeek dengan 67,9%.[3] Untuk tim yang banyak menguji agen berbasis terminal, pemakaian alat, atau alur kerja shell, angka ini lebih relevan daripada benchmark umum yang tidak menyentuh cara kerja tersebut.

Artificial Analysis juga menempatkan GPT-5.5 medium di atas dua pesaing yang muncul pada cuplikan yang sama: skor 57 untuk GPT-5.5 medium, 54 untuk Kimi K2.6, dan 52 untuk Claude Opus 4.7 non-reasoning high.[13] Namun ini bukan peringkat universal untuk semua mode model; LLM Stats tetap menunjukkan Claude unggul di sebagian tes reasoning dan software engineering.[4]

Area yang paling kuat untuk Claude Opus 4.7

Claude Opus 4.7 terlihat paling meyakinkan saat tugasnya menuntut penalaran berat dan pemeriksaan kode yang rumit. Pada Humanity’s Last Exam tanpa alat, VentureBeat mencatat Claude di 46,9%, GPT-5.5 di 41,4%, dan DeepSeek di 37,7%. Dengan alat diaktifkan, Claude berada di 54,7%, GPT-5.5 di 52,2%, dan DeepSeek di 48,2%.[3]

Pada SWE-Bench Pro, DataCamp mencatat 64,3% untuk Claude Opus 4.7, 58,6% untuk GPT-5.5, dan 55,4% untuk DeepSeek V4 Pro.[9] Ini sejalan dengan ringkasan LLM Stats, yang menyebut Claude memimpin GPT-5.5 pada GPQA, HLE tanpa alat, HLE dengan alat, SWE-Bench Pro, MCP Atlas, dan FinanceAgent v1.1.[4]

Cara membaca Kimi K2.6

Kimi K2.6 sulit dimasukkan ke satu ranking penuh bersama GPT-5.5, Claude Opus 4.7, dan DeepSeek V4 karena ia tidak selalu muncul di tabel yang sama. Dalam cuplikan Artificial Analysis, Kimi K2.6 mencatat skor 54, di bawah GPT-5.5 medium dengan 57, tetapi di atas Claude Opus 4.7 non-reasoning high dengan 52.[13]

Pada benchmark coding AkitaOnRails, Kimi K2.6 mencatat skor 87. Angka itu di bawah Claude Opus 4.7 dengan 97 dan GPT-5.5 xHigh/Codex dengan 96, tetapi di atas DeepSeek V4 Flash dengan 78 dan DeepSeek V4 Pro dengan 69.[8] Dalam perbandingan Verdent untuk SWE-Bench Verified, Claude Opus 4.7 tercatat 87,6%, sedangkan Kimi K2.6 80,2%.[6]

Nilai pembeda Kimi adalah jalur open-weight. Verdent menulis bahwa bobot K2.6 tersedia di Hugging Face dan dapat dijalankan melalui vLLM, SGLang, atau KTransformers; sumber yang sama menyebut konfigurasi minimal yang layak adalah 4× H100 untuk varian INT4 dengan konteks yang dikurangi.[6] README di Hugging Face juga mencantumkan metrik agentic untuk Kimi K2.6 seperti HLE-Full dengan alat 54,0, BrowseComp 83,2, DeepSearchQA f1-score 92,5, Toolathlon 50,0, dan MCPMark 55,9, tetapi tabel itu terutama membandingkan Kimi dengan GPT-5.4, Claude Opus 4.6, dan Gemini 3.1 Pro, bukan dengan seluruh model dalam ulasan ini.[25]

Cara membaca DeepSeek V4

Dalam sumber yang tersedia, DeepSeek V4 lebih sering terlihat sebagai model value daripada pemimpin raw score. VentureBeat menempatkan DeepSeek di bawah GPT-5.5 dan Claude Opus 4.7 pada HLE tanpa alat, HLE dengan alat, dan Terminal-Bench 2.0.[3] DataCamp mencatat DeepSeek V4 Pro di 55,4% pada SWE-Bench Pro, di bawah GPT-5.5 dengan 58,6% dan Claude Opus 4.7 dengan 64,3%.[9]

Gambarannya serupa di AkitaOnRails: DeepSeek V4 Flash mendapat skor 78 dan DeepSeek V4 Pro 69, lebih rendah daripada Kimi K2.6, GPT-5.5 xHigh/Codex, dan Claude Opus 4.7 dalam tabel yang sama.[8]

Tetapi harga mengubah cara menilai produk. Mashable mencatat DeepSeek V4 berbiaya US$1,74 per 1 juta token input dan US$3,48 per 1 juta token output, sementara GPT-5.5 tercatat US$5/US$30 dan Claude Opus 4.7 US$5/US$25.[2] Jadi, DeepSeek V4 bukan pemenang benchmark tertinggi dalam data ini, tetapi tetap pantas diuji ketika biaya per percobaan lebih penting daripada mengejar skor maksimum.

Model mana yang sebaiknya diuji lebih dulu?

  • ARC, visual reasoning, dan puzzle abstrak: mulai dari GPT-5.5, karena ia lebih tinggi daripada Claude Opus 4.7 pada ARC-AGI-2 dan ARC-AGI-1 dalam perbandingan DocsBot.[1]
  • Hard reasoning dan tugas bergaya HLE: mulai dari Claude Opus 4.7 jika membandingkan baris model dasar; namun perhatikan bahwa VentureBeat menampilkan GPT-5.5 Pro di atas Claude pada HLE dengan alat.[3]
  • Agen terminal, shell-driven workflow, dan tool-use: mulai dari GPT-5.5, karena Terminal-Bench 2.0 adalah salah satu hasil langsung terkuatnya dalam sumber yang tersedia.[3][4]
  • SWE-Bench Pro dan software engineering yang berat di review: mulai dari Claude Opus 4.7, karena DataCamp dan LLM Stats sama-sama menunjukkan keunggulan Claude di SWE-Bench Pro.[9][4]
  • Open-weight atau self-hosted coding/agentic scenario: uji Kimi K2.6 jika kemampuan menjalankan bobot melalui Hugging Face, vLLM, SGLang, atau KTransformers lebih penting daripada akses API saja.[6]
  • Eksperimen volume tinggi dengan anggaran ketat: pertimbangkan DeepSeek V4 jika biaya per token lebih menentukan daripada raw benchmark score tertinggi.[2][3][9]

Kesimpulan

Jika hanya melihat peta benchmark yang tersedia, dua model teratas adalah GPT-5.5 dan Claude Opus 4.7, tetapi kekuatan mereka berbeda. GPT-5.5 lebih menonjol di ARC dan Terminal-Bench, sedangkan Claude Opus 4.7 lebih kuat di HLE dan SWE-Bench Pro.[1][3][4][9]

Kimi K2.6 tetap menarik sebagai kandidat coding dan agentic, terutama ketika jalur open-weight atau self-hosted menjadi kebutuhan, meski perbandingan langsung lintas empat model masih lebih terbatas.[6][8][13] DeepSeek V4 lebih rendah pada banyak raw score yang tercantum, tetapi harga API-nya membuatnya relevan untuk pilot price-performance dan eksperimen berskala besar.[2][3][9]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

  • Tidak ada pemenang tunggal: GPT 5.5 memimpin ARC AGI 2 dengan 85% vs 75,8% untuk Claude, dan Terminal Bench 2.0 dengan 82,7%; Claude Opus 4.7 lebih kuat di HLE dan SWE Bench Pro.[1][3][9]
  • Kimi K2.6 paling tepat dibaca sebagai kandidat coding dan agentic yang kuat: skornya 54 di Artificial Analysis dan 87 di benchmark coding AkitaOnRails, tetapi perbandingan langsung dengan semua pesaing masih lebih ter...
  • DeepSeek V4 lebih sering kalah di raw score pada data yang tersedia, tetapi harga API nya jauh lebih rendah: US$1,74 per 1 juta token input dan US$3,48 per 1 juta token output, dibanding US$5/US$30 untuk GPT 5.5 dan U...

Люди также спрашивают

Каков краткий ответ на вопрос «GPT-5.5, Claude Opus 4.7, Kimi K2.6, dan DeepSeek V4: peta kekuatan benchmark»?

Tidak ada pemenang tunggal: GPT 5.5 memimpin ARC AGI 2 dengan 85% vs 75,8% untuk Claude, dan Terminal Bench 2.0 dengan 82,7%; Claude Opus 4.7 lebih kuat di HLE dan SWE Bench Pro.[1][3][9]

Какие ключевые моменты необходимо проверить в первую очередь?

Tidak ada pemenang tunggal: GPT 5.5 memimpin ARC AGI 2 dengan 85% vs 75,8% untuk Claude, dan Terminal Bench 2.0 dengan 82,7%; Claude Opus 4.7 lebih kuat di HLE dan SWE Bench Pro.[1][3][9] Kimi K2.6 paling tepat dibaca sebagai kandidat coding dan agentic yang kuat: skornya 54 di Artificial Analysis dan 87 di benchmark coding AkitaOnRails, tetapi perbandingan langsung dengan semua pesaing masih lebih ter...

Что мне делать дальше на практике?

DeepSeek V4 lebih sering kalah di raw score pada data yang tersedia, tetapi harga API nya jauh lebih rendah: US$1,74 per 1 juta token input dan US$3,48 per 1 juta token output, dibanding US$5/US$30 untuk GPT 5.5 dan U...

Какую связанную тему мне следует изучить дальше?

Продолжайте с «Claude Opus 4.7, GPT-5.5, DeepSeek V4 и Kimi K2.6: сравнение бенчмарков 2026 года», чтобы увидеть другой ракурс и дополнительные цитаты.

Открыть связанную страницу

Продолжайте свое исследование

Исследовательский разговор

Вы

Вопрос исследования

Сравните GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам.

Studio Global AI27 источники

Цитируемый ответ

По доступным фрагментам доказательств полноценное сравнение всех четырёх моделей “один к одному” сделать нельзя: есть частичные данные для GPT-5.5, Claude Opus 4.7 и Kimi K2.6, но в предоставленных источниках нет сопоставимых бенчмарков для DeepSeek V4. В имеющихся данных GPT-5.5 выглядит сильнее Claude Opus 4.7 на ARC-AGI-2 и немного выше Kimi K2.6 в общем рейтинге Artificial Analysis, а Kimi K2.6 имеет сильные отдельные результаты на агентных и coding-бенчмарках.

Key findings

МодельЧто есть по бенчмаркам в доступных данныхВывод
GPT-5.585% на ARC-AGI-2 против 75.8% у Claude Opus 4.7 в сравнении DocsBot; 57 баллов в таблице Artificial Analysis для GPT-5.5 medium [5][6]Лучший из подтверждённых фрагментов по ARC-AGI-2 и выше Kimi K2.6 в доступном общем рейтинге
Claude Opus 4.775.8% на ARC-AGI-2 против 85% у GPT-5.5 [5]В доступном прямом сравнении уступает GPT-5.5 на ARC-AGI-2
Kimi K2.654 балла в таблице Artificial Analysis; 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual [6][3]Сильная open-weight/agentic модель, особенно по coding/agentic задачам, но прямое сравнение с GPT-5.5/Claude/DeepSeek по тем же тестам неполное
DeepSeek V4В предоставленном фрагменте есть данные о цене API, но нет сопоставимых benchmark-score по тем же тестам [7]Insufficient evidence для бенчмарк-сравнения

Сравнение по отдельным бенчмаркам

  • На ARC-AGI-2 GPT-5.5 указан с результатом 85%, а Claude Opus 4.7 — с 75.8%, поэтому по этому фрагменту GPT-5.5 впереди на 9.2 процентного пункта [5].

  • В лидерборде Artificial Analysis GPT-5.5 medium указан с результатом 57, а Kimi K2.6 — с результатом 54, то есть GPT-5.5 выше на 3 пункта в этом доступном срезе [6].

  • Для Kimi K2.6 доступны отдельные агентные и coding-результаты: 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual [3].

  • Для DeepSeek V4 в предоставленных данных нет benchmark-score, сопоставимых с ARC-AGI-2, Artificial Analysis score, SWE-bench или Tau2-bench; есть только ценовое сравнение API, поэтому ранжировать DeepSeek V4 по бенчмаркам нельзя [7].

Evidence notes

  • Самое прямое сравнение GPT-5.5 и Claude Opus 4.7 в доступных данных — это DocsBot по ARC-AGI-2, где GPT-5.5 имеет 85%, а Claude Opus 4.7 — 75.8% [5].

  • Самое прямое сравнение GPT-5.5 и Kimi K2.6 в доступных данных — это фрагмент Artificial Analysis, где GPT-5.5 medium имеет 57, а Kimi K2.6 — 54 [6].

  • Для Kimi K2.6 есть более детальные результаты по специализированным тестам, но они не позволяют напрямую ранжировать её против GPT-5.5, Claude Opus 4.7 и DeepSeek V4 без результатов этих моделей на тех же бенчмарках [3].

Limitations / uncertainty

  • Insufficient evidence для полного ранжирования всех четырёх моделей, потому что предоставленные источники не дают единой таблицы, где GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 оценены на одинаковом наборе бенчмарков.

  • Insufficient evidence по DeepSeek V4 именно в бенчмарках: доступный фрагмент источника содержит API-цены и контекстное окно, но не benchmark-score [7].

  • Результаты из разных источников нельзя автоматически объединять в один строгий рейтинг, потому что они могут использовать разные методики, режимы запуска, версии моделей и наборы задач.

Summary

Если опираться только на предоставленные данные, GPT-5.5 выглядит лидером в имеющихся прямых сравнениях: он выше Claude Opus 4.7 на ARC-AGI-2 и выше Kimi K2.6 в фрагменте Artificial Analysis [5][6]. Kimi K2.6 имеет сильные подтверждённые результаты на агентных и coding-бенчмарках, включая SWE-bench Verified 65.8 [3]. Для DeepSeek V4 в предоставленных данных недостаточно benchmark-информации, поэтому корректно сравнить его с остальными по бенчмаркам невозможно [7].

Источники