GPT-5.5, Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6: Siapa Unggul untuk Tugas Apa?

Studio Global AI로 검색 및 팩트체크 Discover에서 더 많은 것을 찾아보세요

17K0

네 개의 AI 모델 벤치마크 점수를 비교하는 추상적인 대시보드 일러스트 — GPT-5.5·Claude Opus 4.7·DeepSeek V4·Kimi K2.6 벤치마크 비교: 작업별 승자는 다르다AI 생성 이미지. 네 모델의 공개 벤치마크 비교를 상징적으로 표현했습니다.
AI 프롬프트
Create a landscape editorial hero image for this Studio Global article: GPT-5.5·Claude Opus 4.7·DeepSeek V4·Kimi K2.6 벤치마크 비교: 작업별 승자는 다르다. Article summary: 종합 1위는 보류가 맞습니다. 공개값 기준으로 GPT 5.5는 Terminal Bench 2.0 82.7%, Claude Opus 4.7은 SWE Bench Pro 64.3%·SWE Bench Verified 87.6%가 강하지만, 네 모델을 같은 하네스로 평가한 독립 비교는 부족합니다 [19][27][5].. Topic tags: ai, benchmarks, openai, chatgpt, anthropic. Reference image context from search candidates: Reference image 1: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3A%2F%2Fmedium.com%2F%40cognidownunder%2Fclaude-opus-4-7-leads-on-code-gpt-5-5-wins-intelligence-and-kimi-k2-6-" source context "Claude Opus 4.7 Leads on Code, GPT 5.5 Wins Intelligence, and Kimi K2.6 Changes Everything" Reference image 2: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3A%2F%2Fmedium.com%2F%40cognidownun
openai.com

Melihat benchmark publik, empat model ini sebaiknya tidak diperlakukan seperti lomba lari dengan satu garis finis. GPT-5.5 dan Claude Opus 4.7 memang punya lebih banyak angka yang muncul dalam tabel perbandingan yang sama. Namun Kimi K2.6 mencampur angka dari model card dan harness terpisah, sementara DeepSeek V4 belum memiliki cukup angka pembanding langsung untuk benchmark coding utama dalam sumber yang tersedia ^[1]^[2]^[5]^[6].

Jadi pertanyaan yang lebih berguna bukan siapa model paling pintar, melainkan: untuk pekerjaan Anda, model mana yang perlu diuji lebih dulu?

Jawaban cepat berdasarkan jenis pekerjaan

Agen coding berbasis terminal: GPT-5.5 layak diuji pertama. OpenAI menyatakan GPT-5.5 mencapai 82,7% di Terminal-Bench 2.0, sementara tabel publik menempatkan Claude Opus 4.7 di 69,4% dan Kimi K2.6 di 66,7% ^[19]^[8]^[13]^[6].
Perbaikan kode dan penyelesaian isu GitHub nyata: Claude Opus 4.7 menjadi kandidat awal paling kuat. Angka publik menunjukkan SWE-Bench Pro 64,3% dan SWE-Bench Verified 87,6%, lebih tinggi daripada SWE-Bench Pro GPT-5.5 yang dilaporkan 58,6% ^[27]^[19].
Konteks multimodal panjang: Kimi K2.6 pantas masuk daftar uji. Model ini diperkenalkan dengan dukungan input teks, gambar, dan video, serta rute konteks 256k ^[7].
Panggilan API massal yang sensitif biaya: DeepSeek V4 menonjol dari sisi harga. Mashable mencatat harga API per 1 juta token: DeepSeek V4 US$1,74 untuk input dan US$3,48 untuk output; GPT-5.5 US$5 untuk input dan US$30 untuk output; Claude Opus 4.7 US$5 untuk input dan US$25 untuk output ^[3].

Tabel benchmark utama

Tanda — berarti angka yang langsung sebanding tidak cukup jelas dalam sumber publik yang tersedia. Itu bukan berarti model tersebut tidak mampu menjalankan tugasnya.

Benchmark	GPT-5.5	Claude Opus 4.7	Kimi K2.6	DeepSeek V4	Cara membacanya
Terminal-Bench 2.0	82,7% ^[19]	69,4% ^[8]^[13]	66,7% ^[6]	—	Untuk alur kerja terminal dan baris perintah, angka publik GPT-5.5 paling tinggi.
SWE-Bench Pro	58,6% ^[19]	64,3% ^[27]	58,6% ^[1]^[6]	—	Untuk perbaikan kode dan isu GitHub nyata, Claude Opus 4.7 unggul.
SWE-Bench Verified	—	87,6% ^[27]	80,2% ^[1]^[6]	—	Dalam sumber yang tersedia, angka langsung muncul untuk Claude Opus 4.7 dan Kimi K2.6.
GPQA Diamond	93,6% ^[8]^[13]	94,2% ^[8]^[13]	—	—	GPT-5.5 dan Claude sangat dekat; angka publik Claude sedikit lebih tinggi.
HLE with tools	52,2% ^[8]	54,7% ^[8]^[29]	54,0% ^[6]	—	Claude dan Kimi tampak tinggi, tetapi angka Kimi bisa berasal dari kondisi pembanding berbeda ^[6].
BrowseComp	84,4% ^[8]^[13]	79,3% ^[8]^[13]	—	—	Untuk evaluasi browsing dan pencarian web, angka publik GPT-5.5 lebih tinggi.
OSWorld-Verified	78,7% ^[13]	78,0% ^[13]	—	—	Selisih GPT-5.5 dan Claude Opus 4.7 kecil.
MCP Atlas	75,3% ^[13]	79,1% ^[13]	—	—	Untuk evaluasi integrasi tool dan MCP, Claude Opus 4.7 lebih tinggi.

GPT-5.5: kuat untuk kerja terminal yang panjang

OpenAI menyebut GPT-5.5 sebagai model agentic coding terkuat mereka saat itu. Pada Terminal-Bench 2.0, GPT-5.5 mencapai 82,7%; pada SWE-Bench Pro, model ini mencapai 58,6% ^[19]. Menurut OpenAI, Terminal-Bench 2.0 menguji alur kerja command-line kompleks yang membutuhkan perencanaan, iterasi, dan koordinasi tool, sedangkan SWE-Bench Pro menguji kemampuan menyelesaikan isu GitHub dunia nyata ^[19].

Bagi tim engineering, ini membuat GPT-5.5 menarik untuk pekerjaan seperti menjalankan sesi terminal panjang, membuat dan memperbaiki file, mengulang perintah shell, mereproduksi kegagalan CI, atau mengoordinasikan beberapa tool dalam sandbox. Namun angka ini tidak berarti GPT-5.5 otomatis unggul di semua tugas coding. Pada SWE-Bench Pro, Claude Opus 4.7 dilaporkan 64,3%, lebih tinggi daripada GPT-5.5 yang 58,6% ^[19]^[27].

Claude Opus 4.7: kandidat kuat untuk perbaikan kode dan review

Claude Opus 4.7 dilaporkan mencapai SWE-Bench Pro 64,3% dan SWE-Bench Verified 87,6% ^[27]. DataCamp merangkum bahwa Opus 4.7 dievaluasi di 14 benchmark yang mencakup coding, penalaran, penggunaan tool, penggunaan komputer, dan penalaran visual ^[27].

Dalam perbandingan yang sama dengan GPT-5.5, Claude Opus 4.7 juga sedikit unggul di GPQA Diamond, yakni 94,2% melawan 93,6%, serta MCP Atlas, yakni 79,1% melawan 75,3% ^[8]^[13]. Sebaliknya, GPT-5.5 lebih tinggi di Terminal-Bench 2.0 dan BrowseComp ^[8]^[13]^[19]. Dengan kata lain, Claude Opus 4.7 lebih tepat dibaca sebagai kandidat awal untuk perbaikan kode, penyelesaian isu, dan pekerjaan review yang menuntut ketelitian, bukan sebagai pemenang mutlak untuk semua otomasi terminal.

Kimi K2.6: menarik untuk input panjang dan multimodal, tetapi kondisi skor perlu dicek

Kimi K2.6 diperkenalkan dengan SWE-Bench Pro 58,6% dan SWE-Bench Verified 80,2%. Panduan lain juga mencantumkan Terminal-Bench 2.0 66,7% dan HLE with tools 54,0% ^[1]^[6]. Namun panduan tersebut menjelaskan bahwa angka K2.6 bersumber dari model card resmi Moonshot AI, dan SWE-Bench Pro diberi catatan sebagai Moonshot in-house harness ^[6].

Karena itu, meskipun angka SWE-Bench Pro Kimi K2.6 sama-sama 58,6% seperti GPT-5.5, kita tidak bisa langsung menyimpulkannya sebagai seri sempurna dalam kondisi evaluasi yang identik ^[1]^[6]^[19]. Nilai jual Kimi K2.6 lebih jelas pada sisi produk: model ini disebut mendukung input teks, gambar, dan video, serta rute konteks 256k ^[7]. Untuk aplikasi yang perlu membaca konteks sangat panjang atau menggabungkan beberapa jenis input, Kimi layak diuji secara terpisah.

DeepSeek V4: harga menarik, tetapi validasi akurasi wajib

Dalam tabel ini, DeepSeek V4 tidak memiliki cukup angka publik yang langsung sebanding untuk Terminal-Bench, SWE-Bench Pro, SWE-Bench Verified, atau GPQA Diamond. Yang tersedia lebih banyak adalah gambaran lain. Artificial Analysis menyebut DeepSeek V4 Pro Max mencetak -10 di AA-Omniscience, naik 11 poin dibanding V3.2, sedangkan V4 Flash Max mencetak -23 ^[2]. Sumber yang sama melaporkan tingkat halusinasi 94% untuk V4 Pro dan 96% untuk V4 Flash, dengan interpretasi bahwa ketika tidak tahu jawabannya, model hampir selalu tetap menjawab ^[2].

Dari sisi arsitektur, DataCamp menjelaskan bahwa DeepSeek V4 menggunakan Mixture of Experts. Model Pro memiliki 1,6 triliun parameter total dengan 49 miliar parameter aktif, sedangkan model Flash memiliki 284 miliar parameter total dengan 13 miliar parameter aktif ^[4]. Dari sisi biaya, harga API yang dirangkum Mashable jauh lebih rendah daripada GPT-5.5 dan Claude Opus 4.7 ^[3].

Artinya, DeepSeek V4 masuk akal untuk dipertimbangkan pada pekerjaan volume besar, alur internal yang bisa diverifikasi, atau evaluasi model open-weight. Tetapi untuk produk yang membutuhkan akurasi tinggi, laporan halusinasi tinggi dan minimnya angka pembanding umum berarti Anda perlu menyiapkan evaluasi sendiri, pemeriksaan pascaproses, dan deteksi kegagalan ^[2]^[3]^[4].

Panduan memilih model berdasarkan use case

Use case	Model yang diuji pertama	Alasan
Automasi terminal panjang, agen berbasis shell, reproduksi CI	GPT-5.5	Terminal-Bench 2.0 mencatat GPT-5.5 82,7%, Claude Opus 4.7 69,4%, dan Kimi K2.6 66,7% ^[19]^[8]^[13]^[6].
Penyelesaian isu GitHub nyata, perbaikan kode, tugas ala SWE-Bench	Claude Opus 4.7	Claude Opus 4.7 dilaporkan mencapai SWE-Bench Pro 64,3% dan SWE-Bench Verified 87,6% ^[27].
Browsing dan eksplorasi web	GPT-5.5	BrowseComp mencatat GPT-5.5 84,4% dan Claude Opus 4.7 79,3% ^[8]^[13].
Integrasi MCP dan orkestrasi tool	Claude Opus 4.7	MCP Atlas mencatat Claude Opus 4.7 79,1% dan GPT-5.5 75,3% ^[13].
Konteks multimodal panjang	Kimi K2.6	Kimi K2.6 disebut mendukung input teks, gambar, video, dan rute konteks 256k ^[7].
Panggilan API massal yang sensitif biaya	DeepSeek V4	Harga token DeepSeek V4 lebih rendah, tetapi laporan halusinasi tinggi dari Artificial Analysis tetap harus diperhitungkan ^[2]^[3].

Mengapa juara umum belum bisa ditetapkan

Pertama, sumber yang tersedia belum cukup menunjukkan pengujian independen yang menjalankan keempat model dengan prompt, akses tool, anggaran reasoning, dan penilai yang sama. GPT-5.5 dan Claude Opus 4.7 punya lebih banyak perbandingan bersama, tetapi Kimi K2.6 mencampur angka model card dan in-house harness, sedangkan DeepSeek V4 masih kosong pada banyak baris benchmark umum di tabel ini ^[1]^[2]^[5]^[6].

Kedua, nama benchmark yang sama belum tentu berarti kondisi pengujian sama. Satu rangkuman menyebut skor GPT-5.5 dan Claude Opus 4.7 dapat terlihat sebanding dalam bentuk, tetapi belum tentu identik dalam metodologi ^[5]. Anthropic juga menyatakan bahwa evaluasi Terminal-Bench 2.0 mereka memakai Terminus-2 harness dan kondisi sumber daya tertentu ^[31].

Ketiga, skor benchmark hanya sebagian dari kualitas produk. Dalam implementasi nyata, Anda tetap perlu melihat cara model gagal, tingkat halusinasi, latensi, biaya, stabilitas pemanggilan tool, kebijakan keamanan, dan kemampuan mereproduksi log. ExplainX juga mengingatkan bahwa definisi benchmark, prompt, dan kebijakan tool dapat menggeser skor, sehingga angka publik tidak boleh menggantikan eval harness internal Anda ^[28].

Kesimpulan

Jika hanya memakai bukti publik saat ini, strategi paling rasional adalah uji GPT-5.5 lebih dulu untuk agen terminal, Claude Opus 4.7 untuk perbaikan kode ala SWE-Bench, Kimi K2.6 untuk konteks multimodal panjang, dan DeepSeek V4 untuk volume besar yang sangat sensitif biaya ^[19]^[27]^[7]^[3]. Namun pemenang umum empat model ini sebaiknya belum diputuskan. Skor publik dapat berubah karena prompt, akses tool, pengaturan reasoning, dan harness evaluasi yang berbeda ^[5]^[28]^[31].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

Belum ada dasar kuat untuk menobatkan satu juara umum. GPT 5.5 memimpin Terminal Bench 2.0 dengan 82,7%, sementara Claude Opus 4.7 unggul di SWE Bench Pro 64,3% dan SWE Bench Verified 87,6%; perbandingan empat model d...
Kimi K2.6 memiliki angka publik seperti SWE Bench Pro 58,6%, SWE Bench Verified 80,2%, dan Terminal Bench 2.0 66,7%, tetapi sebagian berasal dari model card atau in house harness sehingga tidak boleh dibaca sebagai pe...
DeepSeek V4 menarik untuk panggilan API berskala besar karena harga tokennya lebih rendah, tetapi angka benchmark umum untuk coding masih terbatas dan Artificial Analysis melaporkan tingkat halusinasi tinggi pada V4 P...

사람들은 또한 묻습니다.

"GPT-5.5, Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6: Siapa Unggul untuk Tugas Apa?"에 대한 짧은 대답은 무엇입니까?

먼저 검증할 핵심 포인트는 무엇인가요?

Belum ada dasar kuat untuk menobatkan satu juara umum. GPT 5.5 memimpin Terminal Bench 2.0 dengan 82,7%, sementara Claude Opus 4.7 unggul di SWE Bench Pro 64,3% dan SWE Bench Verified 87,6%; perbandingan empat model d... Kimi K2.6 memiliki angka publik seperti SWE Bench Pro 58,6%, SWE Bench Verified 80,2%, dan Terminal Bench 2.0 66,7%, tetapi sebagian berasal dari model card atau in house harness sehingga tidak boleh dibaca sebagai pe...

실무에서는 다음으로 무엇을 해야 합니까?

DeepSeek V4 menarik untuk panggilan API berskala besar karena harga tokennya lebih rendah, tetapi angka benchmark umum untuk coding masih terbatas dan Artificial Analysis melaporkan tingkat halusinasi tinggi pada V4 P...

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Security 공개 베타: 앤트로픽의 AI 코드 취약점 스캐너가 하는 일"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"Grok 4.3 API 분석: 100만 토큰과 낮은 단가, xAI의 다음 승부수"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

IT Consulting Orange County CA, IT Services, IT Outsourcing - Technijian. # Anthropic Claude Security for Enterprise: What You Need to Know. Anthropic has officially opened Claude

Claude Security 공개 베타: 앤트로픽의 AI 코드 취약점 스캐너가 하는 일

Claude Security 공개 베타, 기업 코드 보안을 AI로 훑는 방식

抽象 AI 介面顯示 Grok 4.3 API、1M context、token 價格與語音波形

Grok 4.3 API 분석: 100만 토큰과 낮은 단가, xAI의 다음 승부수

샤오미 Q5는 MIX 5가 아닐 가능성: 최신 단서는 샤오미 18 시리즈

샤오미 Q5, MIX 5일까? 최신 정황은 ‘샤오미 18’ 쪽

Metas KI-Altersprüfung: Neue Regeln für Jugendliche in EU, USA und Brasilien

인스타·페이스북 ‘가짜 생일’ 더 어려워진다: 메타의 AI 연령 확인 확대

메타 AI 연령 확인 확대: EU·미국·브라질에서 바뀌는 청소년 보호

연구 대화

당신2026년 4월 25일

연구문제

GPT-5.5, Claude Opus 4.7, DeepSeek V4, Kimi K2.6의 벤치마크를 비교해 주세요.

Studio Global AI2026년 4월 25일34 소스

인용 답변

요약하면, 공개적으로 확인 가능한 “동일 조건” 벤치마크만 놓고 보면 GPT-5.5는 터미널/에이전트 코딩, Claude Opus 4.7은 SWE-Bench Pro·Verified와 추론 계열에서 강합니다. DeepSeek V4와 Kimi K2.6은 공개 수치가 흩어져 있어 4개 모델을 한 표로 공정하게 순위화하기에는 근거가 부족합니다.

항목	GPT-5.5	Claude Opus 4.7	DeepSeek V4	Kimi K2.6
Terminal-Bench 2.0	82.7%	69.4%	공개 비교 근거 부족	약 66%대로 보도됨
SWE-Bench Pro	58.6%	64.3%	공개 비교 근거 부족	58.6%
SWE-Bench Verified	공개 수치 확인 부족	87.6%	공개 비교 근거 부족	80.2%
GPQA Diamond	0.94/1로 집계된 자료 있음	94.2%로 보도됨	공개 비교 근거 부족	공개 비교 근거 부족
HLE	GPT-5.5와 Opus 4.7 비교 자료에서 항목 존재	46.9%로 보도됨	공개 비교 근거 부족	공개 비교 근거 부족
기타	OSWorld, BrowseComp, CyberGym 등에서 GPT-5.5가 앞선다는 비교가 있음	FinanceAgent, MCP Atlas 등에서 Opus 4.7이 앞선다는 비교가 있음	Artificial Analysis 기준 AA-Omniscience 개선이 보고됐지만 환각률이 매우 높다는 지적도 있음	텍스트·이미지·비디오 입력과 256k 컨텍스트 지원으로 소개됨

GPT-5.5는 OpenAI 발표 기준 Terminal-Bench 2.0에서 82.7%, SWE-Bench Pro에서 58.6%를 기록한 것으로 확인됩니다 ^[15].
Claude Opus 4.7은 여러 비교 자료에서 SWE-Bench Pro 64.3%, SWE-Bench Verified 87.6%, Terminal-Bench 69.4%, GPQA Diamond 94.2%로 제시됩니다 ^[3].
GPT-5.5와 Claude Opus 4.7만 비교하면, 한 집계 자료는 공통 10개 벤치마크 중 Claude Opus 4.7이 6개, GPT-5.5가 4개에서 앞선다고 요약합니다 ^[12].
Kimi K2.6은 SWE-Bench Pro 58.6%, SWE-Bench Verified 80.2%로 소개된 자료가 있지만, GPT-5.5·Claude Opus 4.7·DeepSeek V4와 완전히 같은 하네스에서 비교됐는지는 명확하지 않습니다 ^[15]^[4].
DeepSeek V4는 Artificial Analysis에서 V4 Pro와 V4 Flash의 지식·환각 관련 평가가 언급되지만, 위 표의 SWE-Bench Pro, Terminal-Bench, GPQA, HLE와 직접 대응되는 공개 비교 수치는 충분하지 않습니다 ^[7].

결론적으로 “벤치마크 승자”를 하나로 고르면 왜곡될 수 있습니다.

에이전트 터미널 작업: GPT-5.5 우세로 볼 근거가 가장 강합니다 ^[15].
실전 GitHub 이슈 해결/SWE-Bench 계열: Claude Opus 4.7 우세로 볼 근거가 강합니다 ^[3]^[12].
비용 대비 성능/오픈웨이트 계열: DeepSeek V4와 Kimi K2.6을 검토할 만하지만, 동일 벤치마크 공개 근거는 부족합니다 ^[7]^[4].
종합 순위: Insufficient evidence. 4개 모델 모두를 같은 프롬프트, 같은 도구 사용 조건, 같은 채점기로 평가한 독립 벤치마크가 필요합니다.

출처

[1] Claude Opus 4.7 vs Kimi K2.6 - Detailed Performance & Feature Comparisondocsbot.ai
SWE-Bench Verified Evaluates software engineering capabilities through verified code modifications and custom agent setups Not available 80.2% SWE-Bench Verified, thinking mode Source SWE-Bench Pro Evaluates software engineering on multi-language SWE-Bench...
[2] DeepSeek is back among the leading open weights models with V4 Pro ...artificialanalysis.ai
Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...
[3] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[4] DeepSeek V4: Features, Benchmarks, and Comparisons - DataCampdatacamp.com
How large are the DeepSeek V4 models? DeepSeek uses a Mixture of Experts (MoE) architecture. The Pro model contains 1.6 trillion total parameters (49 billion active) and requires an 865GB download. The Flash model contains 284 billion parameters (13 billion...
[5] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarksllm-stats.com
The Verdict On the 10 benchmarks both providers report, Opus 4.7 leads on 6 and GPT-5.5 leads on 4. The leads cluster by category, not by overall quality: Opus 4.7 is ahead on the reasoning-heavy and review-grade tests (GPQA Diamond, HLE with and without to...
[6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai
Benchmark K2.6 Claude Opus 4.6 GPT-5.4 Notes --- --- SWE-Bench Pro 58.60% 53.40% 57.70% Moonshot in-house harness; SEAL mini-swe-agent puts GPT-5.4 at 59.1%, Opus 4.6 at 51.9% SWE-Bench Verified 80.20% 80.80% 80% Tight cluster; Opus 4.7 now leads at 87.6% T...
[7] Kimi K2.6 vs DeepSeek V4 vs GPT-5.5 vs Claude Opus 4.7blog.laozhang.ai
Official Contract Lanes Official rows keep the comparison honest. Kimi's K2.6 pricing page says K2.6 is the latest and smartest Kimi model, supports text, image, and video input, and has a 256k context route. DeepSeek's pricing page lists deepseek-v4-flash...
[8] OpenAI’s GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com
Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...
[13] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai
Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...
[19] Introducing GPT-5.5 - OpenAIopenai.com
Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...
[27] Claude Opus 4.7: Anthropic's New Best (Available) Model - DataCampdatacamp.com
Claude Opus 4.7 Benchmarks Opus 4.7 was evaluated across 14 benchmarks covering coding, reasoning, tool use, computer use, and visual reasoning. The table below shows the full comparison with Opus 4.6, GPT 5.4, Gemini 3.1 Pro, and the not-yet-published Myth...
[28] Claude Opus 4.7: Anthropic’s new flagship, benchmarks, and how it compares to Sonnet & Haiku | explainx.ai Blog | explainx.aiexplainx.ai
\Percentages are as printed on Anthropic’s benchmark figure; leaderboard definitions, prompts, and tool policies can move scores over time—treat this as a snapshot, not a substitute for your eval harness. Reading the table pragmatically Agentic coding (SWE-...
[29] Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safetymashable.com
Claude Mythos scored 56.8 percent on HLE Claude Opus 4.7 scored 46.9 percent Gemini 3.1 Pro scored 44.4 percent GPT-5-4 Pro scored 42.7 percent Claude Opus 4.6 scored 40.0 percent With tools, GPT-5-4-Pro scored 58.7 percent compared to Opus 4.7’s 54.7 perce...
[31] Introducing Claude Opus 4.7 - Anthropicanthropic.com
For GPT-5.4 and Gemini 3.1 Pro, we compared against the best reported model version available via API in the charts and table. MCP-Atlas: The Opus 4.6 score has been updated to reflect revised grading methodology from Scale AI. SWE-bench Verified, Pro, and...

GPT-5.5, Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6: Siapa Unggul untuk Tugas Apa?

Studio Global AI로 검색 및 팩트체크 Discover에서 더 많은 것을 찾아보세요

17K0

Jadi pertanyaan yang lebih berguna bukan siapa model paling pintar, melainkan: untuk pekerjaan Anda, model mana yang perlu diuji lebih dulu?

Jawaban cepat berdasarkan jenis pekerjaan

Agen coding berbasis terminal: GPT-5.5 layak diuji pertama. OpenAI menyatakan GPT-5.5 mencapai 82,7% di Terminal-Bench 2.0, sementara tabel publik menempatkan Claude Opus 4.7 di 69,4% dan Kimi K2.6 di 66,7% ^[19]^[8]^[13]^[6].
Perbaikan kode dan penyelesaian isu GitHub nyata: Claude Opus 4.7 menjadi kandidat awal paling kuat. Angka publik menunjukkan SWE-Bench Pro 64,3% dan SWE-Bench Verified 87,6%, lebih tinggi daripada SWE-Bench Pro GPT-5.5 yang dilaporkan 58,6% ^[27]^[19].
Konteks multimodal panjang: Kimi K2.6 pantas masuk daftar uji. Model ini diperkenalkan dengan dukungan input teks, gambar, dan video, serta rute konteks 256k ^[7].
Panggilan API massal yang sensitif biaya: DeepSeek V4 menonjol dari sisi harga. Mashable mencatat harga API per 1 juta token: DeepSeek V4 US$1,74 untuk input dan US$3,48 untuk output; GPT-5.5 US$5 untuk input dan US$30 untuk output; Claude Opus 4.7 US$5 untuk input dan US$25 untuk output ^[3].

Tabel benchmark utama

Tanda — berarti angka yang langsung sebanding tidak cukup jelas dalam sumber publik yang tersedia. Itu bukan berarti model tersebut tidak mampu menjalankan tugasnya.

Benchmark	GPT-5.5	Claude Opus 4.7	Kimi K2.6	DeepSeek V4	Cara membacanya
Terminal-Bench 2.0	82,7% ^[19]	69,4% ^[8]^[13]	66,7% ^[6]	—	Untuk alur kerja terminal dan baris perintah, angka publik GPT-5.5 paling tinggi.
SWE-Bench Pro	58,6% ^[19]	64,3% ^[27]	58,6% ^[1]^[6]	—	Untuk perbaikan kode dan isu GitHub nyata, Claude Opus 4.7 unggul.
SWE-Bench Verified	—	87,6% ^[27]	80,2% ^[1]^[6]	—	Dalam sumber yang tersedia, angka langsung muncul untuk Claude Opus 4.7 dan Kimi K2.6.
GPQA Diamond	93,6% ^[8]^[13]	94,2% ^[8]^[13]	—	—	GPT-5.5 dan Claude sangat dekat; angka publik Claude sedikit lebih tinggi.
HLE with tools	52,2% ^[8]	54,7% ^[8]^[29]	54,0% ^[6]	—	Claude dan Kimi tampak tinggi, tetapi angka Kimi bisa berasal dari kondisi pembanding berbeda ^[6].
BrowseComp	84,4% ^[8]^[13]	79,3% ^[8]^[13]	—	—	Untuk evaluasi browsing dan pencarian web, angka publik GPT-5.5 lebih tinggi.
OSWorld-Verified	78,7% ^[13]	78,0% ^[13]	—	—	Selisih GPT-5.5 dan Claude Opus 4.7 kecil.
MCP Atlas	75,3% ^[13]	79,1% ^[13]	—	—	Untuk evaluasi integrasi tool dan MCP, Claude Opus 4.7 lebih tinggi.

GPT-5.5: kuat untuk kerja terminal yang panjang

Claude Opus 4.7: kandidat kuat untuk perbaikan kode dan review

Kimi K2.6: menarik untuk input panjang dan multimodal, tetapi kondisi skor perlu dicek

DeepSeek V4: harga menarik, tetapi validasi akurasi wajib

Panduan memilih model berdasarkan use case

Use case	Model yang diuji pertama	Alasan
Automasi terminal panjang, agen berbasis shell, reproduksi CI	GPT-5.5	Terminal-Bench 2.0 mencatat GPT-5.5 82,7%, Claude Opus 4.7 69,4%, dan Kimi K2.6 66,7% ^[19]^[8]^[13]^[6].
Penyelesaian isu GitHub nyata, perbaikan kode, tugas ala SWE-Bench	Claude Opus 4.7	Claude Opus 4.7 dilaporkan mencapai SWE-Bench Pro 64,3% dan SWE-Bench Verified 87,6% ^[27].
Browsing dan eksplorasi web	GPT-5.5	BrowseComp mencatat GPT-5.5 84,4% dan Claude Opus 4.7 79,3% ^[8]^[13].
Integrasi MCP dan orkestrasi tool	Claude Opus 4.7	MCP Atlas mencatat Claude Opus 4.7 79,1% dan GPT-5.5 75,3% ^[13].
Konteks multimodal panjang	Kimi K2.6	Kimi K2.6 disebut mendukung input teks, gambar, video, dan rute konteks 256k ^[7].
Panggilan API massal yang sensitif biaya	DeepSeek V4	Harga token DeepSeek V4 lebih rendah, tetapi laporan halusinasi tinggi dari Artificial Analysis tetap harus diperhitungkan ^[2]^[3].

Mengapa juara umum belum bisa ditetapkan

Kesimpulan

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

Belum ada dasar kuat untuk menobatkan satu juara umum. GPT 5.5 memimpin Terminal Bench 2.0 dengan 82,7%, sementara Claude Opus 4.7 unggul di SWE Bench Pro 64,3% dan SWE Bench Verified 87,6%; perbandingan empat model d...
Kimi K2.6 memiliki angka publik seperti SWE Bench Pro 58,6%, SWE Bench Verified 80,2%, dan Terminal Bench 2.0 66,7%, tetapi sebagian berasal dari model card atau in house harness sehingga tidak boleh dibaca sebagai pe...
DeepSeek V4 menarik untuk panggilan API berskala besar karena harga tokennya lebih rendah, tetapi angka benchmark umum untuk coding masih terbatas dan Artificial Analysis melaporkan tingkat halusinasi tinggi pada V4 P...

사람들은 또한 묻습니다.

"GPT-5.5, Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6: Siapa Unggul untuk Tugas Apa?"에 대한 짧은 대답은 무엇입니까?

먼저 검증할 핵심 포인트는 무엇인가요?

실무에서는 다음으로 무엇을 해야 합니까?

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Security 공개 베타: 앤트로픽의 AI 코드 취약점 스캐너가 하는 일"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"Grok 4.3 API 분석: 100만 토큰과 낮은 단가, xAI의 다음 승부수"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

Claude Security 공개 베타: 앤트로픽의 AI 코드 취약점 스캐너가 하는 일

Claude Security 공개 베타, 기업 코드 보안을 AI로 훑는 방식

Grok 4.3 API 분석: 100만 토큰과 낮은 단가, xAI의 다음 승부수

샤오미 Q5는 MIX 5가 아닐 가능성: 최신 단서는 샤오미 18 시리즈

샤오미 Q5, MIX 5일까? 최신 정황은 ‘샤오미 18’ 쪽

인스타·페이스북 ‘가짜 생일’ 더 어려워진다: 메타의 AI 연령 확인 확대

메타 AI 연령 확인 확대: EU·미국·브라질에서 바뀌는 청소년 보호

연구 대화

당신2026년 4월 25일

연구문제

GPT-5.5, Claude Opus 4.7, DeepSeek V4, Kimi K2.6의 벤치마크를 비교해 주세요.

Studio Global AI2026년 4월 25일34 소스

인용 답변

항목	GPT-5.5	Claude Opus 4.7	DeepSeek V4	Kimi K2.6
Terminal-Bench 2.0	82.7%	69.4%	공개 비교 근거 부족	약 66%대로 보도됨
SWE-Bench Pro	58.6%	64.3%	공개 비교 근거 부족	58.6%
SWE-Bench Verified	공개 수치 확인 부족	87.6%	공개 비교 근거 부족	80.2%
GPQA Diamond	0.94/1로 집계된 자료 있음	94.2%로 보도됨	공개 비교 근거 부족	공개 비교 근거 부족
HLE	GPT-5.5와 Opus 4.7 비교 자료에서 항목 존재	46.9%로 보도됨	공개 비교 근거 부족	공개 비교 근거 부족
기타	OSWorld, BrowseComp, CyberGym 등에서 GPT-5.5가 앞선다는 비교가 있음	FinanceAgent, MCP Atlas 등에서 Opus 4.7이 앞선다는 비교가 있음	Artificial Analysis 기준 AA-Omniscience 개선이 보고됐지만 환각률이 매우 높다는 지적도 있음	텍스트·이미지·비디오 입력과 256k 컨텍스트 지원으로 소개됨

GPT-5.5는 OpenAI 발표 기준 Terminal-Bench 2.0에서 82.7%, SWE-Bench Pro에서 58.6%를 기록한 것으로 확인됩니다 ^[15].
Claude Opus 4.7은 여러 비교 자료에서 SWE-Bench Pro 64.3%, SWE-Bench Verified 87.6%, Terminal-Bench 69.4%, GPQA Diamond 94.2%로 제시됩니다 ^[3].
GPT-5.5와 Claude Opus 4.7만 비교하면, 한 집계 자료는 공통 10개 벤치마크 중 Claude Opus 4.7이 6개, GPT-5.5가 4개에서 앞선다고 요약합니다 ^[12].
Kimi K2.6은 SWE-Bench Pro 58.6%, SWE-Bench Verified 80.2%로 소개된 자료가 있지만, GPT-5.5·Claude Opus 4.7·DeepSeek V4와 완전히 같은 하네스에서 비교됐는지는 명확하지 않습니다 ^[15]^[4].
DeepSeek V4는 Artificial Analysis에서 V4 Pro와 V4 Flash의 지식·환각 관련 평가가 언급되지만, 위 표의 SWE-Bench Pro, Terminal-Bench, GPQA, HLE와 직접 대응되는 공개 비교 수치는 충분하지 않습니다 ^[7].

결론적으로 “벤치마크 승자”를 하나로 고르면 왜곡될 수 있습니다.

에이전트 터미널 작업: GPT-5.5 우세로 볼 근거가 가장 강합니다 ^[15].
실전 GitHub 이슈 해결/SWE-Bench 계열: Claude Opus 4.7 우세로 볼 근거가 강합니다 ^[3]^[12].
비용 대비 성능/오픈웨이트 계열: DeepSeek V4와 Kimi K2.6을 검토할 만하지만, 동일 벤치마크 공개 근거는 부족합니다 ^[7]^[4].
종합 순위: Insufficient evidence. 4개 모델 모두를 같은 프롬프트, 같은 도구 사용 조건, 같은 채점기로 평가한 독립 벤치마크가 필요합니다.

출처

[1] Claude Opus 4.7 vs Kimi K2.6 - Detailed Performance & Feature Comparisondocsbot.ai
SWE-Bench Verified Evaluates software engineering capabilities through verified code modifications and custom agent setups Not available 80.2% SWE-Bench Verified, thinking mode Source SWE-Bench Pro Evaluates software engineering on multi-language SWE-Bench...
[2] DeepSeek is back among the leading open weights models with V4 Pro ...artificialanalysis.ai
Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...
[3] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[4] DeepSeek V4: Features, Benchmarks, and Comparisons - DataCampdatacamp.com
How large are the DeepSeek V4 models? DeepSeek uses a Mixture of Experts (MoE) architecture. The Pro model contains 1.6 trillion total parameters (49 billion active) and requires an 865GB download. The Flash model contains 284 billion parameters (13 billion...
[5] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarksllm-stats.com
The Verdict On the 10 benchmarks both providers report, Opus 4.7 leads on 6 and GPT-5.5 leads on 4. The leads cluster by category, not by overall quality: Opus 4.7 is ahead on the reasoning-heavy and review-grade tests (GPQA Diamond, HLE with and without to...
[6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai
Benchmark K2.6 Claude Opus 4.6 GPT-5.4 Notes --- --- SWE-Bench Pro 58.60% 53.40% 57.70% Moonshot in-house harness; SEAL mini-swe-agent puts GPT-5.4 at 59.1%, Opus 4.6 at 51.9% SWE-Bench Verified 80.20% 80.80% 80% Tight cluster; Opus 4.7 now leads at 87.6% T...
[7] Kimi K2.6 vs DeepSeek V4 vs GPT-5.5 vs Claude Opus 4.7blog.laozhang.ai
Official Contract Lanes Official rows keep the comparison honest. Kimi's K2.6 pricing page says K2.6 is the latest and smartest Kimi model, supports text, image, and video input, and has a 256k context route. DeepSeek's pricing page lists deepseek-v4-flash...
[8] OpenAI’s GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com
Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...
[13] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai
Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...
[19] Introducing GPT-5.5 - OpenAIopenai.com
Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...
[27] Claude Opus 4.7: Anthropic's New Best (Available) Model - DataCampdatacamp.com
Claude Opus 4.7 Benchmarks Opus 4.7 was evaluated across 14 benchmarks covering coding, reasoning, tool use, computer use, and visual reasoning. The table below shows the full comparison with Opus 4.6, GPT 5.4, Gemini 3.1 Pro, and the not-yet-published Myth...
[28] Claude Opus 4.7: Anthropic’s new flagship, benchmarks, and how it compares to Sonnet & Haiku | explainx.ai Blog | explainx.aiexplainx.ai
\Percentages are as printed on Anthropic’s benchmark figure; leaderboard definitions, prompts, and tool policies can move scores over time—treat this as a snapshot, not a substitute for your eval harness. Reading the table pragmatically Agentic coding (SWE-...
[29] Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safetymashable.com
Claude Mythos scored 56.8 percent on HLE Claude Opus 4.7 scored 46.9 percent Gemini 3.1 Pro scored 44.4 percent GPT-5-4 Pro scored 42.7 percent Claude Opus 4.6 scored 40.0 percent With tools, GPT-5-4-Pro scored 58.7 percent compared to Opus 4.7’s 54.7 perce...
[31] Introducing Claude Opus 4.7 - Anthropicanthropic.com
For GPT-5.4 and Gemini 3.1 Pro, we compared against the best reported model version available via API in the charts and table. MCP-Atlas: The Opus 4.6 score has been updated to reflect revised grading methodology from Scale AI. SWE-bench Verified, Pro, and...

GPT-5.5, Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6: Siapa Unggul untuk Tugas Apa?

Studio Global AI로 검색 및 팩트체크 Discover에서 더 많은 것을 찾아보세요

17K0

Jadi pertanyaan yang lebih berguna bukan siapa model paling pintar, melainkan: untuk pekerjaan Anda, model mana yang perlu diuji lebih dulu?

Jawaban cepat berdasarkan jenis pekerjaan

Agen coding berbasis terminal: GPT-5.5 layak diuji pertama. OpenAI menyatakan GPT-5.5 mencapai 82,7% di Terminal-Bench 2.0, sementara tabel publik menempatkan Claude Opus 4.7 di 69,4% dan Kimi K2.6 di 66,7% ^[19]^[8]^[13]^[6].
Perbaikan kode dan penyelesaian isu GitHub nyata: Claude Opus 4.7 menjadi kandidat awal paling kuat. Angka publik menunjukkan SWE-Bench Pro 64,3% dan SWE-Bench Verified 87,6%, lebih tinggi daripada SWE-Bench Pro GPT-5.5 yang dilaporkan 58,6% ^[27]^[19].
Konteks multimodal panjang: Kimi K2.6 pantas masuk daftar uji. Model ini diperkenalkan dengan dukungan input teks, gambar, dan video, serta rute konteks 256k ^[7].
Panggilan API massal yang sensitif biaya: DeepSeek V4 menonjol dari sisi harga. Mashable mencatat harga API per 1 juta token: DeepSeek V4 US$1,74 untuk input dan US$3,48 untuk output; GPT-5.5 US$5 untuk input dan US$30 untuk output; Claude Opus 4.7 US$5 untuk input dan US$25 untuk output ^[3].

Tabel benchmark utama

Tanda — berarti angka yang langsung sebanding tidak cukup jelas dalam sumber publik yang tersedia. Itu bukan berarti model tersebut tidak mampu menjalankan tugasnya.

Benchmark	GPT-5.5	Claude Opus 4.7	Kimi K2.6	DeepSeek V4	Cara membacanya
Terminal-Bench 2.0	82,7% ^[19]	69,4% ^[8]^[13]	66,7% ^[6]	—	Untuk alur kerja terminal dan baris perintah, angka publik GPT-5.5 paling tinggi.
SWE-Bench Pro	58,6% ^[19]	64,3% ^[27]	58,6% ^[1]^[6]	—	Untuk perbaikan kode dan isu GitHub nyata, Claude Opus 4.7 unggul.
SWE-Bench Verified	—	87,6% ^[27]	80,2% ^[1]^[6]	—	Dalam sumber yang tersedia, angka langsung muncul untuk Claude Opus 4.7 dan Kimi K2.6.
GPQA Diamond	93,6% ^[8]^[13]	94,2% ^[8]^[13]	—	—	GPT-5.5 dan Claude sangat dekat; angka publik Claude sedikit lebih tinggi.
HLE with tools	52,2% ^[8]	54,7% ^[8]^[29]	54,0% ^[6]	—	Claude dan Kimi tampak tinggi, tetapi angka Kimi bisa berasal dari kondisi pembanding berbeda ^[6].
BrowseComp	84,4% ^[8]^[13]	79,3% ^[8]^[13]	—	—	Untuk evaluasi browsing dan pencarian web, angka publik GPT-5.5 lebih tinggi.
OSWorld-Verified	78,7% ^[13]	78,0% ^[13]	—	—	Selisih GPT-5.5 dan Claude Opus 4.7 kecil.
MCP Atlas	75,3% ^[13]	79,1% ^[13]	—	—	Untuk evaluasi integrasi tool dan MCP, Claude Opus 4.7 lebih tinggi.

GPT-5.5: kuat untuk kerja terminal yang panjang

Claude Opus 4.7: kandidat kuat untuk perbaikan kode dan review

Kimi K2.6: menarik untuk input panjang dan multimodal, tetapi kondisi skor perlu dicek

DeepSeek V4: harga menarik, tetapi validasi akurasi wajib

Panduan memilih model berdasarkan use case

Use case	Model yang diuji pertama	Alasan
Automasi terminal panjang, agen berbasis shell, reproduksi CI	GPT-5.5	Terminal-Bench 2.0 mencatat GPT-5.5 82,7%, Claude Opus 4.7 69,4%, dan Kimi K2.6 66,7% ^[19]^[8]^[13]^[6].
Penyelesaian isu GitHub nyata, perbaikan kode, tugas ala SWE-Bench	Claude Opus 4.7	Claude Opus 4.7 dilaporkan mencapai SWE-Bench Pro 64,3% dan SWE-Bench Verified 87,6% ^[27].
Browsing dan eksplorasi web	GPT-5.5	BrowseComp mencatat GPT-5.5 84,4% dan Claude Opus 4.7 79,3% ^[8]^[13].
Integrasi MCP dan orkestrasi tool	Claude Opus 4.7	MCP Atlas mencatat Claude Opus 4.7 79,1% dan GPT-5.5 75,3% ^[13].
Konteks multimodal panjang	Kimi K2.6	Kimi K2.6 disebut mendukung input teks, gambar, video, dan rute konteks 256k ^[7].
Panggilan API massal yang sensitif biaya	DeepSeek V4	Harga token DeepSeek V4 lebih rendah, tetapi laporan halusinasi tinggi dari Artificial Analysis tetap harus diperhitungkan ^[2]^[3].

Mengapa juara umum belum bisa ditetapkan

Kesimpulan

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

Belum ada dasar kuat untuk menobatkan satu juara umum. GPT 5.5 memimpin Terminal Bench 2.0 dengan 82,7%, sementara Claude Opus 4.7 unggul di SWE Bench Pro 64,3% dan SWE Bench Verified 87,6%; perbandingan empat model d...
Kimi K2.6 memiliki angka publik seperti SWE Bench Pro 58,6%, SWE Bench Verified 80,2%, dan Terminal Bench 2.0 66,7%, tetapi sebagian berasal dari model card atau in house harness sehingga tidak boleh dibaca sebagai pe...
DeepSeek V4 menarik untuk panggilan API berskala besar karena harga tokennya lebih rendah, tetapi angka benchmark umum untuk coding masih terbatas dan Artificial Analysis melaporkan tingkat halusinasi tinggi pada V4 P...

사람들은 또한 묻습니다.

"GPT-5.5, Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6: Siapa Unggul untuk Tugas Apa?"에 대한 짧은 대답은 무엇입니까?

먼저 검증할 핵심 포인트는 무엇인가요?

실무에서는 다음으로 무엇을 해야 합니까?

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Security 공개 베타: 앤트로픽의 AI 코드 취약점 스캐너가 하는 일"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"Grok 4.3 API 분석: 100만 토큰과 낮은 단가, xAI의 다음 승부수"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신2026년 4월 25일

연구문제

GPT-5.5, Claude Opus 4.7, DeepSeek V4, Kimi K2.6의 벤치마크를 비교해 주세요.

Studio Global AI2026년 4월 25일34 소스

인용 답변

항목	GPT-5.5	Claude Opus 4.7	DeepSeek V4	Kimi K2.6
Terminal-Bench 2.0	82.7%	69.4%	공개 비교 근거 부족	약 66%대로 보도됨
SWE-Bench Pro	58.6%	64.3%	공개 비교 근거 부족	58.6%
SWE-Bench Verified	공개 수치 확인 부족	87.6%	공개 비교 근거 부족	80.2%
GPQA Diamond	0.94/1로 집계된 자료 있음	94.2%로 보도됨	공개 비교 근거 부족	공개 비교 근거 부족
HLE	GPT-5.5와 Opus 4.7 비교 자료에서 항목 존재	46.9%로 보도됨	공개 비교 근거 부족	공개 비교 근거 부족
기타	OSWorld, BrowseComp, CyberGym 등에서 GPT-5.5가 앞선다는 비교가 있음	FinanceAgent, MCP Atlas 등에서 Opus 4.7이 앞선다는 비교가 있음	Artificial Analysis 기준 AA-Omniscience 개선이 보고됐지만 환각률이 매우 높다는 지적도 있음	텍스트·이미지·비디오 입력과 256k 컨텍스트 지원으로 소개됨

GPT-5.5는 OpenAI 발표 기준 Terminal-Bench 2.0에서 82.7%, SWE-Bench Pro에서 58.6%를 기록한 것으로 확인됩니다 ^[15].
Claude Opus 4.7은 여러 비교 자료에서 SWE-Bench Pro 64.3%, SWE-Bench Verified 87.6%, Terminal-Bench 69.4%, GPQA Diamond 94.2%로 제시됩니다 ^[3].
GPT-5.5와 Claude Opus 4.7만 비교하면, 한 집계 자료는 공통 10개 벤치마크 중 Claude Opus 4.7이 6개, GPT-5.5가 4개에서 앞선다고 요약합니다 ^[12].
Kimi K2.6은 SWE-Bench Pro 58.6%, SWE-Bench Verified 80.2%로 소개된 자료가 있지만, GPT-5.5·Claude Opus 4.7·DeepSeek V4와 완전히 같은 하네스에서 비교됐는지는 명확하지 않습니다 ^[15]^[4].
DeepSeek V4는 Artificial Analysis에서 V4 Pro와 V4 Flash의 지식·환각 관련 평가가 언급되지만, 위 표의 SWE-Bench Pro, Terminal-Bench, GPQA, HLE와 직접 대응되는 공개 비교 수치는 충분하지 않습니다 ^[7].

결론적으로 “벤치마크 승자”를 하나로 고르면 왜곡될 수 있습니다.

에이전트 터미널 작업: GPT-5.5 우세로 볼 근거가 가장 강합니다 ^[15].
실전 GitHub 이슈 해결/SWE-Bench 계열: Claude Opus 4.7 우세로 볼 근거가 강합니다 ^[3]^[12].
비용 대비 성능/오픈웨이트 계열: DeepSeek V4와 Kimi K2.6을 검토할 만하지만, 동일 벤치마크 공개 근거는 부족합니다 ^[7]^[4].
종합 순위: Insufficient evidence. 4개 모델 모두를 같은 프롬프트, 같은 도구 사용 조건, 같은 채점기로 평가한 독립 벤치마크가 필요합니다.

출처

[1] Claude Opus 4.7 vs Kimi K2.6 - Detailed Performance & Feature Comparisondocsbot.ai
SWE-Bench Verified Evaluates software engineering capabilities through verified code modifications and custom agent setups Not available 80.2% SWE-Bench Verified, thinking mode Source SWE-Bench Pro Evaluates software engineering on multi-language SWE-Bench...
[2] DeepSeek is back among the leading open weights models with V4 Pro ...artificialanalysis.ai
Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...
[3] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[4] DeepSeek V4: Features, Benchmarks, and Comparisons - DataCampdatacamp.com
How large are the DeepSeek V4 models? DeepSeek uses a Mixture of Experts (MoE) architecture. The Pro model contains 1.6 trillion total parameters (49 billion active) and requires an 865GB download. The Flash model contains 284 billion parameters (13 billion...
[5] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarksllm-stats.com
The Verdict On the 10 benchmarks both providers report, Opus 4.7 leads on 6 and GPT-5.5 leads on 4. The leads cluster by category, not by overall quality: Opus 4.7 is ahead on the reasoning-heavy and review-grade tests (GPQA Diamond, HLE with and without to...
[6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai
Benchmark K2.6 Claude Opus 4.6 GPT-5.4 Notes --- --- SWE-Bench Pro 58.60% 53.40% 57.70% Moonshot in-house harness; SEAL mini-swe-agent puts GPT-5.4 at 59.1%, Opus 4.6 at 51.9% SWE-Bench Verified 80.20% 80.80% 80% Tight cluster; Opus 4.7 now leads at 87.6% T...
[7] Kimi K2.6 vs DeepSeek V4 vs GPT-5.5 vs Claude Opus 4.7blog.laozhang.ai
Official Contract Lanes Official rows keep the comparison honest. Kimi's K2.6 pricing page says K2.6 is the latest and smartest Kimi model, supports text, image, and video input, and has a 256k context route. DeepSeek's pricing page lists deepseek-v4-flash...
[8] OpenAI’s GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com
Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...
[13] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai
Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...
[19] Introducing GPT-5.5 - OpenAIopenai.com
Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...
[27] Claude Opus 4.7: Anthropic's New Best (Available) Model - DataCampdatacamp.com
Claude Opus 4.7 Benchmarks Opus 4.7 was evaluated across 14 benchmarks covering coding, reasoning, tool use, computer use, and visual reasoning. The table below shows the full comparison with Opus 4.6, GPT 5.4, Gemini 3.1 Pro, and the not-yet-published Myth...
[28] Claude Opus 4.7: Anthropic’s new flagship, benchmarks, and how it compares to Sonnet & Haiku | explainx.ai Blog | explainx.aiexplainx.ai
\Percentages are as printed on Anthropic’s benchmark figure; leaderboard definitions, prompts, and tool policies can move scores over time—treat this as a snapshot, not a substitute for your eval harness. Reading the table pragmatically Agentic coding (SWE-...
[29] Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safetymashable.com
Claude Mythos scored 56.8 percent on HLE Claude Opus 4.7 scored 46.9 percent Gemini 3.1 Pro scored 44.4 percent GPT-5-4 Pro scored 42.7 percent Claude Opus 4.6 scored 40.0 percent With tools, GPT-5-4-Pro scored 58.7 percent compared to Opus 4.7’s 54.7 perce...
[31] Introducing Claude Opus 4.7 - Anthropicanthropic.com
For GPT-5.4 and Gemini 3.1 Pro, we compared against the best reported model version available via API in the charts and table. MCP-Atlas: The Opus 4.6 score has been updated to reflect revised grading methodology from Scale AI. SWE-bench Verified, Pro, and...