studioglobal
인기 있는 발견
보고서게시됨12 소스

Claude Opus 4.7 vs GPT-5.5: 2026 벤치마크, 그리고 DeepSeek V4·Kimi K2.6의 현재 위치

동일한 벤치마크에서 맞붙은 수치만 보면 GPT 5.5는 Terminal Bench 2.0에서 82.7%로 Claude Opus 4.7의 69.4%를 크게 앞섰고, Claude는 SWE Bench Pro Public에서 64.3% 대 58.6%로 앞섰습니다 [5]. 만능 1위는 없습니다.

17K0
Ilustrasi perbandingan benchmark AI antara Claude Opus 4.7, GPT-5.5, DeepSeek V4, dan Kimi K2.6
Claude Opus 4.7 vs GPT-5.5: Benchmark 2026 dan Status DeepSeek V4/Kimi K2.6Ilustrasi AI-generated untuk perbandingan benchmark model AI frontier 2026.
AI 프롬프트

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 vs GPT-5.5: Benchmark 2026 dan Status DeepSeek V4/Kimi K2.6. Article summary: Bukti terkuat hanya mendukung head to head Claude Opus 4.7 vs GPT 5.5: GPT 5.5 unggul di Terminal Bench 2.0 (82.7% vs 69.4%), sedangkan Claude unggul di SWE Bench Pro (64.3% vs 58.6%); DeepSeek V4 dan Kimi K2.6 belum.... Topic tags: ai, ai benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watc

openai.com

2026년 AI 벤치마크를 볼 때 가장 흔한 함정은 여러 모델을 한 줄 리더보드에 세워놓고, 서로 다른 테스트와 모델 버전을 같은 기준처럼 읽는 일입니다. 이 자료 묶음에서 가장 탄탄하게 비교할 수 있는 조합은 Claude Opus 4.7과 GPT-5.5입니다. 두 모델 모두 OpenAI와 Vellum 표의 같은 벤치마크에 함께 등장하기 때문입니다 [5][2].

반면 DeepSeek V4와 Kimi K2.6은 사정이 다릅니다. 현재 제공된 출처에는 두 모델의 직접 벤치마크 숫자가 없고, 가장 가까운 참고 자료도 DeepSeek V3.2, KimiK2.5, Kimi K2 Thinking에 관한 것입니다 [1][13][6]. 따라서 네 모델을 모두 같은 순위표에 올려 단정하는 것은 아직 무리입니다.

먼저 보는 결론

  • GPT-5.5는 터미널/CLI 에이전트, 오피스·전문 업무, 브라우저/검색, 일부 수학 평가에서 강하게 나타납니다 [5][2].
  • Claude Opus 4.7은 SWE-Bench Pro Public, MCP Atlas 같은 툴 오케스트레이션, FinanceAgent v1.1에서 더 좋은 수치를 보입니다 [5][2].
  • DeepSeek V4와 Kimi K2.6은 이 자료만으로 Claude Opus 4.7 또는 GPT-5.5와 공정하게 순위를 매길 수 없습니다. 출처에 나온 숫자는 다른 버전의 모델에 관한 것입니다 [1][13][6].

같은 벤치마크에서 직접 비교되는 숫자

아래 표는 Claude Opus 4.7과 GPT-5.5가 같은 벤치마크 이름으로 나란히 나온 경우만 묶었습니다. GPT-5.5 Pro는 출처가 별도 변종으로 제시한 경우에만 함께 적었습니다 [2].

제품 관점의 질문벤치마크보고된 결과읽는 법
코드 수정·리포지토리 복구SWE-Bench Pro PublicClaude Opus 4.7 64.3% vs GPT-5.5 58.6% [5]이 벤치마크에서는 Claude가 앞섭니다.
터미널/CLI 에이전트Terminal-Bench 2.0GPT-5.5 82.7% vs Claude Opus 4.7 69.4% [5]터미널 작업에서는 GPT-5.5의 우위가 가장 뚜렷합니다.
전문 업무·오피스 작업GDPval; OfficeQA ProGDPval은 GPT-5.5 84.9% vs Claude 80.3%, OfficeQA Pro는 GPT-5.5 54.1% vs Claude 43.6% [5]두 전문 업무 지표에서는 GPT-5.5가 높습니다.
금융 에이전트FinanceAgent v1.1Claude 64.4% vs GPT-5.5 60.0% [5]이 금융 에이전트 평가에서는 Claude가 앞섭니다.
컴퓨터 사용·브라우저 작업OSWorld-Verified; BrowseCompOSWorld는 GPT-5.5 78.7% vs Claude 78.0%, BrowseComp는 GPT-5.5 84.4% 및 GPT-5.5 Pro 90.1% vs Claude 79.3% [2]OSWorld는 거의 비슷하고, BrowseComp는 GPT-5.5 쪽이 높습니다.
도구 호출·오케스트레이션MCP AtlasClaude 79.1% vs GPT-5.5 75.3% [2]여러 도구를 엮는 MCP 계열 시나리오에서는 Claude가 강합니다.
과학·수학 추론GPQA Diamond; FrontierMath T1–3GPQA는 Claude 94.2% vs GPT-5.5 93.6%, FrontierMath는 GPT-5.5 51.7% 및 GPT-5.5 Pro 52.4% vs Claude 43.8% [2]GPQA는 초접전이고, FrontierMath는 GPT-5.5가 앞섭니다.

숫자를 읽기 전에: 세 가지 주의점

1. SWE-Bench Pro와 SWE-bench Verified를 섞지 말 것

OpenAI의 직접 비교 표는 SWE-Bench Pro Public을 씁니다 [5]. 반면 BenchLM이 설명하는 SWE-bench Verified는 SWE-bench의 사람이 검증한 하위 집합으로, Django·Flask·scikit-learn 같은 인기 파이썬 오픈소스 저장소의 실제 GitHub 이슈 해결 능력을 테스트합니다 [21].

따라서 SWE-Bench Pro Public에서 Claude가 64.3%를 기록했다는 숫자를 다른 리더보드의 SWE-bench Verified 점수와 바로 비교하면 안 됩니다 [5][21]. 벤치마크 이름, 평가 실행 방식, 평가일, 모델 설정, 재시도 정책까지 맞아야 같은 숫자로 읽을 수 있습니다.

2. GPQA Diamond는 프런티어 모델을 가르는 칼날이 무뎌졌습니다

Vellum은 GPQA Diamond에서 Claude Opus 4.7 94.2%, GPT-5.5 93.6%를 제시합니다 [2]. The Next Web도 Claude Opus 4.7 94.2%, GPT-5.4 Pro 94.4%, Gemini 3.1 Pro 94.3%를 전하며, 이런 차이는 노이즈 범위라고 설명했습니다 [17].

즉 GPQA Diamond는 기본 추론 체력을 보는 데는 여전히 참고할 수 있지만, 최신 프런티어 모델 중 하나를 고르는 결정타로 쓰기에는 부족합니다. 실제 제품에서는 장시간 작업, 도구 호출, 브라우저 사용, 사내 코드베이스 적응처럼 더 구체적인 평가가 필요합니다.

3. 제3자 리더보드는 서로 다를 수 있습니다

SWE-bench Verified에서 Claude Opus 4.7의 숫자도 출처마다 다릅니다. BenchLM은 2026년 4월 24일 기준 Claude Opus 4.7 Adaptive를 87.6%로 제시했고 [21], LLM Stats도 87.6%를 적었습니다 [18]. 반면 LM Council은 Claude Opus 4.7 max를 83.5% ±1.7로 표시했고 [10], MindStudio는 82.4%라고 설명했습니다 [14].

이 차이가 곧 어느 한쪽이 틀렸다는 뜻은 아닙니다. 모델 설정, 평가 실행 방식, 테스트 날짜, reasoning mode, retry 처리 방식이 달라지면 같은 이름의 벤치마크라도 결과가 달라질 수 있습니다. 엔지니어링 팀이라면 공개 점수는 후보군을 좁히는 용도로 쓰고, 최종 판단은 사내 저장소와 실제 워크플로에서 다시 해야 합니다.

Claude Opus 4.7: 코드 복구와 다중 도구 작업에서 강한 신호

Claude Opus 4.7의 강점은 코드 복구와 툴을 많이 쓰는 에이전트 작업에서 가장 뚜렷합니다. OpenAI 표에서 Claude는 SWE-Bench Pro Public 64.3% 대 58.6%로 GPT-5.5를 앞섰고, FinanceAgent v1.1에서도 64.4% 대 60.0%로 더 높았습니다 [5]. Vellum 표에서도 MCP Atlas 점수는 Claude 79.1%, GPT-5.5 75.3%입니다 [2].

Anthropic의 Claude Opus 4.7 출시 글에는 에이전트 워크플로와 관련된 파트너 평가도 언급됩니다. Anthropic은 Hebbia가 핵심 orchestrator agents에서 tool call 정확도와 planning 정확도의 두 자릿수 상승을 봤다고 소개했고, Rakuten-SWE-Bench에서는 Opus 4.7이 Opus 4.6보다 세 배 많은 production tasks를 해결했으며 Code Quality와 Test Quality도 두 자릿수 개선됐다고 전했습니다 [19].

다만 이는 유용한 제품 신호일 뿐, 여러분의 내부 워크로드에서 독립적으로 검증된 결과는 아닙니다. 자율 코드 수정, MCP, 여러 도구를 길게 이어 쓰는 워크플로가 핵심이라면 Claude Opus 4.7을 먼저 시험해볼 만합니다. 하지만 테스트 스위트, 권한 모델, 도구 스키마, 실패 시 재시도 방식은 반드시 실제 운영 환경에 맞춰 다시 확인해야 합니다.

GPT-5.5: 터미널, 브라우저/검색, 오피스, 수학에서 강점

GPT-5.5의 가장 선명한 우위는 Terminal-Bench 2.0에서 나타납니다. OpenAI는 GPT-5.5가 82.7%를 기록했다고 보고했으며, Claude Opus 4.7은 69.4%, Gemini 3.1 Pro는 68.5%였습니다 [5]. 같은 표에서 GPT-5.5는 GDPval wins/ties 84.9% 대 80.3%, OfficeQA Pro 54.1% 대 43.6%로 Claude보다 높았습니다 [5].

Vellum은 컴퓨터 사용, 검색, 추론 쪽의 추가 맥락을 제공합니다. GPT-5.5는 OSWorld-Verified에서 78.7% 대 78.0%로 Claude보다 근소하게 높고, BrowseComp에서는 84.4% 대 79.3%, FrontierMath T1–3에서는 51.7% 대 43.8%로 더 높습니다 [2]. BrowseComp에서는 GPT-5.5 Pro가 90.1%로 따로 제시됩니다 [2].

코딩에서는 그림이 조금 더 복합적입니다. GPT-5.5는 Terminal-Bench 2.0에서 매우 강하지만, OpenAI의 SWE-Bench Pro Public 표에서는 Claude Opus 4.7보다 낮습니다 [5]. OpenAI System Card는 GPT-5.5의 CoT-Control도 설명합니다. 이는 GPQA, MMLU-Pro, HLE, BFCL, SWE-Bench Verified 등에서 만든 13,000개 이상의 과제를 포함해 모델이 chain-of-thought 관련 사용자 지시를 얼마나 잘 따르는지 측정하는 평가 묶음입니다 [26]. 다만 이 자료는 DeepSeek V4나 Kimi K2.6과의 직접 비교 수치를 제공하지 않습니다 [26].

DeepSeek V4와 Kimi K2.6: 아직 직접 비교할 숫자가 없습니다

DeepSeek V4에 대해서는 제공된 출처 안에 직접 벤치마크 숫자가 없습니다. 가장 가까운 자료는 DeepSeek V3.2입니다. MangoMind는 2026년 4월 코딩 추천에서 DeepSeek V3.2를 SWE-bench 89.2%로 제시했지만, 이는 Claude Opus 4.6 93.2%, GPT-5.4 Pro 91.1% 아래에 놓인 수치이며 DeepSeek V4가 아닙니다 [1]. DeepSeek V3.2의 점수로 DeepSeek V4의 성능을 결론낼 수는 없습니다.

Kimi K2.6도 마찬가지입니다. Stanford HAI는 2026년 2월 기준 SWE-bench Verified에서 KimiK2.5가 70%~76% 범위의 모델군에 포함됐다고 설명했습니다 [13]. Siliconflow는 Kimi K2 Thinking의 GPQA 84.5, SWE Bench 71.3을 제시합니다 [6]. 두 자료 모두 Kimi K2.6의 직접 점수가 아니므로, Kimi 생태계를 이해하는 참고 정보로만 봐야 합니다.

제품 팀을 위한 평가 가이드

주요 사용 목적먼저 시험해볼 모델근거주의할 점
터미널/CLI 코딩 에이전트GPT-5.5Terminal-Bench 2.0: GPT-5.5 82.7% vs Claude 69.4% [5]사내 shell 환경, 권한 모델, CI/CD 흐름에서 재평가해야 합니다.
자율 리포지토리 복구Claude Opus 4.7, 이후 GPT-5.5 비교SWE-Bench Pro Public: Claude 64.3% vs GPT-5.5 58.6% [5]SWE-bench Verified와 섞어 읽지 말고 평가 방식부터 맞춰야 합니다 [21].
MCP 또는 다중 도구 오케스트레이션Claude Opus 4.7MCP Atlas: Claude 79.1% vs GPT-5.5 75.3% [2]실제 tool schema, retry logic, access policy에서 검증해야 합니다.
브라우저/검색 에이전트GPT-5.5 또는 GPT-5.5 ProBrowseComp: GPT-5.5 84.4%, GPT-5.5 Pro 90.1%, Claude 79.3% [2]BrowseComp 점수를 모든 내부 리서치 업무의 대리 지표로 보면 안 됩니다.
금융·전문 업무 워크플로Claude와 GPT-5.5를 나란히 테스트Claude는 FinanceAgent v1.1에서 앞서고, GPT-5.5는 GDPval과 OfficeQA Pro에서 앞섭니다 [5]MindStudio는 금융 벤치마크 점수와 실제 배포 도구 사이의 간극이 모델 지능보다 엔드투엔드 인프라에서 생기는 경우가 많다고 설명합니다 [14].
과학적 추론 전반GPQA만 보고 고르지 말 것Vellum의 GPQA Diamond 점수는 Claude와 GPT-5.5가 매우 가깝습니다 [2]실제 과제가 벤치마크 문제와 다르면 도메인별 평가가 더 중요합니다.

결론

현재 확인되는 head-to-head 근거만 놓고 보면, GPT-5.5는 터미널/CLI 에이전트, 브라우저/검색, 오피스 작업, 일부 수학 벤치마크에서 가장 강한 후보입니다 [5][2]. Claude Opus 4.7은 SWE-Bench Pro Public, MCP/도구 오케스트레이션, FinanceAgent v1.1에서 가장 설득력 있는 후보입니다 [5][2].

DeepSeek V4와 Kimi K2.6은 이 자료 묶음만으로 두 모델과 공정하게 순위를 매길 수 없습니다. 현재 확인되는 숫자는 DeepSeek V3.2, KimiK2.5, Kimi K2 Thinking에 관한 것이므로, DeepSeek V4나 Kimi K2.6이 Claude Opus 4.7 또는 GPT-5.5를 앞선다는 주장은 직접 벤치마크 수치로 뒷받침되지 않습니다 [1][13][6].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

  • 동일한 벤치마크에서 맞붙은 수치만 보면 GPT 5.5는 Terminal Bench 2.0에서 82.7%로 Claude Opus 4.7의 69.4%를 크게 앞섰고, Claude는 SWE Bench Pro Public에서 64.3% 대 58.6%로 앞섰습니다 [5].
  • 만능 1위는 없습니다. Claude Opus 4.7은 MCP Atlas와 FinanceAgent v1.1에서, GPT 5.5는 BrowseComp·GDPval·OfficeQA Pro·FrontierMath에서 더 높은 점수를 보였습니다 [2][5].
  • DeepSeek V4와 Kimi K2.6은 이 자료 묶음에서 직접 벤치마크 수치가 없어 공정한 순위 매김이 어렵습니다. 확인되는 것은 DeepSeek V3.2, KimiK2.5, Kimi K2 Thinking 관련 수치입니다 [1][13][6].

사람들은 또한 묻습니다.

"Claude Opus 4.7 vs GPT-5.5: 2026 벤치마크, 그리고 DeepSeek V4·Kimi K2.6의 현재 위치"에 대한 짧은 대답은 무엇입니까?

동일한 벤치마크에서 맞붙은 수치만 보면 GPT 5.5는 Terminal Bench 2.0에서 82.7%로 Claude Opus 4.7의 69.4%를 크게 앞섰고, Claude는 SWE Bench Pro Public에서 64.3% 대 58.6%로 앞섰습니다 [5].

먼저 검증할 핵심 포인트는 무엇인가요?

동일한 벤치마크에서 맞붙은 수치만 보면 GPT 5.5는 Terminal Bench 2.0에서 82.7%로 Claude Opus 4.7의 69.4%를 크게 앞섰고, Claude는 SWE Bench Pro Public에서 64.3% 대 58.6%로 앞섰습니다 [5]. 만능 1위는 없습니다. Claude Opus 4.7은 MCP Atlas와 FinanceAgent v1.1에서, GPT 5.5는 BrowseComp·GDPval·OfficeQA Pro·FrontierMath에서 더 높은 점수를 보였습니다 [2][5].

실무에서는 다음으로 무엇을 해야 합니까?

DeepSeek V4와 Kimi K2.6은 이 자료 묶음에서 직접 벤치마크 수치가 없어 공정한 순위 매김이 어렵습니다. 확인되는 것은 DeepSeek V3.2, KimiK2.5, Kimi K2 Thinking 관련 수치입니다 [1][13][6].

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Opus 4.7·GPT-5.5·DeepSeek V4·Kimi K2.6 벤치마크 비교: 2026년 판정"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"DeepSeek V4 엔지니어링 해설: 100만 토큰, MoE, API 이전 체크포인트"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신

연구문제

Lakukan riset mendalam tentang benchmark Claude Opus 4.7, GPT-5.5, DeepSeek V4, dan Kimi K2.6.

Studio Global AI32 소스

인용 답변

Berdasarkan bukti yang tersedia, benchmark yang paling bisa dibahas secara konkret hanya untuk Claude Opus 4.7. Untuk GPT-5.5, bukti yang tersedia hanya satu unggahan X tanpa angka benchmark lengkap; untuk DeepSeek V4 dan Kimi K2.6 tidak ada bukti benchmark langsung dalam sumber yang diberikan. Karena itu, perbandingan empat model ini belum bisa dibuat secara kuat; Insufficient evidence untuk klaim komparatif penuh.

Key findings

  • Claude Opus 4.7 dilaporkan mencetak 87.6% pada SWE-bench Verified, 94.2% pada GPQA, memiliki konteks 1 juta token, peningkatan vision 3.3x, mode effort “xhigh”, dan harga $5/$25 menurut LLM Stats [7].

  • Claude Opus 4.7 juga dilaporkan menempati peringkat #2 dari 110 model pada leaderboard provisional BenchLM dengan skor keseluruhan 97/100, serta peringkat #2 dari 14 pada verified leaderboard [4].

  • Pada GPQA Diamond, laporan The Next Web menyebut Claude Opus 4.7 mencetak 94.2%, GPT-5.4 Pro 94.4%, dan Gemini 3.1 Pro 94.3%; sumber itu menilai selisihnya berada dalam noise dan benchmark ini sudah cenderung jenuh di antara model frontier [6].

  • Untuk coding, bukti yang tersedia mendukung bahwa Claude Opus 4.7 sangat kuat, tetapi angka SWE-bench yang tersedia tidak sepenuhnya konsisten antar-sumber: LLM Stats menyebut 87.6% untuk SWE-bench Verified [7], sementara Stanford HAI hanya memberi konteks lebih lama bahwa per Februari 2026 Claude 4.5 Opus high reasoning berada sekitar 76.8% dan model lain seperti KimiK2.5, GPT-5.2, serta Gemini 3 Flash high reasoning berada di kisaran 70–76% [1].

  • Untuk analisis finansial, MindStudio menyebut contoh gap antara skor FinanceBench 82.7% dan kesiapan deployment produksi, tetapi bukti snippet yang tersedia tidak cukup untuk memastikan konteks metodologi, pembanding, atau apakah angka itu diklaim sebagai skor resmi Claude Opus 4.7 [3].

  • Untuk GPT-5.5, satu-satunya bukti langsung yang tersedia adalah unggahan X yang menyatakan GPT-5.5 underperform terhadap Mythos pada SWE-Bench Pro dan HLE, setara pada GPQA Diamond, BrowseComp, dan OSWorld-Verified, serta lebih baik pada Terminal-Bench 2.0 [31]. Bukti ini lemah untuk riset benchmark karena tidak menyediakan angka, metodologi, atau sumber primer [31].

  • Untuk DeepSeek V4, tidak ada benchmark langsung dalam bukti yang diberikan; satu-satunya data terkait DeepSeek menyebut DeepSeek V3.2 sebagai #3 rekomendasi coding April 2026 dengan 89.2% SWE-bench menurut MangoMind, bukan DeepSeek V4 [2]. Insufficient evidence.

  • Untuk Kimi K2.6, tidak ada benchmark langsung dalam bukti yang diberikan; Stanford HAI hanya menyebut KimiK2.5 berada dalam kelompok 70–76% pada SWE-bench Verified per Februari 2026, bukan Kimi K2.6 [1]. Insufficient evidence.

Perbandingan ringkas

ModelBukti benchmark langsungAngka yang tersediaKekuatan kesimpulan
Claude Opus 4.7AdaSWE-bench Verified 87.6%, GPQA 94.2%, BenchLM 97/100Sedang, tetapi perlu validasi sumber primer
GPT-5.5Sangat terbatasTidak ada angka; hanya klaim relatif via XLemah
DeepSeek V4Tidak adaTidak adaInsufficient evidence
Kimi K2.6Tidak adaTidak adaInsufficient evidence

Evidence notes

  • Sumber paling kuat yang tersedia adalah Stanford HAI karena bersifat teknis dan institusional, tetapi datanya tidak mencakup Claude Opus 4.7, GPT-5.5, DeepSeek V4, atau Kimi K2.6 secara langsung; sumber itu hanya memberi baseline per Februari 2026 untuk Claude 4.5 Opus, KimiK2.5, GPT-5.2, dan model lain [1].

  • LLM Stats, BenchLM, MindStudio, Vellum, The Next Web, dan MangoMind memberikan konteks pasar serta benchmark yang lebih baru, tetapi sebagian tampak sebagai ringkasan pihak ketiga dan bukan dokumentasi primer dari lab model [2][3][4][5][6][7].

  • Vellum mencantumkan area benchmark untuk Claude Opus 4.7 seperti SWE-bench Verified, SWE-bench Pro, Terminal-Bench 2.0, MCP-Atlas, Finance Agent v1.1, OSWorld-Verified, BrowseComp, GPQA, dan benchmark reasoning lain, tetapi snippet yang tersedia tidak memberikan angka spesifik yang bisa dipakai untuk perbandingan [5].

  • MangoMind menyediakan daftar rekomendasi April 2026 untuk coding, tetapi model yang disebut adalah Claude Opus 4.6, GPT-5.4 Pro, dan DeepSeek V3.2, bukan versi target Claude Opus 4.7, GPT-5.5, DeepSeek V4, atau Kimi K2.6 [2].

Limitations / uncertainty

  • Tidak ada bukti primer dari Anthropic, OpenAI, DeepSeek, atau Moonshot/Kimi dalam evidence yang tersedia, sehingga angka-angka harus diperlakukan sebagai laporan pihak ketiga, bukan hasil resmi yang sepenuhnya terverifikasi.

  • Tidak tersedia angka benchmark langsung untuk DeepSeek V4 dan Kimi K2.6, sehingga klaim bahwa salah satu lebih unggul dari Claude Opus 4.7 atau GPT-5.5 tidak dapat didukung.

  • Tidak tersedia angka benchmark lengkap untuk GPT-5.5; unggahan X hanya menyebut perbandingan relatif terhadap Mythos tanpa metodologi dan tanpa skor numerik [31].

  • Ada indikasi pergeseran benchmark: GPQA Diamond tampak hampir jenuh pada model frontier karena Claude Opus 4.7, GPT-5.4 Pro, dan Gemini 3.1 Pro berada di sekitar 94.2–94.4% menurut The Next Web [6]. Ini berarti benchmark seperti SWE-bench Pro, Terminal-Bench, OSWorld, BrowseComp, dan evaluasi agentic kemungkinan lebih berguna untuk membedakan model, tetapi bukti angka lintas empat model target belum tersedia.

Summary

Claude Opus 4.7 adalah satu-satunya model dalam daftar yang memiliki bukti benchmark cukup konkret: 87.6% pada SWE-bench Verified, 94.2% pada GPQA, dan skor BenchLM 97/100 menurut sumber pihak ketiga [7][4]. GPT-5.5 hanya memiliki bukti lemah berupa klaim relatif dari X tanpa angka lengkap [31]. DeepSeek V4 dan Kimi K2.6 tidak memiliki data benchmark langsung dalam evidence yang tersedia, sehingga status benchmark keduanya adalah Insufficient evidence.

출처

  • [1] AI Benchmarks 2026: Monthly Leaderboards & Rankings | MangoMindmangomindbd.com

    5. Monthly Updates AI moves fast. We re-test all models monthly and publish updated rankings to reflect the latest releases. 🎯 Quick Recommendations Best AI for Coding (April 2026) 1. •Claude Opus 4.6 - 93.2% SWE-bench 2. •GPT-5.4 Pro - 91.1% SWE-bench 3....

  • [2] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [5] Introducing GPT-5.5 | OpenAIopenai.com

    Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization⁠(op...

  • [6] LLM Model Benchmarks 2026 | Siliconflowsiliconflow.com

    Model GRIND (%) AIME (%) GPQA (%) SWE Bench (%) MATH 500 (%) BFCL (%) Alder Polyglot (%) --- --- --- --- Kimi K2 Thinking — — 84.5 71.3 — — — GPT 5.1 — — 88.1 76.3 — — — Claude Haiku 4.5 — — 73 73.3 — — — GPT-5 — — 87.3 74.9 — — 88 Claude Opus 4.1 — — 80.9...

  • [10] AI Model Benchmarks Apr 2026 | Compare GPT-5, Claude 4.5 ...lmcouncil.ai

    METR Time Horizons Model Minutes --- 1 Claude Opus 4.6 (unknown thinking) 718.8 ±1815.2 2 GPT-5.2 (high) 352.2 ±335.5 3 GPT-5.3 Codex 349.5 ±333.1 4 Claude Opus 4.5 (no thinking) 293.0 ±239.0 5 Claude Opus 4.5 (16k thinking) 288.9 ±558.2 SWE-bench Verified...

  • [13] [PDF] Technical Performance - Stanford HAIhai.stanford.edu

    On SWE-bench Verified, top models are tightly clustered in the low-to-mid 70s (Figure 2.5.1). As of February 2026, Claude 4.5 Opus (high reasoning) led at approximately 76.8%, with several others including KimiK2.5, GPT-5.2, and Gemini 3 Flash (high reasoni...

  • [14] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, and Financial Analysis | MindStudiomindstudio.ai

    This matters for teams evaluating Opus 4.7 for production use because the model’s capability gains are only useful if they’re integrated into something that works end-to-end. The gap between “this model scores 82.7% on FinanceBench” and “we have a deployed...

  • [17] Claude Opus 4.7 leads on SWE-bench and agentic reasoning, beating GPT-5.4 and Gemini 3.1 Prothenextweb.com

    On graduate-level reasoning, measured by GPQA Diamond, the field has converged. Opus 4.7 scores 94.2%, GPT-5.4 Pro scores 94.4%, and Gemini 3.1 Pro scores 94.3%. The differences are within noise. The frontier models have effectively saturated this benchmark...

  • [18] Claude Opus 4.7: Benchmarks, Pricing, Context & What's Newllm-stats.com

    LLM Stats Logo Make AI phone calls with one API call Claude Opus 4.7: Benchmarks, Pricing, Context & What's New Claude Opus 4.7 scores 87.6% on SWE-bench Verified, 94.2% on GPQA, 1M token context, 3.3x higher-resolution vision, new xhigh effort level. $5/$2...

  • [19] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    Image 15: logo In our evals, we saw a double-digit jump in accuracy of tool calls and planning in our core orchestrator agents. As users leverage Hebbia to plan and execute on use cases like retrieval, slide creation, or document generation, Claude Opus 4.7...

  • [21] SWE-bench Verified Benchmark 2026: 35 LLM scores | BenchLM.aibenchlm.ai

    Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Software Engineering Benchmark Verified (SWE-bench Verified) A curated, human-verified subset of SWE-bench that tests models on resolving real GitHub issues from popular open-so...

  • [26] GPT-5.5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com

    We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...