studioglobal
인기 있는 발견
보고서게시됨16 소스

مقارنة بنشماركات 2026: Claude Opus 4.7 وGPT-5.5 وDeepSeek V4 وKimi K2.6

لا توجد قراءة عادلة تختصر النماذج الأربعة في ترتيب واحد من 1 إلى 4؛ فقائمة Vals تضعها ضمن تواريخ أبريل 2026، بينما تقيس بنشماركات 2026 محاور مختلفة مثل المعرفة، البرمجة، الوكلاء والسلامة [8][19]. Claude Opus 4.7 يملك أرقاماً واضحة في BenchLM 97/100 وSWE bench Verified 82.4%، بينما يبرز GPT 5.5 في مؤشرات الأعمال والو...

16K0
네 개의 최신 AI 모델을 벤치마크 차트와 비교하는 추상적 에디토리얼 이미지
Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: 2026 벤치마크 비교Claude Opus 4.7, GPT-5.5, DeepSeek V4, Kimi K2.6의 2026 벤치마크 비교를 표현한 AI 생성 이미지.
AI 프롬프트

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: 2026 벤치마크 비교. Article summary: 네 모델의 ‘절대 1위’를 확정하기는 어렵습니다. 공개 자료 기준 Claude Opus 4.7은 BenchLM 97/100·SWE bench Verified 82.4%가 가장 뚜렷하고, GPT 5.5는 GDPval 84.9% 등 업무형 공식 수치가 강하지만 평가 체계가 달라 직접 합산할 수 없습니다 [2][3][29].. Topic tags: ai, ai benchmarks, llm, openai, anthropic. Reference image context from search candidates: Reference image 1: visual subject "# Kimi K2.6 vs Claude Opus 4.7: Which Model Wins in 2026? Kimi K2.6 ties Opus 4.7 on multilingual SWE-bench but trails by 7 points on Verified — at 1/5th the cost. Two weeks after" source context "Kimi K2.6 vs Claude Opus 4.7 (2026): Benchmarks, Cost, When Each Wins" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www

openai.com

إن كنت تريد جواباً من سطر واحد — من الأفضل؟ — فالجواب الأدق هو: الأفضل في ماذا؟ تُظهر قائمة Vals AI نماذج DeepSeek V4 وGPT-5.5 بتاريخ 23 أبريل 2026، وKimi K2.6 بتاريخ 20 أبريل، وClaude Opus 4.7 بتاريخ 16 أبريل [19]. لكن الأرقام المتاحة تأتي من BenchLM وVals وإعلانات الشركات وجداول Hugging Face وتحليلات متفرقة، لا من اختبار واحد موحد يضع النماذج الأربعة جنباً إلى جنب بالإعداد نفسه والتكلفة نفسها [2][3][15][16][28][29][31][36][37][39].

لذلك ليست هذه مقارنة سباق خيل. الأفضل أن نقرأها كخريطة قرار: ما النموذج الأنسب للبرمجة؟ ما الأنسب لوكلاء الأعمال؟ أين تظهر قوة الاستدلال؟ وأين تصبح التكلفة أو الأوزان المفتوحة عاملاً حاسماً؟

لماذا يصعب إعلان فائز مطلق؟

اختبارات القياس، أو البنشماركات، لم تعد امتحاناً واحداً. Kili Technology تشرح أن MMLU وMMLU-Pro وGPQA Diamond وSWE-Bench وTerminal-Bench وGAIA وWebArena وGDPval وتقييمات السلامة تقيس قدرات مختلفة جداً [8]. كما يقسم تقرير AI Index من Stanford HAI الأداء إلى محاور منفصلة مثل MMLU وMATH وGPQA Diamond وMMMU وOSWorld وAIME وSWE-bench Verified [13].

حتى الاختبارات العامة مثل MMLU فقدت جزءاً من قدرتها على التفريق بين النماذج الأعلى. يوضح Nanonets أن MMLU يُحسب بأسلوب 5-shot، أي مع عرض خمسة أمثلة قبل السؤال الحقيقي، وأن نماذج القمة في 2026 تجمعت فوق نطاق 88% تقريباً، ما يجعل الفروق بينها أقل دلالة [22]. لهذا، رقم إجمالي واحد قد يخفي ما يهمك فعلاً: إصلاح الكود، تحليل وثائق مالية، استخدام الكمبيوتر، خدمة العملاء، أو تكلفة التشغيل.

الصورة السريعة للأرقام المنشورة

النموذجأبرز الأرقام المتاحةأين تبدو القوة؟التحفظ الأهم
Claude Opus 4.7BenchLM 97/100، المركز 2 من 110 في القائمة المؤقتة، والمركز 2 من 14 في القائمة المتحققة؛ SWE-bench Verified 82.4%، FinanceBench 82.7%، وارتفاع MathVista بـ9.5 نقطة [2][3]البرمجة، الترتيب العام في BenchLM، تحليل الوثائق المالية، والاستدلال البصري الرياضيمعيار Anthropic الداخلي لوكلاء البحث 0.715 ليس قابلاً للمقارنة المباشرة مع GDPval أو Vals [7][29].
GPT-5.5BenchLM 89/100، المركز 5 من 112 في القائمة المؤقتة، والمركز 2 من 16 في القائمة المتحققة؛ GDPval 84.9%، OSWorld-Verified 78.7%، Tau2-bench Telecom 98.0%؛ Vals Accuracy 67.76% ± 1.79 [28][29][31]أعمال المعرفة، استخدام الكمبيوتر، سير عمل خدمة العملاء، والمهام الوكيليةأرقام OpenAI وBenchLM وVals تنتمي إلى أنظمة تقييم مختلفة [28][29][31].
DeepSeek V4 / V4-Pro-Maxتظهر DeepSeek V4 في Vals بتاريخ 23 أبريل 2026؛ وفي إعداد V4-Pro-Max تُنقل أرقام MMLU-Pro 87.5% وGPQA Diamond 90.1% وGSM8K 92.6% [15][19]الاستدلال، أسئلة العلوم، والرياضياتDataCamp يذكر أن هذه الأرقام مبنية على نتائج DeepSeek الداخلية، لذا يجب فصلها عن نتائج مستقلة بالكامل [15].
Kimi K2.6BenchLM 85/100، المركز 12 من 115 مع 27 نتيجة منشورة؛ Vals Accuracy 63.94% ± 1.97، زمن 373.57s، وتكلفة $0.21 لكل اختبار؛ Artificial Analysis Intelligence Index 54 والمركز 4 [36][37][39]الأوزان المفتوحة، تكلفة التشغيل، وزمن الاستجابة النسبيتختلف التسمية بين Kimi 2.6 وKimi K2.6 وK2.6 Thinking بحسب المصدر، لذلك يجب التأكد من الإعداد المقارن [37][39].

اقرأ الجدول كدليل اتجاهات، لا كعملية جمع نقاط. BenchLM 97/100، وGDPval 84.9%، وVals Accuracy 63.94% ليست أرقاماً من الميزان نفسه.

BenchLM: Claude يتقدم بين النماذج التي لها أرقام مباشرة

إذا حصرنا النظر في صفحات BenchLM المتاحة للنماذج الثلاثة، يتقدم Claude Opus 4.7 بوضوح: فهو في المركز 2 من 110 على القائمة المؤقتة مع نتيجة إجمالية 97/100، وكذلك في المركز 2 من 14 على القائمة المتحققة [3].

GPT-5.5 يأتي في BenchLM بنتيجة 89/100، في المركز 5 من 112 على القائمة المؤقتة، والمركز 2 من 16 على القائمة المتحققة [28]. أما Kimi 2.6 فيسجل 85/100، في المركز 12 من 115، مع 27 نتيجة بنشمارك منشورة [37].

لكن هذا لا يكفي لإعلان ترتيب رباعي نهائي. أعداد النماذج في كل صفحة مختلفة، ولا توفر المواد هنا رقماً مكافئاً لـ DeepSeek V4 على BenchLM يمكن وضعه في السطر نفسه مع الثلاثة الآخرين [3][28][37].

البرمجة: أرقام Claude Opus 4.7 هي الأكثر مباشرة

إذا كان معيارك الأول هو هندسة البرمجيات وإصلاح الكود، فأوضح رقم منشور هنا هو Claude Opus 4.7 على SWE-bench Verified. MindStudio يذكر أن النموذج سجل 82.4%، بزيادة تقارب 11 نقطة عن Opus 4.6 [2]. ويعرض المصدر نفسه FinanceBench عند 82.7%، مع تحسن MathVista بـ9.5 نقطة ضمن تحسينات الرؤية والاستدلال البصري [2].

بالنسبة إلى GPT-5.5، الأرقام التي تضعها OpenAI في الواجهة ليست SWE-bench، بل GDPval وOSWorld-Verified وTau2-bench Telecom [29]. وبالنسبة إلى Kimi K2.6، يشير GMI Cloud إلى أداء متقدم على SWE-Bench Pro، لكن المقتطف المتاح لا يكفي لتثبيت رقم محدد أو مقارنة موحدة مع النماذج الأربعة [35]. أما DeepSeek V4، فالأرقام الأكثر تحديداً في هذه الحزمة تتعلق بالاستدلال والرياضيات أكثر من البرمجة [15][16].

وكلاء الأعمال واستخدام الكمبيوتر: GPT-5.5 يملك مؤشرات رسمية مفصلة

في مهام العمل المعرفي والأنظمة الوكيلية، تقدم OpenAI أرقاماً واضحة لـ GPT-5.5. تقول الشركة إن النموذج سجل 84.9% في GDPval، وهو اختبار يقيس قدرة الوكلاء على إنتاج أعمال معرفية محددة عبر 44 مهنة [29]. وتذكر أيضاً أنه بلغ 78.7% في OSWorld-Verified، الذي يقيس قدرة النموذج على تشغيل بيئات كمبيوتر حقيقية بنفسه، و98.0% في Tau2-bench Telecom لسير عمل خدمة العملاء المعقدة [29].

Claude Opus 4.7 لديه أيضاً مؤشر وكيلي، لكن من نوع مختلف. تقول Anthropic إن النموذج تعادل على الصدارة في معيار داخلي لوكلاء البحث بنتيجة 0.715 عبر ست وحدات، وسجل 0.813 في وحدة General Finance مقابل 0.767 لـ Opus 4.6 [7].

المهم هنا ألا نخلط المقاييس. نتيجة GPT-5.5 البالغة 84.9% في GDPval لا تقارن مباشرة بنتيجة Claude البالغة 0.715 في معيار Anthropic الداخلي؛ فكل منهما يقيس شيئاً مختلفاً بطريقة مختلفة [7][29].

الاستدلال والمعرفة: DeepSeek V4-Pro-Max وKimi K2.6 Thinking في مقارنة جزئية

عند الحديث عن DeepSeek V4، تظهر الأرقام الأكثر تحديداً في إعداد V4-Pro-Max. تنقل DataCamp، اعتماداً على نتائج DeepSeek الداخلية، أن DeepSeek V4-Pro-Max سجل 87.5% في MMLU-Pro، و90.1% في GPQA Diamond، و92.6% في GSM8K [15]. هذه أرقام مهمة، لكنها لا تحمل الوزن نفسه الذي تحمله نتيجة مستقلة موحدة.

صفحة DeepSeek-V4-Pro على Hugging Face تضع DeepSeek V4-Pro-Max وKimi K2.6 Thinking في جدول واحد لبعض اختبارات المعرفة والاستدلال [16]:

الاختبارDeepSeek V4-Pro-MaxKimi K2.6 Thinkingالأعلى في هذا الجدول
MMLU-Pro87.587.1DeepSeek V4-Pro-Max
SimpleQA-Verified57.936.9DeepSeek V4-Pro-Max
Chinese-SimpleQA84.475.9DeepSeek V4-Pro-Max
GPQA Diamond90.190.5Kimi K2.6 Thinking
HLE37.736.4DeepSeek V4-Pro-Max

وفق هذا الجدول، يتقدم DeepSeek V4-Pro-Max على Kimi K2.6 Thinking في MMLU-Pro وSimpleQA-Verified وChinese-SimpleQA وHLE، بينما يتقدم Kimi بفارق بسيط في GPQA Diamond [16]. لكن الجدول نفسه لا يقارن مع Claude Opus 4.7 وGPT-5.5؛ بل يضع نماذج أخرى مثل Opus-4.6 Max وGPT-5.4 xHigh، لذلك لا يحسم ترتيب النماذج الأربعة [16].

التكلفة والزمن: لماذا يلفت Kimi K2.6 النظر؟

في Vals، يظهر GPT-5.5 بدقة 67.76% ± 1.79، وزمن 409.09s، ونافذة سياق 1M [31]. أما Kimi K2.6 فيظهر بدقة 63.94% ± 1.97، وزمن 373.57s، وتكلفة $0.21 لكل اختبار [39]. عند مقارنة هذين السطرين فقط، تكون الدقة المعروضة أعلى لـ GPT-5.5، بينما يكون الزمن المعروض أقل لـ Kimi K2.6 [31][39].

كما أن Kimi K2.6 مهم لمن يفضلون نماذج الأوزان المفتوحة. تصفه Artificial Analysis بأنه نموذج أوزان مفتوحة رائد من Moonshot، وتضعه في المركز 4 على Artificial Analysis Intelligence Index بنتيجة 54 [36]. ومع ذلك، لا يصح جمع نتيجة Artificial Analysis 54 مع BenchLM 85/100 ومع Vals Accuracy 63.94% كأنها نظام نقاط واحد [36][37][39].

كيف تختار عملياً؟

  • إذا كان العمل الأساسي هو إصلاح الكود أو أتمتة مهام هندسة البرمجيات، فابدأ بالنظر إلى Claude Opus 4.7؛ فـSWE-bench Verified 82.4% وBenchLM 97/100 هما أوضح رقمين في هذه الحزمة [2][3].
  • إذا كان الاستخدام يدور حول إنتاج أعمال معرفية، تشغيل بيئات كمبيوتر، أو خدمة عملاء معقدة، فأرقام GPT-5.5 في GDPval وOSWorld-Verified وTau2-bench Telecom هي الأكثر مباشرة [29].
  • إذا كنت تقارن الاستدلال العلمي والرياضي، فضع DeepSeek V4-Pro-Max وKimi K2.6 Thinking جنباً إلى جنب عبر MMLU-Pro وGPQA Diamond وHLE، مع تذكر أن بعض أرقام DeepSeek منسوبة إلى نتائج داخلية [15][16].
  • إذا كانت الأوزان المفتوحة والتكلفة وزمن التشغيل عوامل حاسمة، فمؤشرات Kimi K2.6 في Artificial Analysis وVals تستحق الفحص قبل قرار النشر [36][39].
  • لا تعتمد على MMLU وحده؛ فالنماذج العليا أصبحت متقاربة جداً فيه، ما يقلل فائدته في التمييز العملي بينها [22].

الخلاصة

الصورة العادلة هي أن Claude Opus 4.7 يبدو أقوى في أرقام البرمجة وBenchLM، وGPT-5.5 يملك مؤشرات مفصلة في أعمال الوكلاء واستخدام الكمبيوتر، وDeepSeek V4-Pro-Max يبرز في أرقام الاستدلال والرياضيات المنشورة، بينما يلفت Kimi K2.6 الانتباه في الأوزان المفتوحة والتكلفة والزمن [2][3][15][16][28][29][36][37][39].

لكن لا توجد، في المواد المتاحة، مقارنة موحدة تكفي لترتيب النماذج من الأول إلى الرابع بثقة. القرار العملي يجب أن يبدأ من هذه الأرقام، ثم يُستكمل باختبار صغير على مهامك الفعلية: مستودعات الكود، ملفاتك المالية، بيئة المتصفح أو الكمبيوتر، سيناريوهات خدمة العملاء، أو تشغيل وكيل طويل المدى. في 2026، السؤال الأذكى ليس: من الفائز؟ بل: أي نموذج يفوز في مهمتي؟ [8][22].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

  • لا توجد قراءة عادلة تختصر النماذج الأربعة في ترتيب واحد من 1 إلى 4؛ فقائمة Vals تضعها ضمن تواريخ أبريل 2026، بينما تقيس بنشماركات 2026 محاور مختلفة مثل المعرفة، البرمجة، الوكلاء والسلامة [8][19].
  • Claude Opus 4.7 يملك أرقاماً واضحة في BenchLM 97/100 وSWE bench Verified 82.4%، بينما يبرز GPT 5.5 في مؤشرات الأعمال والوكلاء مثل GDPval 84.9% وOSWorld Verified 78.7% [2][3][29].
  • DeepSeek V4 Pro Max يظهر قوياً في MMLU Pro وGPQA Diamond وفق أرقام منسوبة لنتائج داخلية، أما Kimi K2.6 فيلفت الانتباه كخيار أوزان مفتوحة مع تكلفة Vals قدرها $0.21 لكل اختبار [15][36][39].

사람들은 또한 묻습니다.

"مقارنة بنشماركات 2026: Claude Opus 4.7 وGPT-5.5 وDeepSeek V4 وKimi K2.6"에 대한 짧은 대답은 무엇입니까?

لا توجد قراءة عادلة تختصر النماذج الأربعة في ترتيب واحد من 1 إلى 4؛ فقائمة Vals تضعها ضمن تواريخ أبريل 2026، بينما تقيس بنشماركات 2026 محاور مختلفة مثل المعرفة، البرمجة، الوكلاء والسلامة [8][19].

먼저 검증할 핵심 포인트는 무엇인가요?

لا توجد قراءة عادلة تختصر النماذج الأربعة في ترتيب واحد من 1 إلى 4؛ فقائمة Vals تضعها ضمن تواريخ أبريل 2026، بينما تقيس بنشماركات 2026 محاور مختلفة مثل المعرفة، البرمجة، الوكلاء والسلامة [8][19]. Claude Opus 4.7 يملك أرقاماً واضحة في BenchLM 97/100 وSWE bench Verified 82.4%، بينما يبرز GPT 5.5 في مؤشرات الأعمال والوكلاء مثل GDPval 84.9% وOSWorld Verified 78.7% [2][3][29].

실무에서는 다음으로 무엇을 해야 합니까?

DeepSeek V4 Pro Max يظهر قوياً في MMLU Pro وGPQA Diamond وفق أرقام منسوبة لنتائج داخلية، أما Kimi K2.6 فيلفت الانتباه كخيار أوزان مفتوحة مع تكلفة Vals قدرها $0.21 لكل اختبار [15][36][39].

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Opus 4.7·GPT-5.5·DeepSeek V4·Kimi K2.6 벤치마크 비교: 2026년 판정"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"DeepSeek V4 엔지니어링 해설: 100만 토큰, MoE, API 이전 체크포인트"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신

연구문제

Claude Opus 4.7, GPT-5.5, DeepSeek V4, Kimi K2.6의 벤치마크를 조사하고 가능한 한 종합적으로 비교해 주세요.

Studio Global AI40 소스

인용 답변

제공된 근거만으로는 네 모델을 동등한 수준으로 “종합 벤치마크 비교”하기에는 자료가 크게 부족합니다. 확인 가능한 정량 벤치마크는 사실상 Claude Opus 4.7에 집중되어 있고, GPT-5.5·DeepSeek V4·Kimi K2.6은 제공 근거 안에서 직접 비교 가능한 공식 점수나 일관된 벤치마크 결과가 없습니다. 따라서 아래 비교는 “확인 가능한 것”과 “증거 부족”을 명확히 나누어 정리합니다.

Key findings

  • Claude Opus 4.7은 제공된 자료 중 유일하게 구체적인 벤치마크 수치가 확인되는 모델입니다. SWE-bench Verified에서 82.4%를 기록했고, 이는 Opus 4.6 대비 약 11점 상승한 것으로 제시됩니다 [6].

  • Claude Opus 4.7은 BenchLM 기준 provisional leaderboard에서 110개 모델 중 2위, overall score 97/100으로 제시되며, verified leaderboard에서도 14개 모델 중 2위로 언급됩니다 [7].

  • Claude Opus 4.7은 비전 관련 개선 폭이 컸고, MathVista가 9.5점 상승했다는 자료가 있습니다 [6].

  • Kimi K2.6은 Vals AI의 모델 목록에서 Moonshot AI 모델로 확인되며, 제공된 스니펫에는 2026년 4월 20일 항목으로 표시됩니다 [5]. 다만 이 근거에는 Kimi K2.6의 실제 벤치마크 점수가 포함되어 있지 않습니다 [5].

  • Claude Opus 4.7 역시 Vals AI 목록에서 Anthropic 모델로 확인되며, 제공된 스니펫에는 2026년 4월 16일 항목으로 표시됩니다 [5].

  • GPT-5.5에 대해서는 제공된 근거 안에 직접적인 벤치마크 점수, 공식 발표, 리더보드 결과가 없습니다. Insufficient evidence.

  • DeepSeek V4에 대해서는 제공된 근거 중 Reddit 스니펫이 있으나, 해당 스니펫은 로컬 호스팅과 운영상 조언에 가까우며 비교 가능한 벤치마크 수치를 제공하지 않습니다 [40]. Insufficient evidence.

비교 표

모델확인 가능한 벤치마크 / 순위강점으로 볼 수 있는 영역증거 수준
Claude Opus 4.7SWE-bench Verified 82.4% [6]; BenchLM provisional 2/110, 97/100 [7]; verified 2/14 [7]코딩, 비전 수학 추론, 종합 리더보드 성능 [6][7]상대적으로 높음
GPT-5.5제공 근거 내 직접 점수 없음판단 불가Insufficient evidence
DeepSeek V4제공 근거 내 직접 점수 없음판단 불가Insufficient evidence
Kimi K2.6모델 목록 및 날짜 항목은 확인되나 점수 없음 [5]판단 불가낮음

벤치마크별 해석

  • SWE-bench Verified 기준으로는 Claude Opus 4.7만 비교 가능한 수치가 있습니다. Claude Opus 4.7의 82.4%는 제공 자료상 Opus 4.6 대비 약 11점 개선된 결과로 제시됩니다 [6].

  • 종합 리더보드 기준으로도 Claude Opus 4.7만 명확한 순위가 있습니다. BenchLM은 Claude Opus 4.7을 provisional leaderboard 110개 모델 중 2위, overall score 97/100으로 제시합니다 [7].

  • 비전·수학 영역에서는 Claude Opus 4.7의 MathVista 점수가 9.5점 상승했다는 자료가 있으나, GPT-5.5·DeepSeek V4·Kimi K2.6의 동등 지표가 제공되지 않아 상대 비교는 불가능합니다 [6].

  • 일반 지식·추론 벤치마크는 2026년 기준 MMLU, MMLU-Pro, GPQA Diamond, SWE-bench, Arena Elo 등이 주요 평가로 언급됩니다 [2]. 다만 MMLU는 상위 모델들이 이미 88% 이상을 기록해 2026년에는 변별력이 약하다는 지적이 있습니다 [3].

Evidence notes

  • Stanford HAI의 2026 AI Index 기술 성능 자료는 ImageNet, VQA, SuperGLUE, SQuAD 2.0 등 여러 벤치마크에서 AI 성능이 인간 성능과 비교되는 장기 추세를 다룹니다 [1]. 이는 개별 네 모델의 직접 비교 자료라기보다는 벤치마크 해석의 배경 자료에 가깝습니다 [1].

  • Kili Technology 자료는 2026년 주요 벤치마크로 MMLU, MMLU-Pro, GPQA Diamond, SWE-bench, Arena Elo 등을 언급하면서 벤치마크만으로 모델 성능을 충분히 설명하기 어렵다고 설명합니다 [2].

  • Nanonets 자료는 MMLU가 5-shot 방식으로 계산된다는 점과, 상위 모델들이 88% 이상을 기록하면서 2026년에는 변별력이 낮아졌다는 점을 지적합니다 [3].

  • DeepSeek V4 관련 제공 근거는 Reddit 스니펫뿐이며, 신뢰도 높은 공식·학술·독립 리더보드 근거가 아닙니다 [40].

Limitations / uncertainty

  • GPT-5.5, DeepSeek V4, Kimi K2.6에 대해 제공된 근거만으로는 SWE-bench, GPQA, MMLU-Pro, AIME, MathVista, Arena Elo 같은 동일 벤치마크 축에서 점수를 비교할 수 없습니다. Insufficient evidence.

  • Claude Opus 4.7의 수치도 출처별로 평가 방법과 리더보드 산식이 다를 수 있으므로, BenchLM의 97/100 및 순위와 SWE-bench Verified 82.4%는 서로 다른 평가 체계의 결과로 해석해야 합니다 [6][7].

  • Kimi K2.6은 모델 존재와 날짜 항목은 확인되지만, 제공 근거 안에는 성능 점수가 없습니다 [5]. Insufficient evidence.

  • DeepSeek V4는 제공 근거 안에서 벤치마크 수치가 확인되지 않습니다 [40]. Insufficient evidence.

Summary

현재 제공된 증거만 놓고 보면 Claude Opus 4.7이 네 모델 중 유일하게 구체적이고 비교 가능한 성능 자료를 갖고 있습니다. Claude Opus 4.7은 SWE-bench Verified 82.4%, BenchLM provisional 2위/110개 모델, overall score 97/100으로 제시되어 코딩과 종합 평가에서 매우 강한 모델로 볼 수 있습니다 [6][7].

반면 GPT-5.5, DeepSeek V4, Kimi K2.6은 제공 근거 안에서 직접 벤치마크 점수가 없으므로 Claude Opus 4.7보다 높다거나 낮다고 결론낼 수 없습니다. Insufficient evidence.

출처

  • [2] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, ...mindstudio.ai

    Claude Opus 4.7 posted 82.4% on SWE-bench Verified, up roughly 11 points from Opus 4.6 — the most meaningful coding benchmark available. Vision improvements were the largest percentage gains: MathVista jumped 9.5 points, enabling reliable visual math reason...

  • [3] Claude Opus 4.7 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai

    Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Claude Opus 4.7 According to BenchLM.ai, Claude Opus 4.7 ranks 2 out of 110 models on the provisional leaderboard with an overall score of 97/100. It also ranks 2 out of 14 on t...

  • [7] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...

  • [8] AI Benchmarks 2026: Top Evaluations and Their Limitskili-technology.com

    Image 2: Kili Technology.png) Kili Technology · Apr 13, 2026 Image 3: AI Benchmarks Guide: The Top Evaluations in 2026 and Why They're Not Enough Table of contents Introduction What Are the Most Important AI Benchmarks in 2026? General knowledge and reasoni...

  • [13] [PDF] Technical Performance - Stanford HAIhai.stanford.edu

    Technical Performance Benchmarks vs. Human Performance 76 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 0% 20% 40% 60% 80% 100% 120% Image classiLJcation (ImageNet Top-5) Visual reasoning (VQA) English language understanding (SuperGLU...

  • [15] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com

    DeepSeek V4 Benchmarks According to DeepSeek’s internal results, DeepSeek V4 demonstrates impressive performance, particularly when pushed to its maximum reasoning limits (DeepSeek-V4-Pro-Max). According to the official release notes, here is how the model...

  • [16] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co

    Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...

  • [19] DeepSeek V4 - Vals AIvals.ai

    Benchmarks Models Comparison Model Guide App Reports News About Benchmarks Models Comparison Model Guide App Reports About Release date Models 4/23/2026 DeepSeek DeepSeek V4 4/23/2026 OpenAI GPT 5.5 4/20/2026 Moonshot AI Kimi K2.6 4/16/2026 Anthropic Claude...

  • [22] AI Benchmarks Explained: GPQA, SWE-bench & Arena Elonanonets.com

    How the score is calculated: Before each question, the model is shown 5 example questions with correct answers, this is called 5-shot prompting. Then comes the real question. Score = correct answers ÷ total questions, expressed as a percentage. Why it's nea...

  • [28] GPT-5.5 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai

    Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools GPT-5.5 According to BenchLM.ai, GPT-5.5 ranks 5 out of 112 models on the provisional leaderboard with an overall score of 89/100. It also ranks 2 out of 16 on the verified lead...

  • [29] Introducing GPT-5.5 - OpenAIopenai.com

    GPT‑5.5 reaches state-of-the-art performance across multiple benchmarks that reflect this kind of work. OnGDPval⁠⁠, which tests agents’ abilities to produce well-specified knowledge work across 44 occupations, GPT‑5.5 scores 84.9%. On OSWorld-Verified, whic...

  • [31] GPT 5.5 - Vals AIvals.ai

    2/17/2026 Anthropic Claude Sonnet 4.6 2/16/2026 Alibaba Qwen 3.5 Plus 2/12/2026 MiniMax MiniMax-M2.5 2/12/2026 MiniMax MiniMax-M2.5 2/11/2026 zAI GLM 5 2/5/2026 Anthropic Claude Opus 4.6 (Nonthinking) 2/5/2026 Anthropic Claude Opus 4.6 (Thinking) 1/26/2026...

  • [35] Kimi K2.6 on GMI Cloud: Architecture, Benchmarks & API Accessgmicloud.ai

    Kimi K2.6 tops SWE-Bench Pro and runs 300 parallel sub-agents on 4x H100S. Learn the full architecture, benchmark results, and how to run it ... 3 days ago

  • [36] Kimi K2.6: The new leading open weights model - Artificial Analysisartificialanalysis.ai

    Moonshot's Kimi K2.6 is the new leading open weights model. Kimi K2.6 lands at 4 on the Artificial Analysis Intelligence Index (54) behind ... 5 days ago

  • [37] Kimi 2.6 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai

    Kimi 2.6 by Moonshot AI scores 85/100 on BenchLM's provisional leaderboard ( 12 of 115) with 27 published benchmark scores currently shown ... 6 days ago

  • [39] Kimi K2.6 - Vals AIvals.ai

    Kimi K2.6. Release Date: 4/20/2026. Vals Index. Accuracy (Vals Index). 63.94% ± 1.97. Latency (Vals Index). 373.57s. Cost/Test (Vals Index). $0.21.