studioglobal
الأكثر رواجًا في الاكتشاف
التقاريرمنشور12 المصادر

Claude Opus 4.7 ضد GPT-5.5: ما تكشفه اختبارات 2026 فعلاً

أقوى مقارنة مباشرة في المصادر المتاحة هي بين Claude Opus 4.7 وGPT 5.5، لأنهما يظهران على الاختبارات نفسها في جداول OpenAI وVellum [5][2]. GPT 5.5 يتقدم بوضوح في Terminal Bench 2.0 بنسبة 82.7% مقابل 69.4% لـ Claude، بينما يتقدم Claude في SWE Bench Pro Public بنسبة 64.3% مقابل 58.6% [5].

17K0
Ilustrasi perbandingan benchmark AI antara Claude Opus 4.7, GPT-5.5, DeepSeek V4, dan Kimi K2.6
Claude Opus 4.7 vs GPT-5.5: Benchmark 2026 dan Status DeepSeek V4/Kimi K2.6Ilustrasi AI-generated untuk perbandingan benchmark model AI frontier 2026.
موجّه الذكاء الاصطناعي

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 vs GPT-5.5: Benchmark 2026 dan Status DeepSeek V4/Kimi K2.6. Article summary: Bukti terkuat hanya mendukung head to head Claude Opus 4.7 vs GPT 5.5: GPT 5.5 unggul di Terminal Bench 2.0 (82.7% vs 69.4%), sedangkan Claude unggul di SWE Bench Pro (64.3% vs 58.6%); DeepSeek V4 dan Kimi K2.6 belum.... Topic tags: ai, ai benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watc

openai.com

قراءة لوحات صدارة نماذج الذكاء الاصطناعي في 2026 قد تكون مضللة إذا وُضعت أسماء النماذج في جدول واحد من دون التأكد من أن الاختبار، وإصدار النموذج، وطريقة التشغيل واحدة. في المصادر المتاحة، المقارنة الأكثر صلابة هي بين Claude Opus 4.7 وGPT-5.5، لأنهما يظهران معاً على اختبارات متطابقة في جداول OpenAI وVellum [5][2].

أما DeepSeek V4 وKimi K2.6 فالوضع مختلف: لا توجد لهما أرقام مباشرة في هذه المجموعة من المصادر. أقرب بيانات منشورة تتحدث عن DeepSeek V3.2 وKimiK2.5 وKimi K2 Thinking، وهي إصدارات مختلفة لا يصح استخدامها للحكم على V4 أو K2.6 [1][13][6].

الخلاصة السريعة

  • إذا كان الاستخدام الأساسي هو وكيل يعمل داخل الطرفية أو واجهة الأوامر CLI، فإن GPT-5.5 يملك الإشارة الأقوى في Terminal-Bench 2.0: 82.7% مقابل 69.4% لـ Claude Opus 4.7 [5].
  • إذا كان الهدف إصلاح مستودعات برمجية أو إدارة تدفقات عمل طويلة تعتمد على الأدوات، فـ Claude Opus 4.7 يستحق الاختبار أولاً بفضل تفوقه في SWE-Bench Pro Public وMCP Atlas [5][2].
  • في مهام العمل الاحترافية والتصفح والبحث وبعض الرياضيات المتقدمة، تميل الأرقام المنشورة لصالح GPT-5.5، مع استثناءات مهمة مثل FinanceAgent v1.1 [5][2].
  • لا يمكن ترتيب DeepSeek V4 أو Kimi K2.6 بعدل أمام Claude Opus 4.7 أو GPT-5.5 بناءً على هذه المصادر، لأن الأرقام المتاحة تخص إصدارات أخرى [1][13][6].

الأرقام القابلة للمقارنة مباشرة

الجدول التالي لا يجمع إلا الاختبارات التي يظهر فيها Claude Opus 4.7 وGPT-5.5 على المعيار نفسه. ذُكر GPT-5.5 Pro فقط عندما تعرضه المصادر كنسخة منفصلة [2].

حاجة المنتجالاختبارالنتيجة المنشورةالقراءة العملية
إصلاح الكود في المستودعاتSWE-Bench Pro PublicClaude Opus 4.7: 64.3% مقابل GPT-5.5: 58.6% [5]Claude يتقدم في هذا الاختبار تحديداً.
وكيل طرفية أو CLITerminal-Bench 2.0GPT-5.5: 82.7% مقابل Claude Opus 4.7: 69.4% [5]أوضح تفوق لـ GPT-5.5 يظهر هنا.
مهام العمل الاحترافيGDPval وOfficeQA ProGPT-5.5: 84.9% مقابل Claude: 80.3% في GDPval؛ و54.1% مقابل 43.6% في OfficeQA Pro [5]GPT-5.5 أقوى في هذين المؤشرين المهنيين.
وكيل ماليFinanceAgent v1.1Claude: 64.4% مقابل GPT-5.5: 60.0% [5]Claude يتقدم في هذا التقييم المالي.
مهام الحاسوب والمتصفحOSWorld-Verified وBrowseCompGPT-5.5: 78.7% مقابل Claude: 78.0% في OSWorld؛ وGPT-5.5: 84.4% وGPT-5.5 Pro: 90.1% مقابل Claude: 79.3% في BrowseComp [2]شبه تعادل في OSWorld، وتفوق أوضح لـ GPT-5.5 في BrowseComp.
تنسيق الأدواتMCP AtlasClaude: 79.1% مقابل GPT-5.5: 75.3% [2]Claude أفضل في السيناريوهات الثقيلة بالأدوات.
الاستدلال العلمي والرياضيGPQA Diamond وFrontierMath T1–3Claude: 94.2% مقابل GPT-5.5: 93.6% في GPQA؛ وGPT-5.5: 51.7% وGPT-5.5 Pro: 52.4% مقابل Claude: 43.8% في FrontierMath [2]GPQA متقارب جداً، بينما GPT-5.5 يتقدم في FrontierMath.

كيف لا تقع في فخ لوحة الصدارة الواحدة

1. لا تخلط SWE-Bench Pro مع SWE-bench Verified

في جدول OpenAI المباشر بين GPT-5.5 وClaude Opus 4.7، الاختبار المستخدم هو SWE-Bench Pro Public [5]. هذا ليس الاختبار نفسه المعروف باسم SWE-bench Verified. يصف BenchLM اختبار SWE-bench Verified بأنه مجموعة فرعية تحقق منها بشر من SWE-bench، وتقيس قدرة النماذج على حل مشكلات GitHub حقيقية من مستودعات Python شائعة مثل Django وFlask وscikit-learn [21].

لذلك لا ينبغي مقارنة نتيجة Claude البالغة 64.3% في SWE-Bench Pro Public مباشرةً بأرقام Claude في SWE-bench Verified من لوحات صدارة أخرى من دون مطابقة اسم الاختبار، وآلية التشغيل، وتاريخ التقييم، وإعدادات النموذج [5][21].

2. GPQA Diamond لم يعد فاصلاً كافياً بين النماذج المتقدمة

تعرض Vellum نتيجة Claude Opus 4.7 عند 94.2% وGPT-5.5 عند 93.6% في GPQA Diamond [2]. كما نقلت The Next Web أن Claude Opus 4.7 سجل 94.2%، وGPT-5.4 Pro سجل 94.4%، وGemini 3.1 Pro سجل 94.3%، ووصفت الفوارق بين هذه النماذج بأنها داخل نطاق الضجيج الإحصائي [17].

هذا لا يجعل GPQA عديم الفائدة، لكنه يعني أنه لم يعد كافياً وحده لاختيار نموذج إنتاجي. عند تقارب النماذج بهذا الشكل، تصبح الاختبارات التطبيقية — مثل الطرفية، وإصلاح المستودعات، وتنسيق الأدوات، والتصفح — أكثر أهمية.

3. لوحات الصدارة الخارجية قد تعطي أرقاماً مختلفة

حتى في SWE-bench Verified، لا تظهر نتيجة Claude Opus 4.7 بالرقم نفسه في كل مصدر. يذكر BenchLM أن Claude Opus 4.7 Adaptive وصل إلى 87.6% في 24 أبريل/نيسان 2026 [21]. ويعرض LLM Stats الرقم نفسه، 87.6% [18]. في المقابل، يعرض LM Council نتيجة 83.5% ±1.7 لنسخة Claude Opus 4.7 max [10]، بينما يذكر MindStudio نتيجة 82.4% [14].

هذا الاختلاف لا يعني بالضرورة أن أحد المصادر مخطئ. غالباً ما تأتي الفروق من إعدادات النموذج، وآلية الاختبار، وتاريخ القياس، وطريقة احتساب المحاولات أو أوضاع الاستدلال. عملياً، الأفضل أن تُستخدم الأرقام العامة كقائمة ترشيح أولية، لا كبديل عن اختبار النموذج داخل مستودعاتك وسير عملك.

أين يبرز Claude Opus 4.7؟

أقوى إشارات Claude Opus 4.7 تظهر في إصلاح الكود وتدفقات العمل التي تعتمد على عدة أدوات. في جدول OpenAI، يتقدم Claude على GPT-5.5 في SWE-Bench Pro Public بنسبة 64.3% مقابل 58.6%، ويتقدم أيضاً في FinanceAgent v1.1 بنسبة 64.4% مقابل 60.0% [5]. وتعرض Vellum تفوق Claude في MCP Atlas بنسبة 79.1% مقابل 75.3% لـ GPT-5.5 [2].

من جهتها، تبرز Anthropic إشارات شريكة تتعلق بتدفقات العمل الوكيلة. في إعلان Claude Opus 4.7، تنقل Anthropic عن Hebbia أنها رأت قفزة من رقمين في دقة نداءات الأدوات والتخطيط داخل وكلاء التنسيق، كما تنقل عن Rakuten-SWE-Bench أن Opus 4.7 حل ثلاثة أضعاف عدد مهام الإنتاج مقارنة بـ Opus 4.6، مع مكاسب من رقمين في جودة الكود وجودة الاختبارات [19].

هذه إشارات مفيدة، لكنها لا تغني عن اختبار داخلي مستقل. إذا كانت أولويتك هي إصلاح المستودعات ذاتياً، أو تشغيل سير عمل طويل يعتمد على أدوات كثيرة، أو استخدام بروتوكولات تنسيق أدوات معقدة، فـ Claude Opus 4.7 يستحق أن يكون أول نموذج تختبره. لكن القرار النهائي يجب أن يعتمد على حزمة اختباراتك، ونموذج الصلاحيات لديك، ونمط نداءات الأدوات في بيئتك الفعلية.

أين يبرز GPT-5.5؟

أوضح تفوق لـ GPT-5.5 يظهر في Terminal-Bench 2.0، حيث تعرض OpenAI نتيجة 82.7% لـ GPT-5.5 مقابل 69.4% لـ Claude Opus 4.7 و68.5% لـ Gemini 3.1 Pro [5]. وفي الجدول نفسه، يتقدم GPT-5.5 على Claude في GDPval بنسبة 84.9% مقابل 80.3%، وفي OfficeQA Pro بنسبة 54.1% مقابل 43.6% [5].

تضيف Vellum سياقاً مهماً لمهام استخدام الحاسوب والبحث والاستدلال. يتقدم GPT-5.5 بفارق بسيط في OSWorld-Verified بنسبة 78.7% مقابل 78.0% لـ Claude، ويتقدم بوضوح أكبر في BrowseComp بنسبة 84.4% مقابل 79.3%، وكذلك في FrontierMath T1–3 بنسبة 51.7% مقابل 43.8% [2]. وفي BrowseComp، تعرض Vellum نتيجة GPT-5.5 Pro عند 90.1% [2].

في البرمجة، الصورة مختلطة. GPT-5.5 قوي جداً في Terminal-Bench 2.0، لكنه يتأخر عن Claude Opus 4.7 في SWE-Bench Pro Public ضمن جدول OpenAI [5]. كما توضح بطاقة نظام GPT-5.5 من OpenAI تقييم CoT-Control، وهو حزمة تضم أكثر من 13,000 مهمة مأخوذة من معايير مثل GPQA وMMLU-Pro وHLE وBFCL وSWE-Bench Verified [26]. لكن هذه البطاقة لا تقدم مقارنة مباشرة مع DeepSeek V4 أو Kimi K2.6 [26].

ماذا عن DeepSeek V4 وKimi K2.6؟

بالنسبة إلى DeepSeek V4، لا تقدم المصادر المتاحة رقماً مباشراً يمكن مقارنته مع Claude Opus 4.7 أو GPT-5.5. أقرب ما يظهر هو DeepSeek V3.2، حيث تضعه MangoMind ضمن توصيات البرمجة في أبريل/نيسان 2026 بنتيجة 89.2% على SWE-bench، خلف Claude Opus 4.6 عند 93.2% وGPT-5.4 Pro عند 91.1% [1]. هذه أرقام مفيدة لفهم موقع DeepSeek V3.2، لكنها لا تكفي لاستنتاج أداء DeepSeek V4.

الوضع مشابه مع Kimi K2.6. يذكر تقرير Stanford HAI أن KimiK2.5 كان ضمن مجموعة نماذج بين 70% و76% على SWE-bench Verified في فبراير/شباط 2026 [13]. كما تعرض Siliconflow نموذج Kimi K2 Thinking بنتيجة 84.5 في GPQA و71.3 في SWE Bench [6]. لكن KimiK2.5 وKimi K2 Thinking ليسا Kimi K2.6، لذلك لا تصلح هذه الأرقام كدليل مباشر على أداء النموذج المطلوب.

أي نموذج تختبر أولاً؟

إذا كان الاستخدام الأساسي هو...النموذج الذي يستحق الاختبار أولاًأساس الاختيارالتحفظ المهم
وكيل طرفية أو CLI للبرمجةGPT-5.5Terminal-Bench 2.0: GPT-5.5 عند 82.7% مقابل Claude عند 69.4% [5]أعد الاختبار داخل بيئة shell والصلاحيات وCI/CD الخاصة بك.
إصلاح مستودعات برمجية ذاتياًClaude Opus 4.7، ثم GPT-5.5 للمقارنةSWE-Bench Pro Public: Claude عند 64.3% مقابل GPT-5.5 عند 58.6% [5]لا تخلطه مع SWE-bench Verified من دون مطابقة آلية الاختبار [21].
تنسيق أدوات أو سير عمل متعدد الخطواتClaude Opus 4.7MCP Atlas: Claude عند 79.1% مقابل GPT-5.5 عند 75.3% [2]اختبره على مخططات الأدوات وسياسات الوصول ومنطق إعادة المحاولة لديك.
وكيل بحث أو تصفحGPT-5.5 أو GPT-5.5 ProBrowseComp: GPT-5.5 عند 84.4% وGPT-5.5 Pro عند 90.1% مقابل Claude عند 79.3% [2]لا تفترض أن BrowseComp يمثل كل احتياجات البحث الداخلي.
تدفقات مالية أو مهنيةاختبار متوازٍ بين Claude وGPT-5.5Claude يتقدم في FinanceAgent v1.1، بينما GPT-5.5 يتقدم في GDPval وOfficeQA Pro [5]يشير MindStudio إلى أن الفجوة بين رقم benchmark مالي وأداة إنتاجية مستخدمة فعلاً غالباً ما تكون في البنية التحتية الشاملة، لا في ذكاء النموذج فقط [14].
استدلال علمي عاملا تختر من GPQA وحدهنتائج GPQA Diamond بين Claude وGPT-5.5 متقاربة جداً في Vellum [2]استخدم اختبارات خاصة بمجالك، خصوصاً إذا كانت مهامك تختلف عن أسئلة benchmark.

الخلاصة

إذا التزمنا فقط بالأدلة المباشرة المتاحة، فإن GPT-5.5 يبدو المرشح الأقوى لوكلاء الطرفية وCLI، والتصفح والبحث، والمهام المكتبية، وبعض اختبارات الرياضيات المتقدمة [5][2]. في المقابل، يبدو Claude Opus 4.7 أقوى في SWE-Bench Pro Public، وتنسيق الأدوات عبر MCP Atlas، وFinanceAgent v1.1 [5][2].

أما DeepSeek V4 وKimi K2.6 فلا يمكن ترتيبهما بعدل أمام هذين النموذجين بناءً على هذه المصادر. الأرقام المنشورة تتعلق بإصدارات أخرى — DeepSeek V3.2 وKimiK2.5 وKimi K2 Thinking — وبالتالي لا تدعم ادعاءً مباشراً بأن DeepSeek V4 أو Kimi K2.6 يتفوقان على Claude Opus 4.7 أو GPT-5.5 [1][13][6].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ابحث وتحقق من الحقائق مع Studio Global AI

الوجبات السريعة الرئيسية

  • أقوى مقارنة مباشرة في المصادر المتاحة هي بين Claude Opus 4.7 وGPT 5.5، لأنهما يظهران على الاختبارات نفسها في جداول OpenAI وVellum [5][2].
  • GPT 5.5 يتقدم بوضوح في Terminal Bench 2.0 بنسبة 82.7% مقابل 69.4% لـ Claude، بينما يتقدم Claude في SWE Bench Pro Public بنسبة 64.3% مقابل 58.6% [5].
  • لا يوجد فائز مطلق: Claude أقوى في MCP Atlas وFinanceAgent v1.1، بينما GPT 5.5 أقوى في BrowseComp وGDPval وOfficeQA Pro وFrontierMath ضمن الجداول المتاحة [2][5].
  • DeepSeek V4 وKimi K2.6 لا يملكان أرقاماً مباشرة في هذه المصادر؛ البيانات المتاحة تتعلق بإصدارات أخرى مثل DeepSeek V3.2 وKimiK2.5 وKimi K2 Thinking [1][13][6].

يسأل الناس أيضا

ما هي الإجابة المختصرة على "Claude Opus 4.7 ضد GPT-5.5: ما تكشفه اختبارات 2026 فعلاً"؟

أقوى مقارنة مباشرة في المصادر المتاحة هي بين Claude Opus 4.7 وGPT 5.5، لأنهما يظهران على الاختبارات نفسها في جداول OpenAI وVellum [5][2].

ما هي النقاط الأساسية التي يجب التحقق منها أولاً؟

أقوى مقارنة مباشرة في المصادر المتاحة هي بين Claude Opus 4.7 وGPT 5.5، لأنهما يظهران على الاختبارات نفسها في جداول OpenAI وVellum [5][2]. GPT 5.5 يتقدم بوضوح في Terminal Bench 2.0 بنسبة 82.7% مقابل 69.4% لـ Claude، بينما يتقدم Claude في SWE Bench Pro Public بنسبة 64.3% مقابل 58.6% [5].

ماذا يجب أن أفعل بعد ذلك في الممارسة العملية؟

لا يوجد فائز مطلق: Claude أقوى في MCP Atlas وFinanceAgent v1.1، بينما GPT 5.5 أقوى في BrowseComp وGDPval وOfficeQA Pro وFrontierMath ضمن الجداول المتاحة [2][5].

ما هو الموضوع ذو الصلة الذي يجب أن أستكشفه بعد ذلك؟

تابع مع "Claude Opus 4.7 ضد GPT-5.5 وDeepSeek V4 وKimi K2.6: من يتصدر اختبارات أداء 2026؟" لزاوية أخرى واستشهادات إضافية.

فتح الصفحة ذات الصلة

ما الذي يجب أن أقارنه بهذا؟

تحقق من هذه الإجابة مقابل "DeepSeek V4: ما وراء مليون توكن وMoE وترحيل الـAPI".

فتح الصفحة ذات الصلة

مواصلة البحث الخاص بك

محادثة بحثية

أنت

سؤال بحثي

Lakukan riset mendalam tentang benchmark Claude Opus 4.7, GPT-5.5, DeepSeek V4, dan Kimi K2.6.

Studio Global AI32 المصادر

إجابة مستشهد بها

Berdasarkan bukti yang tersedia, benchmark yang paling bisa dibahas secara konkret hanya untuk Claude Opus 4.7. Untuk GPT-5.5, bukti yang tersedia hanya satu unggahan X tanpa angka benchmark lengkap; untuk DeepSeek V4 dan Kimi K2.6 tidak ada bukti benchmark langsung dalam sumber yang diberikan. Karena itu, perbandingan empat model ini belum bisa dibuat secara kuat; Insufficient evidence untuk klaim komparatif penuh.

Key findings

  • Claude Opus 4.7 dilaporkan mencetak 87.6% pada SWE-bench Verified, 94.2% pada GPQA, memiliki konteks 1 juta token, peningkatan vision 3.3x, mode effort “xhigh”, dan harga $5/$25 menurut LLM Stats [7].

  • Claude Opus 4.7 juga dilaporkan menempati peringkat #2 dari 110 model pada leaderboard provisional BenchLM dengan skor keseluruhan 97/100, serta peringkat #2 dari 14 pada verified leaderboard [4].

  • Pada GPQA Diamond, laporan The Next Web menyebut Claude Opus 4.7 mencetak 94.2%, GPT-5.4 Pro 94.4%, dan Gemini 3.1 Pro 94.3%; sumber itu menilai selisihnya berada dalam noise dan benchmark ini sudah cenderung jenuh di antara model frontier [6].

  • Untuk coding, bukti yang tersedia mendukung bahwa Claude Opus 4.7 sangat kuat, tetapi angka SWE-bench yang tersedia tidak sepenuhnya konsisten antar-sumber: LLM Stats menyebut 87.6% untuk SWE-bench Verified [7], sementara Stanford HAI hanya memberi konteks lebih lama bahwa per Februari 2026 Claude 4.5 Opus high reasoning berada sekitar 76.8% dan model lain seperti KimiK2.5, GPT-5.2, serta Gemini 3 Flash high reasoning berada di kisaran 70–76% [1].

  • Untuk analisis finansial, MindStudio menyebut contoh gap antara skor FinanceBench 82.7% dan kesiapan deployment produksi, tetapi bukti snippet yang tersedia tidak cukup untuk memastikan konteks metodologi, pembanding, atau apakah angka itu diklaim sebagai skor resmi Claude Opus 4.7 [3].

  • Untuk GPT-5.5, satu-satunya bukti langsung yang tersedia adalah unggahan X yang menyatakan GPT-5.5 underperform terhadap Mythos pada SWE-Bench Pro dan HLE, setara pada GPQA Diamond, BrowseComp, dan OSWorld-Verified, serta lebih baik pada Terminal-Bench 2.0 [31]. Bukti ini lemah untuk riset benchmark karena tidak menyediakan angka, metodologi, atau sumber primer [31].

  • Untuk DeepSeek V4, tidak ada benchmark langsung dalam bukti yang diberikan; satu-satunya data terkait DeepSeek menyebut DeepSeek V3.2 sebagai #3 rekomendasi coding April 2026 dengan 89.2% SWE-bench menurut MangoMind, bukan DeepSeek V4 [2]. Insufficient evidence.

  • Untuk Kimi K2.6, tidak ada benchmark langsung dalam bukti yang diberikan; Stanford HAI hanya menyebut KimiK2.5 berada dalam kelompok 70–76% pada SWE-bench Verified per Februari 2026, bukan Kimi K2.6 [1]. Insufficient evidence.

Perbandingan ringkas

ModelBukti benchmark langsungAngka yang tersediaKekuatan kesimpulan
Claude Opus 4.7AdaSWE-bench Verified 87.6%, GPQA 94.2%, BenchLM 97/100Sedang, tetapi perlu validasi sumber primer
GPT-5.5Sangat terbatasTidak ada angka; hanya klaim relatif via XLemah
DeepSeek V4Tidak adaTidak adaInsufficient evidence
Kimi K2.6Tidak adaTidak adaInsufficient evidence

Evidence notes

  • Sumber paling kuat yang tersedia adalah Stanford HAI karena bersifat teknis dan institusional, tetapi datanya tidak mencakup Claude Opus 4.7, GPT-5.5, DeepSeek V4, atau Kimi K2.6 secara langsung; sumber itu hanya memberi baseline per Februari 2026 untuk Claude 4.5 Opus, KimiK2.5, GPT-5.2, dan model lain [1].

  • LLM Stats, BenchLM, MindStudio, Vellum, The Next Web, dan MangoMind memberikan konteks pasar serta benchmark yang lebih baru, tetapi sebagian tampak sebagai ringkasan pihak ketiga dan bukan dokumentasi primer dari lab model [2][3][4][5][6][7].

  • Vellum mencantumkan area benchmark untuk Claude Opus 4.7 seperti SWE-bench Verified, SWE-bench Pro, Terminal-Bench 2.0, MCP-Atlas, Finance Agent v1.1, OSWorld-Verified, BrowseComp, GPQA, dan benchmark reasoning lain, tetapi snippet yang tersedia tidak memberikan angka spesifik yang bisa dipakai untuk perbandingan [5].

  • MangoMind menyediakan daftar rekomendasi April 2026 untuk coding, tetapi model yang disebut adalah Claude Opus 4.6, GPT-5.4 Pro, dan DeepSeek V3.2, bukan versi target Claude Opus 4.7, GPT-5.5, DeepSeek V4, atau Kimi K2.6 [2].

Limitations / uncertainty

  • Tidak ada bukti primer dari Anthropic, OpenAI, DeepSeek, atau Moonshot/Kimi dalam evidence yang tersedia, sehingga angka-angka harus diperlakukan sebagai laporan pihak ketiga, bukan hasil resmi yang sepenuhnya terverifikasi.

  • Tidak tersedia angka benchmark langsung untuk DeepSeek V4 dan Kimi K2.6, sehingga klaim bahwa salah satu lebih unggul dari Claude Opus 4.7 atau GPT-5.5 tidak dapat didukung.

  • Tidak tersedia angka benchmark lengkap untuk GPT-5.5; unggahan X hanya menyebut perbandingan relatif terhadap Mythos tanpa metodologi dan tanpa skor numerik [31].

  • Ada indikasi pergeseran benchmark: GPQA Diamond tampak hampir jenuh pada model frontier karena Claude Opus 4.7, GPT-5.4 Pro, dan Gemini 3.1 Pro berada di sekitar 94.2–94.4% menurut The Next Web [6]. Ini berarti benchmark seperti SWE-bench Pro, Terminal-Bench, OSWorld, BrowseComp, dan evaluasi agentic kemungkinan lebih berguna untuk membedakan model, tetapi bukti angka lintas empat model target belum tersedia.

Summary

Claude Opus 4.7 adalah satu-satunya model dalam daftar yang memiliki bukti benchmark cukup konkret: 87.6% pada SWE-bench Verified, 94.2% pada GPQA, dan skor BenchLM 97/100 menurut sumber pihak ketiga [7][4]. GPT-5.5 hanya memiliki bukti lemah berupa klaim relatif dari X tanpa angka lengkap [31]. DeepSeek V4 dan Kimi K2.6 tidak memiliki data benchmark langsung dalam evidence yang tersedia, sehingga status benchmark keduanya adalah Insufficient evidence.

المصادر

  • [1] AI Benchmarks 2026: Monthly Leaderboards & Rankings | MangoMindmangomindbd.com

    5. Monthly Updates AI moves fast. We re-test all models monthly and publish updated rankings to reflect the latest releases. 🎯 Quick Recommendations Best AI for Coding (April 2026) 1. •Claude Opus 4.6 - 93.2% SWE-bench 2. •GPT-5.4 Pro - 91.1% SWE-bench 3....

  • [2] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [5] Introducing GPT-5.5 | OpenAIopenai.com

    Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization⁠(op...

  • [6] LLM Model Benchmarks 2026 | Siliconflowsiliconflow.com

    Model GRIND (%) AIME (%) GPQA (%) SWE Bench (%) MATH 500 (%) BFCL (%) Alder Polyglot (%) --- --- --- --- Kimi K2 Thinking — — 84.5 71.3 — — — GPT 5.1 — — 88.1 76.3 — — — Claude Haiku 4.5 — — 73 73.3 — — — GPT-5 — — 87.3 74.9 — — 88 Claude Opus 4.1 — — 80.9...

  • [10] AI Model Benchmarks Apr 2026 | Compare GPT-5, Claude 4.5 ...lmcouncil.ai

    METR Time Horizons Model Minutes --- 1 Claude Opus 4.6 (unknown thinking) 718.8 ±1815.2 2 GPT-5.2 (high) 352.2 ±335.5 3 GPT-5.3 Codex 349.5 ±333.1 4 Claude Opus 4.5 (no thinking) 293.0 ±239.0 5 Claude Opus 4.5 (16k thinking) 288.9 ±558.2 SWE-bench Verified...

  • [13] [PDF] Technical Performance - Stanford HAIhai.stanford.edu

    On SWE-bench Verified, top models are tightly clustered in the low-to-mid 70s (Figure 2.5.1). As of February 2026, Claude 4.5 Opus (high reasoning) led at approximately 76.8%, with several others including KimiK2.5, GPT-5.2, and Gemini 3 Flash (high reasoni...

  • [14] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, and Financial Analysis | MindStudiomindstudio.ai

    This matters for teams evaluating Opus 4.7 for production use because the model’s capability gains are only useful if they’re integrated into something that works end-to-end. The gap between “this model scores 82.7% on FinanceBench” and “we have a deployed...

  • [17] Claude Opus 4.7 leads on SWE-bench and agentic reasoning, beating GPT-5.4 and Gemini 3.1 Prothenextweb.com

    On graduate-level reasoning, measured by GPQA Diamond, the field has converged. Opus 4.7 scores 94.2%, GPT-5.4 Pro scores 94.4%, and Gemini 3.1 Pro scores 94.3%. The differences are within noise. The frontier models have effectively saturated this benchmark...

  • [18] Claude Opus 4.7: Benchmarks, Pricing, Context & What's Newllm-stats.com

    LLM Stats Logo Make AI phone calls with one API call Claude Opus 4.7: Benchmarks, Pricing, Context & What's New Claude Opus 4.7 scores 87.6% on SWE-bench Verified, 94.2% on GPQA, 1M token context, 3.3x higher-resolution vision, new xhigh effort level. $5/$2...

  • [19] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    Image 15: logo In our evals, we saw a double-digit jump in accuracy of tool calls and planning in our core orchestrator agents. As users leverage Hebbia to plan and execute on use cases like retrieval, slide creation, or document generation, Claude Opus 4.7...

  • [21] SWE-bench Verified Benchmark 2026: 35 LLM scores | BenchLM.aibenchlm.ai

    Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Software Engineering Benchmark Verified (SWE-bench Verified) A curated, human-verified subset of SWE-bench that tests models on resolving real GitHub issues from popular open-so...

  • [26] GPT-5.5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com

    We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...