studioglobal
인기 있는 발견
답변게시됨14 소스

GPT-5.5 وClaude Opus 4.7 وDeepSeek V4 وKimi K2.6: الفائز يتغير بتغير المهمة

لا تكفي الاختبارات المنشورة لإعلان بطل مطلق: GPT 5.5 سجل 82.7% في Terminal Bench 2.0، بينما Claude Opus 4.7 سجل 64.3% في SWE Bench Pro و87.6% في SWE Bench Verified، لكن المقارنات الموحدة بالكامل بين النماذج الأربعة ما... Kimi K2.6 لديه أرقام لافتة مثل SWE Bench Pro عند 58.6% وSWE Bench Verified عند 80.2% وTerminal B...

18K0
네 개의 AI 모델 벤치마크 점수를 비교하는 추상적인 대시보드 일러스트
GPT-5.5·Claude Opus 4.7·DeepSeek V4·Kimi K2.6 벤치마크 비교: 작업별 승자는 다르다AI 생성 이미지. 네 모델의 공개 벤치마크 비교를 상징적으로 표현했습니다.
AI 프롬프트

Create a landscape editorial hero image for this Studio Global article: GPT-5.5·Claude Opus 4.7·DeepSeek V4·Kimi K2.6 벤치마크 비교: 작업별 승자는 다르다. Article summary: 종합 1위는 보류가 맞습니다. 공개값 기준으로 GPT 5.5는 Terminal Bench 2.0 82.7%, Claude Opus 4.7은 SWE Bench Pro 64.3%·SWE Bench Verified 87.6%가 강하지만, 네 모델을 같은 하네스로 평가한 독립 비교는 부족합니다 [19][27][5].. Topic tags: ai, benchmarks, openai, chatgpt, anthropic. Reference image context from search candidates: Reference image 1: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3A%2F%2Fmedium.com%2F%40cognidownunder%2Fclaude-opus-4-7-leads-on-code-gpt-5-5-wins-intelligence-and-kimi-k2-6-" source context "Claude Opus 4.7 Leads on Code, GPT 5.5 Wins Intelligence, and Kimi K2.6 Changes Everything" Reference image 2: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3A%2F%2Fmedium.com%2F%40cognidownun

openai.com

الطريقة الأكثر أمانا لقراءة هذه المقارنة ليست أن نسأل: من هو النموذج الأقوى؟ بل: أي نموذج أختبره أولا لهذه المهمة تحديدا؟ فالاختبارات المنشورة لا تضع GPT-5.5 وClaude Opus 4.7 وDeepSeek V4 وKimi K2.6 دائما داخل البيئة نفسها وبالأدوات نفسها وطريقة التصحيح نفسها. لذلك يصعب تحويل الأرقام إلى ترتيب واحد عادل من الأول إلى الرابع [1][2][5][6].

مع ذلك، هناك صورة عملية واضحة: إذا كان العمل يدور حول أوامر الطرفية وسلاسل تنفيذ طويلة داخل بيئة تطوير، فابدأ بـGPT-5.5. إذا كان المطلوب إصلاح مشكلات GitHub واقعية أو مراجعة كود، فClaude Opus 4.7 مرشح أول قوي. إذا كان السياق طويلا ومتعدد الوسائط، فضع Kimi K2.6 في قائمة التجربة. وإذا كانت التكلفة هي الهاجس الأكبر في استدعاءات ضخمة، فDeepSeek V4 يستحق الفحص، لكن مع طبقة تحقق صارمة.

الخلاصة السريعة حسب نوع العمل

  • أتمتة الطرفية والوكيل البرمجي طويل النفس: GPT-5.5 هو المرشح الأول. تقول OpenAI إنه حقق 82.7% في Terminal-Bench 2.0، بينما تظهر جداول منشورة Claude Opus 4.7 عند 69.4% وKimi K2.6 عند 66.7% [19][8][13][6].
  • إصلاح الكود ومشكلات GitHub الواقعية: Claude Opus 4.7 هو المرشح الأقوى كبداية. تذكر المصادر أنه حقق 64.3% في SWE-Bench Pro و87.6% في SWE-Bench Verified، متقدما على GPT-5.5 في SWE-Bench Pro حيث سجل 58.6% [27][19].
  • سياق طويل مع نصوص وصور وفيديو: Kimi K2.6 يستحق التجربة. تذكر مصادر المقارنة أنه يدعم إدخال النص والصورة والفيديو، مع مسار سياق 256k [7].
  • استدعاءات API ضخمة وحساسة للسعر: DeepSeek V4 لافت من ناحية التكلفة. وفق Mashable، سعره 1.74 دولار لكل مليون توكن إدخال و3.48 دولار لكل مليون توكن إخراج، مقابل 5 دولارات إدخال و30 دولارا إخراجا في GPT-5.5، و5 دولارات إدخال و25 دولارا إخراجا في Claude Opus 4.7 [3].

جدول المقارنة: ماذا تقول الأرقام المنشورة؟

علامة — في الجدول لا تعني أن النموذج عاجز عن المهمة، بل أن المصادر المتاحة هنا لا تقدم رقما مباشرا قابلا للمقارنة في الاختبار نفسه.

الاختبارGPT-5.5Claude Opus 4.7Kimi K2.6DeepSeek V4كيف نقرأ النتيجة؟
Terminal-Bench 2.082.7% [19]69.4% [8][13]66.7% [6]في سير العمل داخل الطرفية وسطر الأوامر، الرقم المنشور لصالح GPT-5.5 بوضوح.
SWE-Bench Pro58.6% [19]64.3% [27]58.6% [1][6]في إصلاح الكود ومشكلات GitHub الواقعية، Claude Opus 4.7 يتقدم.
SWE-Bench Verified87.6% [27]80.2% [1][6]الأرقام المتاحة هنا تقارن أساسا Claude وKimi، مع تقدم Claude.
GPQA Diamond93.6% [8][13]94.2% [8][13]الفارق صغير جدا، لكن الرقم المنشور يميل قليلا إلى Claude.
HLE with tools52.2% [8]54.7% [8][29]54.0% [6]Claude وKimi يظهران أرقاما أعلى، لكن رقم Kimi قد لا يكون من شروط مقارنة مطابقة [6].
BrowseComp84.4% [8][13]79.3% [8][13]في التصفح والبحث عبر الويب، الرقم المنشور لصالح GPT-5.5.
OSWorld-Verified78.7% [13]78.0% [13]الفارق بين GPT-5.5 وClaude Opus 4.7 محدود جدا.
MCP Atlas75.3% [13]79.1% [13]في اختبار الربط بالأدوات عبر MCP، يتقدم Claude Opus 4.7 في الأرقام المنشورة.

GPT-5.5: الأفضل بداية عندما تدور المهمة داخل الطرفية

تصف OpenAI نموذج GPT-5.5 بأنه أقوى نماذجها في البرمجة الوكيلية حتى الآن. في Terminal-Bench 2.0، وهو اختبار يقيس سير عمل معقدا في سطر الأوامر يتطلب تخطيطا وتكرارا وتنسيقا بين الأدوات، سجل النموذج 82.7%. وفي SWE-Bench Pro، الذي يقيس حل مشكلات GitHub واقعية، سجل 58.6% [19].

هذا يجعل GPT-5.5 خيارا منطقيا عندما تكون المهمة شبيهة بجلسة عمل حقيقية داخل الطرفية: تشغيل أوامر، تعديل ملفات، إعادة إنتاج فشل في CI، اختبار إصلاحات، ثم تكرار المحاولة. لكن لا ينبغي تعميم ذلك على كل أنواع البرمجة. ففي SWE-Bench Pro تحديدا، الرقم المنشور لـClaude Opus 4.7 هو 64.3%، أي أعلى من 58.6% المسجلة لـGPT-5.5 [19][27].

Claude Opus 4.7: مرشح قوي لإصلاح الكود والمراجعة العميقة

تظهر قوة Claude Opus 4.7 بوضوح في اختبارات إصلاح البرمجيات. تذكر DataCamp أن النموذج قُيم عبر 14 اختبارا تشمل البرمجة، الاستدلال، استخدام الأدوات، استخدام الحاسوب، والاستدلال البصري. وفي الجزء البرمجي، سجل 64.3% في SWE-Bench Pro و87.6% في SWE-Bench Verified [27].

في المقارنة المباشرة مع GPT-5.5، يتقدم Claude Opus 4.7 أيضا في GPQA Diamond بنتيجة 94.2% مقابل 93.6%، وفي MCP Atlas بنتيجة 79.1% مقابل 75.3% [8][13]. في المقابل، يتقدم GPT-5.5 في Terminal-Bench 2.0 وBrowseComp بحسب الأرقام نفسها [8][13][19].

بمعنى آخر: Claude Opus 4.7 ليس بالضرورة الخيار الأول لكل وكيل يعمل في الطرفية، لكنه يبدو خيارا قويا عندما تكون المهمة أقرب إلى فهم قاعدة كود، إصلاح خلل، مراجعة تغيير، أو تنفيذ تعديل هندسي بدقة.

Kimi K2.6: نقطة قوته ليست الرقم وحده بل السياق الطويل والمتعدد الوسائط

تظهر لـKimi K2.6 أرقام جيدة في اختبارات برمجية منشورة: 58.6% في SWE-Bench Pro و80.2% في SWE-Bench Verified، كما تذكر مصادر أخرى 66.7% في Terminal-Bench 2.0 و54.0% في HLE with tools [1][6]. لكن يجب قراءة هذه النتائج بحذر. فبعض الشروحات تربط أرقام K2.6 ببطاقة نموذج Moonshot AI الرسمية، وتذكر أن SWE-Bench Pro استخدم هارنس داخليا لدى Moonshot [6].

لذلك، حتى إذا ظهر أن Kimi K2.6 وGPT-5.5 يملكان الرقم نفسه في SWE-Bench Pro عند 58.6%، فلا يصح افتراض أنهما تعادلا تحت شروط اختبار متطابقة تماما [1][6][19]. القيمة العملية الأوضح في Kimi K2.6 هي أنه يدعم، بحسب مصادر المقارنة، إدخال النص والصورة والفيديو ومسار سياق 256k [7].

إذا كان منتجك يتعامل مع ملفات طويلة، أو مستندات مرفقة بصور، أو مقاطع فيديو تحتاج إلى ربطها بنصوص وتعليمات، فKimi K2.6 يستحق اختبارا داخليا منفصلا بدلا من الحكم عليه من جدول أرقام مختلط.

DeepSeek V4: السعر مغر، لكن لا بد من اختبار الدقة داخليا

في هذه المقارنة، لا تتوافر ضمن المصادر المعروضة أرقام مباشرة وكافية لوضع DeepSeek V4 في الصفوف نفسها الخاصة بـTerminal-Bench أوSWE-Bench Pro أوSWE-Bench Verified أوGPQA Diamond. لذلك ستكون أي مقارنة رقمية مباشرة مع GPT-5.5 أوClaude Opus 4.7 ناقصة.

لكن DeepSeek V4 يستحق الاهتمام من زاويتين: البنية والتكلفة. تذكر DataCamp أن DeepSeek V4 يستخدم بنية Mixture of Experts، وأن نموذج Pro يحتوي على 1.6 تريليون معامل إجمالي مع 49 مليار معامل نشط، بينما يحتوي نموذج Flash على 284 مليار معامل إجمالي مع 13 مليار معامل نشط [4]. ومن ناحية السعر، تنقل Mashable أن DeepSeek V4 يكلف 1.74 دولار لكل مليون توكن إدخال و3.48 دولار لكل مليون توكن إخراج، وهو أقل من أسعار GPT-5.5 وClaude Opus 4.7 المذكورة في المصدر نفسه [3].

لكن جانب الدقة مهم جدا. تذكر Artificial Analysis أن DeepSeek V4 Pro Max سجل -10 في AA-Omniscience، بتحسن 11 نقطة عن V3.2، وأن V4 Flash Max سجل -23. ويضيف المصدر أن معدل الهلوسة في V4 Pro وV4 Flash مرتفع جدا، عند 94% و96% على التوالي، بمعنى أنهما يميلان إلى الإجابة حتى عندما لا يعرفان [2].

الخلاصة هنا: DeepSeek V4 مناسب للفحص في سيناريوهات كثيفة الاستدعاءات ومنخفضة الهامش، أو في مسارات داخلية يمكن التحقق من مخرجاتها لاحقا. أما في المنتجات التي تكون فيها الإجابة الخاطئة مكلفة، فالسعر وحده لا يكفي؛ يلزم اختبار داخلي، وقواعد تحقق، واكتشاف للفشل قبل الاعتماد عليه [2][3][4].

دليل اختيار سريع حسب الاستخدام

الاستخدامالنموذج الذي يستحق الاختبار أولاالسبب
أتمتة طويلة داخل الطرفية، وكلاء shell، إعادة إنتاج فشل CIGPT-5.5سجل GPT-5.5 في Terminal-Bench 2.0 نسبة 82.7%، مقابل 69.4% لـClaude Opus 4.7 و66.7% لـKimi K2.6 في الأرقام المنشورة [19][8][13][6].
إصلاح مشكلات GitHub، تعديل كود واقعي، مهام SWE-BenchClaude Opus 4.7سجل Claude Opus 4.7 نسبة 64.3% في SWE-Bench Pro و87.6% في SWE-Bench Verified [27].
التصفح والبحث عبر الويبGPT-5.5في BrowseComp، تظهر الأرقام GPT-5.5 عند 84.4% وClaude Opus 4.7 عند 79.3% [8][13].
ربط الأدوات وبيئات MCPClaude Opus 4.7في MCP Atlas، يظهر Claude Opus 4.7 عند 79.1% مقابل 75.3% لـGPT-5.5 [13].
سياق طويل ومتعدد الوسائطKimi K2.6تذكر مصادر المقارنة أن Kimi K2.6 يدعم النص والصورة والفيديو ومسار سياق 256k [7].
استدعاءات API ضخمة وحساسة للسعرDeepSeek V4أسعار DeepSeek V4 المنشورة أقل من GPT-5.5 وClaude Opus 4.7، لكن يجب موازنة ذلك مع تقرير Artificial Analysis عن الهلوسة المرتفعة [2][3].

لماذا يصعب إعلان ترتيب نهائي؟

أولا، لا توجد في المصادر المتاحة مقارنة مستقلة كافية تضع النماذج الأربعة في البيئة نفسها: نفس المطالبات، نفس أدوات التصفح أو التنفيذ، نفس ميزانية الاستدلال، ونفس المصحح. GPT-5.5 وClaude Opus 4.7 يملكان أرقاما مشتركة أكثر نسبيا، لكن Kimi K2.6 تظهر له أرقام من بطاقة نموذج أو هارنس داخلي، وDeepSeek V4 يفتقر إلى عدد كاف من الصفوف المشتركة في هذه الاختبارات [1][2][5][6].

ثانيا، حتى عندما يتكرر اسم الاختبار نفسه، قد تختلف طريقة تشغيله. أحد التجميعات يذكر أن نتائج GPT-5.5 وClaude Opus 4.7 قابلة للمقارنة من حيث الشكل، لا من حيث المنهجية بالضرورة [5]. كما توضح Anthropic أنها استخدمت في Terminal-Bench 2.0 هارنس Terminus-2 مع تعطيل التفكير وشروط موارد محددة [31].

ثالثا، نتيجة الاختبار ليست المنتج كله. عند إدخال نموذج في خدمة حقيقية، ستحتاج إلى قياس الدقة، وطريقة الفشل، ومعدل الهلوسة، والكمون، والتكلفة، وثبات استدعاء الأدوات، وسياسات الأمان، وقابلية إعادة إنتاج السجلات. يشير ExplainX أيضا إلى أن تعريفات لوحات الصدارة والمطالبات وسياسات الأدوات قد تغير النتائج، لذلك لا ينبغي أن تحل الجداول العامة محل هارنس التقييم الداخلي [28].

الحكم العملي

إذا كنت تريد نقطة بداية لا أكثر، فالصورة الحالية تقول: GPT-5.5 لأتمتة الطرفية والبرمجة الوكيلية، Claude Opus 4.7 لإصلاح الكود ومهام SWE-Bench، Kimi K2.6 للسياق الطويل المتعدد الوسائط، وDeepSeek V4 للاستدعاءات الكثيفة الحساسة للتكلفة [19][27][7][3].

لكن لا تجعل هذه الخلاصة بديلا عن اختبارك الخاص. الفائز الحقيقي في بيئتك سيتحدد بما تسمح له به من أدوات، وبحجم السياق، وبسعر الخطأ، وبطريقة قياسك للفشل قبل قياسك للنجاح [5][28][31].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

  • لا تكفي الاختبارات المنشورة لإعلان بطل مطلق: GPT 5.5 سجل 82.7% في Terminal Bench 2.0، بينما Claude Opus 4.7 سجل 64.3% في SWE Bench Pro و87.6% في SWE Bench Verified، لكن المقارنات الموحدة بالكامل بين النماذج الأربعة ما...
  • Kimi K2.6 لديه أرقام لافتة مثل SWE Bench Pro عند 58.6% وSWE Bench Verified عند 80.2% وTerminal Bench 2.0 عند 66.7%، لكن بعض هذه الأرقام يأتي من بطاقة نموذج أو هارنس داخلي، لذلك لا ينبغي قراءتها كمقارنة متطابقة الشروط...
  • DeepSeek V4 يبدو جذابا في التكلفة، إذ تذكر Mashable سعرا قدره 1.74 دولار لكل مليون توكن إدخال و3.48 دولار للإخراج، لكن أرقام الاختبارات المشتركة في المقارنة ناقصة، كما أبلغت Artificial Analysis عن معدلات هلوسة مرتفعة...

사람들은 또한 묻습니다.

"GPT-5.5 وClaude Opus 4.7 وDeepSeek V4 وKimi K2.6: الفائز يتغير بتغير المهمة"에 대한 짧은 대답은 무엇입니까?

لا تكفي الاختبارات المنشورة لإعلان بطل مطلق: GPT 5.5 سجل 82.7% في Terminal Bench 2.0، بينما Claude Opus 4.7 سجل 64.3% في SWE Bench Pro و87.6% في SWE Bench Verified، لكن المقارنات الموحدة بالكامل بين النماذج الأربعة ما...

먼저 검증할 핵심 포인트는 무엇인가요?

لا تكفي الاختبارات المنشورة لإعلان بطل مطلق: GPT 5.5 سجل 82.7% في Terminal Bench 2.0، بينما Claude Opus 4.7 سجل 64.3% في SWE Bench Pro و87.6% في SWE Bench Verified، لكن المقارنات الموحدة بالكامل بين النماذج الأربعة ما... Kimi K2.6 لديه أرقام لافتة مثل SWE Bench Pro عند 58.6% وSWE Bench Verified عند 80.2% وTerminal Bench 2.0 عند 66.7%، لكن بعض هذه الأرقام يأتي من بطاقة نموذج أو هارنس داخلي، لذلك لا ينبغي قراءتها كمقارنة متطابقة الشروط...

실무에서는 다음으로 무엇을 해야 합니까?

DeepSeek V4 يبدو جذابا في التكلفة، إذ تذكر Mashable سعرا قدره 1.74 دولار لكل مليون توكن إدخال و3.48 دولار للإخراج، لكن أرقام الاختبارات المشتركة في المقارنة ناقصة، كما أبلغت Artificial Analysis عن معدلات هلوسة مرتفعة...

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Security 공개 베타: 앤트로픽의 AI 코드 취약점 스캐너가 하는 일"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"Grok 4.3 API 분석: 100만 토큰과 낮은 단가, xAI의 다음 승부수"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신

연구문제

GPT-5.5, Claude Opus 4.7, DeepSeek V4, Kimi K2.6의 벤치마크를 비교해 주세요.

Studio Global AI34 소스

인용 답변

요약하면, 공개적으로 확인 가능한 “동일 조건” 벤치마크만 놓고 보면 GPT-5.5는 터미널/에이전트 코딩, Claude Opus 4.7은 SWE-Bench Pro·Verified와 추론 계열에서 강합니다. DeepSeek V4와 Kimi K2.6은 공개 수치가 흩어져 있어 4개 모델을 한 표로 공정하게 순위화하기에는 근거가 부족합니다.

항목GPT-5.5Claude Opus 4.7DeepSeek V4Kimi K2.6
Terminal-Bench 2.082.7%69.4%공개 비교 근거 부족약 66%대로 보도됨
SWE-Bench Pro58.6%64.3%공개 비교 근거 부족58.6%
SWE-Bench Verified공개 수치 확인 부족87.6%공개 비교 근거 부족80.2%
GPQA Diamond0.94/1로 집계된 자료 있음94.2%로 보도됨공개 비교 근거 부족공개 비교 근거 부족
HLEGPT-5.5와 Opus 4.7 비교 자료에서 항목 존재46.9%로 보도됨공개 비교 근거 부족공개 비교 근거 부족
기타OSWorld, BrowseComp, CyberGym 등에서 GPT-5.5가 앞선다는 비교가 있음FinanceAgent, MCP Atlas 등에서 Opus 4.7이 앞선다는 비교가 있음Artificial Analysis 기준 AA-Omniscience 개선이 보고됐지만 환각률이 매우 높다는 지적도 있음텍스트·이미지·비디오 입력과 256k 컨텍스트 지원으로 소개됨
  • GPT-5.5는 OpenAI 발표 기준 Terminal-Bench 2.0에서 82.7%, SWE-Bench Pro에서 58.6%를 기록한 것으로 확인됩니다 [15].
  • Claude Opus 4.7은 여러 비교 자료에서 SWE-Bench Pro 64.3%, SWE-Bench Verified 87.6%, Terminal-Bench 69.4%, GPQA Diamond 94.2%로 제시됩니다 [3].
  • GPT-5.5와 Claude Opus 4.7만 비교하면, 한 집계 자료는 공통 10개 벤치마크 중 Claude Opus 4.7이 6개, GPT-5.5가 4개에서 앞선다고 요약합니다 [12].
  • Kimi K2.6은 SWE-Bench Pro 58.6%, SWE-Bench Verified 80.2%로 소개된 자료가 있지만, GPT-5.5·Claude Opus 4.7·DeepSeek V4와 완전히 같은 하네스에서 비교됐는지는 명확하지 않습니다 [15][4].
  • DeepSeek V4는 Artificial Analysis에서 V4 Pro와 V4 Flash의 지식·환각 관련 평가가 언급되지만, 위 표의 SWE-Bench Pro, Terminal-Bench, GPQA, HLE와 직접 대응되는 공개 비교 수치는 충분하지 않습니다 [7].

결론적으로 “벤치마크 승자”를 하나로 고르면 왜곡될 수 있습니다.

  • 에이전트 터미널 작업: GPT-5.5 우세로 볼 근거가 가장 강합니다 [15].
  • 실전 GitHub 이슈 해결/SWE-Bench 계열: Claude Opus 4.7 우세로 볼 근거가 강합니다 [3][12].
  • 비용 대비 성능/오픈웨이트 계열: DeepSeek V4와 Kimi K2.6을 검토할 만하지만, 동일 벤치마크 공개 근거는 부족합니다 [7][4].
  • 종합 순위: Insufficient evidence. 4개 모델 모두를 같은 프롬프트, 같은 도구 사용 조건, 같은 채점기로 평가한 독립 벤치마크가 필요합니다.

출처

  • [1] Claude Opus 4.7 vs Kimi K2.6 - Detailed Performance & Feature Comparisondocsbot.ai

    SWE-Bench Verified Evaluates software engineering capabilities through verified code modifications and custom agent setups Not available 80.2% SWE-Bench Verified, thinking mode Source SWE-Bench Pro Evaluates software engineering on multi-language SWE-Bench...

  • [2] DeepSeek is back among the leading open weights models with V4 Pro ...artificialanalysis.ai

    Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...

  • [3] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com

    Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...

  • [4] DeepSeek V4: Features, Benchmarks, and Comparisons - DataCampdatacamp.com

    How large are the DeepSeek V4 models? DeepSeek uses a Mixture of Experts (MoE) architecture. The Pro model contains 1.6 trillion total parameters (49 billion active) and requires an 865GB download. The Flash model contains 284 billion parameters (13 billion...

  • [5] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarksllm-stats.com

    The Verdict On the 10 benchmarks both providers report, Opus 4.7 leads on 6 and GPT-5.5 leads on 4. The leads cluster by category, not by overall quality: Opus 4.7 is ahead on the reasoning-heavy and review-grade tests (GPQA Diamond, HLE with and without to...

  • [6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai

    Benchmark K2.6 Claude Opus 4.6 GPT-5.4 Notes --- --- SWE-Bench Pro 58.60% 53.40% 57.70% Moonshot in-house harness; SEAL mini-swe-agent puts GPT-5.4 at 59.1%, Opus 4.6 at 51.9% SWE-Bench Verified 80.20% 80.80% 80% Tight cluster; Opus 4.7 now leads at 87.6% T...

  • [7] Kimi K2.6 vs DeepSeek V4 vs GPT-5.5 vs Claude Opus 4.7blog.laozhang.ai

    Official Contract Lanes Official rows keep the comparison honest. Kimi's K2.6 pricing page says K2.6 is the latest and smartest Kimi model, supports text, image, and video input, and has a 256k context route. DeepSeek's pricing page lists deepseek-v4-flash...

  • [8] OpenAI’s GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com

    Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...

  • [13] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [19] Introducing GPT-5.5 - OpenAIopenai.com

    Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...

  • [27] Claude Opus 4.7: Anthropic's New Best (Available) Model - DataCampdatacamp.com

    Claude Opus 4.7 Benchmarks Opus 4.7 was evaluated across 14 benchmarks covering coding, reasoning, tool use, computer use, and visual reasoning. The table below shows the full comparison with Opus 4.6, GPT 5.4, Gemini 3.1 Pro, and the not-yet-published Myth...

  • [28] Claude Opus 4.7: Anthropic’s new flagship, benchmarks, and how it compares to Sonnet & Haiku | explainx.ai Blog | explainx.aiexplainx.ai

    \Percentages are as printed on Anthropic’s benchmark figure; leaderboard definitions, prompts, and tool policies can move scores over time—treat this as a snapshot, not a substitute for your eval harness. Reading the table pragmatically Agentic coding (SWE-...

  • [29] Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safetymashable.com

    Claude Mythos scored 56.8 percent on HLE Claude Opus 4.7 scored 46.9 percent Gemini 3.1 Pro scored 44.4 percent GPT-5-4 Pro scored 42.7 percent Claude Opus 4.6 scored 40.0 percent With tools, GPT-5-4-Pro scored 58.7 percent compared to Opus 4.7’s 54.7 perce...

  • [31] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    For GPT-5.4 and Gemini 3.1 Pro, we compared against the best reported model version available via API in the charts and table. MCP-Atlas: The Opus 4.6 score has been updated to reflect revised grading methodology from Scale AI. SWE-bench Verified, Pro, and...