レポート公開済み2026年4月28日Last edited 2026年5月6日14 ソース

مقارنة GPT-5.5 وClaude Opus 4.7 وDeepSeek V4 وKimi K2.6 في الاختبارات المعيارية

القراءة الأكثر أماناً ليست ترتيباً عاماً واحداً؛ إعدادات التفكير ومنهجيات الاختبار تختلف. GPT 5.5 high يسجل 59 في Artificial Analysis Intelligence Index، ونسخة GPT 5.5 xhigh تسجل Elo 1785 في GDPval AA؛ في المقابل يلخص LLM Stats المقارنة المشتركة بأن Claude Opus 4.7 يتقدم في 6 من 10 اختبارات مقابل 4 لـGPT 5...

Studio Global AIで検索して事実確認 Discover からさらに閲覧する

17K0

GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6のベンチマーク比較を示す抽象的なAIダッシュボード — GPT-5.5・Claude Opus 4.7・DeepSeek V4・Kimi K2.6比較：ベンチマークで見る用途別の勝者4つの主要AIモデルを、総合性能・推論・速度・文脈長・価格の観点で比較するイメージ。
AI プロンプト
Create a landscape editorial hero image for this Studio Global article: GPT-5.5・Claude Opus 4.7・DeepSeek V4・Kimi K2.6比較：ベンチマークで見る用途別の勝者. Article summary: 4モデルを完全同一条件で横比較した公開表は確認できないため、単一の勝者ではなく用途別に選ぶのが安全です。総合候補はGPT 5.5（AA Intelligence 59、GDPval AA Elo 1785）とClaude Opus 4.7（共通10ベンチマークで6勝4敗）です。[4][26][27]. Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](
openai.com

إذا أردت مقارنة GPT-5.5 وClaude Opus 4.7 وDeepSeek V4 وKimi K2.6، فالسؤال الأهم ليس: من الفائز المطلق؟ بل: ما نوع العمل الذي ستدفعه إلى النموذج؟ فاختبارات النماذج اللغوية الكبرى لا تأتي دائماً بالإعدادات نفسها؛ بعضها يستخدم مستويات تفكير عالية، وبعضها يعتمد على أرقام يعلنها المزود نفسه، وبعضها يتغير مع تاريخ التحديث أو طريقة القياس. لذلك فإن تحويل كل الأرقام إلى جدول ترتيب واحد قد يعطي انطباعاً أدق مما تسمح به البيانات فعلاً.^[4]^[18]

في هذه المقارنة، وعند الحديث عن DeepSeek بالأرقام، يكون التركيز أساساً على DeepSeek V4 Pro بإعداد Reasoning, Max Effort، لأن جدول Artificial Analysis للنماذج المفتوحة يعرض له أرقاماً قابلة للمقارنة مع Kimi K2.6 في الذكاء، طول السياق، السعر، وسرعة الإخراج.^[23]

الخلاصة السريعة: اختر حسب الاستخدام

الاستخدام	المرشح الأول	لماذا؟
الأداء العام والمهام ذات القيمة الاقتصادية	GPT-5.5	يسجل GPT-5.5 high درجة 59 في Artificial Analysis Intelligence Index، وتسجل نسخة GPT-5.5 xhigh نتيجة Elo 1785 في GDPval-AA.^[26]^[27]
التفكير العميق، المراجعة، والمهام التخصصية	Claude Opus 4.7	يلخص LLM Stats الاختبارات العشرة المشتركة بأن Claude Opus 4.7 يتقدم في 6 منها مقابل 4 لـGPT-5.5.^[4]
تشغيل الأدوات، التصفح، والمهام الطويلة داخل الطرفية أو الأنظمة	GPT-5.5	وفق LLM Stats، يتفوق GPT-5.5 في اختبارات مثل Terminal-Bench 2.0 وBrowseComp وOSWorld-Verified وCyberGym.^[4]
نموذج مفتوح الأوزان مع سرعة وسعر جيدين	Kimi K2.6	في جدول Artificial Analysis للنماذج المفتوحة، يظهر Kimi K2.6 بدرجة Intelligence 54، وسياق 256k، وسعر $1.7، وسرعة 112 tokens/s.^[23]
سياق طويل وسعر API منخفض	DeepSeek V4 Pro / عائلة DeepSeek V4	يعرض Artificial Analysis سياقاً بطول 1M لـDeepSeek V4 Pro، وتورد Mashable أن سعر API لـDeepSeek V4 أقل من GPT-5.5 وClaude Opus 4.7.^[3]^[23]

الصورة العامة لكل نموذج

النموذج	ما الذي تقوله الاختبارات؟	ما الذي يهم في التشغيل؟
GPT-5.5	يسجل GPT-5.5 high درجة 59 في Artificial Analysis Intelligence Index. وتقول Artificial Analysis إن GPT-5.5 xhigh يتصدر GDPval-AA بنتيجة Elo 1785، متقدماً على Claude Opus 4.7 max بنحو 30 نقطة.^[26]^[27]	تورد Mashable أن سعر API يبلغ $5 لكل مليون توكن إدخال و$30 لكل مليون توكن إخراج.^[3]
Claude Opus 4.7	في تلخيص LLM Stats للاختبارات العشرة المشتركة، يتقدم Claude Opus 4.7 في 6 مقابل 4. وفي جدول Mashable، يسجل 64.3% في SWE-Bench Pro و94.2% في GPQA Diamond و54.7% في Humanity's Last Exam with tools.^[4]^[9]	تورد Mashable أن سعر API يبلغ $5 لكل مليون توكن إدخال و$25 لكل مليون توكن إخراج.^[3]
Kimi K2.6	في جدول Artificial Analysis للنماذج المفتوحة، يسجل Intelligence 54. وتنقل The Decoder عن Moonshot AI أرقاماً تشمل 54.0 في HLE with Tools و58.6 في SWE-Bench Pro و83.2 في BrowseComp.^[20]^[23]	في الجدول نفسه: سياق 256k، وسعر $1.7، وسرعة إخراج 112 tokens/s.^[23]
DeepSeek V4 Pro	في جدول Artificial Analysis للنماذج المفتوحة، يسجل Intelligence 52. وتلخص DataCamp موقع DeepSeek V4 بأنه لا يتفوق في القدرة الصرفة على GPT-5.5 أو Claude Opus 4.7.^[16]^[23]	في جدول Artificial Analysis: سياق 1M، وسعر $2.2، وسرعة 36 tokens/s. وتورد Mashable أن سعر DeepSeek V4 API يبلغ $1.74 لكل مليون توكن إدخال و$3.48 لكل مليون توكن إخراج.^[3]^[23]

GPT-5.5 ضد Claude Opus 4.7: المواجهة تتغير بتغير المهمة

بين GPT-5.5 وClaude Opus 4.7، لا يوجد نمط بسيط يقول إن أحدهما يربح في كل شيء. الأرقام التي نقلتها Mashable تظهر أن Claude Opus 4.7 يتقدم في SWE-Bench Pro وGPQA Diamond، بينما يتقدم GPT-5.5 في Terminal-Bench 2.0 وHumanity's Last Exam وBrowseComp وARC-AGI-1 Verified.^[9]

الاختبار	GPT-5.5	Claude Opus 4.7	المتقدم في جدول Mashable
SWE-Bench Pro	58.6%	64.3%	Claude Opus 4.7
Terminal-Bench 2.0	82.7%	69.4%	GPT-5.5
Humanity's Last Exam	40.6%	31.2%	GPT-5.5
Humanity's Last Exam with tools	52.2%	54.7%	Claude Opus 4.7
BrowseComp	84.4%	79.3%	GPT-5.5
GPQA Diamond	93.6%	94.2%	Claude Opus 4.7
ARC-AGI-1 Verified	94.5%	92.0%	GPT-5.5

لكن LLM Stats يقدم زاوية مختلفة قليلاً: في 10 اختبارات مشتركة، يتقدم Claude Opus 4.7 في 6 ويتقدم GPT-5.5 في 4، مع تركّز أفضلية Claude في اختبارات التفكير والمراجعة، وأفضلية GPT-5.5 في اختبارات الاستخدام الطويل للأدوات.^[4]

النقطة المهمة هنا أن LLM Stats نفسه ينبه إلى أن هذه النتائج مأخوذة من مستويات التفكير العالية لدى كل مزود، وأنها قابلة للمقارنة من حيث الشكل العام، لا من حيث تطابق المنهجية بالكامل.^[4] لذلك إذا بدا أن Humanity's Last Exam، مثلاً، يعطي صورة مختلفة من مصدر إلى آخر، فهذه ليست مفارقة بقدر ما هي تذكير بأن الإعدادات والمنهجيات قد تغير النتيجة.^[4]^[9]

Kimi K2.6 ضد DeepSeek V4 Pro: سرعة أعلى أم سياق أطول؟

Kimi K2.6 وDeepSeek V4 Pro أقرب إلى كونهما خيارين تشغيليين في عالم النماذج المفتوحة الأوزان، لا مجرد منافسين مباشرين للنماذج المغلقة الأعلى سعراً. جدول Artificial Analysis للنماذج المفتوحة يضعهما بهذا الشكل:^[23]

المؤشر	Kimi K2.6	DeepSeek V4 Pro
Artificial Analysis Intelligence	54	52
طول السياق	256k	1.00M
خانة السعر	$1.7	$2.2
سرعة الإخراج	112 tokens/s	36 tokens/s

بهذه القراءة، Kimi K2.6 يبدو أقوى في درجة Intelligence وسرعة الإخراج، بينما DeepSeek V4 Pro يتفوق بوضوح في طول السياق البالغ 1M.^[23] وتنقل The Decoder عن Moonshot AI أن Kimi K2.6 حقق 54.0 في HLE with Tools و58.6 في SWE-Bench Pro و83.2 في BrowseComp.^[20]

مع ذلك، لا ينبغي قراءة أرقام Kimi K2.6 كأنها مقارنة كاملة ومتزامنة مع GPT-5.5 وClaude Opus 4.7. بطاقة النموذج على Hugging Face توضح أن تجارب Kimi K2.6 أجريت مع تفعيل thinking mode، وtemperature 1.0، وtop-p 1.0، وسياق 262,144 توكناً، وأن المقارنات الأساسية كانت مع Claude Opus 4.6 وGPT-5.4 وGemini 3.1 Pro.^[18]

أما DeepSeek V4 Pro، فالأفضل فهمه كنموذج يبحث عن توازن بين القرب من نماذج القمة والكلفة المنخفضة، لا كنموذج يطيح بالصدارة المطلقة. DataCamp تلخص ذلك بوضوح: DeepSeek V4 لا يتفوق في القدرة الصرفة على GPT-5.5 أو Claude Opus 4.7، لكنه يقدم أداء قريباً من نماذج المقدمة بتكلفة أقل.^[16]

الأسعار: لا تخلط بين ثلاثة أنواع من الأرقام

كثير من سوء الفهم في مقارنات النماذج يأتي من كلمة السعر. الرقم قد يعني سعر API، أو خانة سعر في لوحة مقارنة، أو تكلفة تشغيل اختبار معياري كامل.

أولاً، هناك سعر API لكل مليون توكن. تورد Mashable أن DeepSeek V4 يكلف $1.74 لكل مليون توكن إدخال و$3.48 لكل مليون توكن إخراج، مقابل $5/$30 لـGPT-5.5 و$5/$25 لـClaude Opus 4.7.^[3]

ثانياً، هناك خانة السعر في جدول Artificial Analysis للنماذج المفتوحة. في هذا الجدول يظهر Kimi K2.6 بسعر $1.7 وDeepSeek V4 Pro بسعر $2.2، لكن لا ينبغي التعامل مع هذه الخانة كأنها مطابقة مباشرة لسعر API الذي تورده Mashable.^[23]

ثالثاً، هناك تكلفة تشغيل الاختبار نفسه. في مقال Artificial Analysis عن DeepSeek V4 Pro، بلغت تكلفة تشغيل Artificial Analysis Intelligence Index نحو $1,071 لـDeepSeek V4 Pro، و$948 لـKimi K2.6، و$4,811 لـClaude Opus 4.7.^[2]

لذلك، عندما تقول إن DeepSeek أرخص أو إن Kimi أفضل سعراً أو إن Claude مكلف، اسأل أولاً: هل نتحدث عن سعر التوكن في API، أم تكلفة اختبار معياري، أم تكلفة تشغيل فعلية تتأثر بطول الإجابة وعدد الخطوات؟^[2]^[3]^[23]

السلامة والثقة ليستا نفس الشيء مثل القدرة الخام

في Claude Opus 4.7، توجد إشارات تتعلق بالثقة والسلوك لا يجب خلطها مباشرة بدرجات البرمجة أو الرياضيات. تنقل Mashable عن Anthropic أن Claude Opus 4.7 لديه honesty rate بنسبة 92% وأنه أقل ميلاً إلى sycophancy، أي مجاراة المستخدم بطريقة غير نقدية.^[15]

كما تقول Anthropic إن Claude Opus 4.7 تعادل في صدارة معيار داخلي لوكلاء البحث بدرجة إجمالية 0.715 عبر 6 وحدات، وإنه حسّن نتيجة General Finance من 0.767 في Opus 4.6 إلى 0.813.^[17]

هذه مؤشرات مهمة لمن يستخدم النموذج في مراجعة مستندات، تحليل مالي، أو مهام تحتاج إلى انضباط في الإفصاح عن البيانات. لكنها تبقى محوراً مختلفاً عن اختبارات مثل SWE-Bench Pro أو GPQA Diamond أو BrowseComp. في الاستخدام الحقيقي، ينبغي فصل القدرة، الكلفة، السرعة، مخاطر الهلوسة، وسهولة التدقيق بدلاً من جمعها في رقم واحد.^[15]^[17]

في الإنتاج: التوجيه بين النماذج أفضل من اختيار نموذج واحد لكل شيء

إذا كنت تبني منتجاً أو خط عمل آلياً، فغالباً لن يكون الحل الأمثل هو اختيار نموذج واحد لكل الطلبات. المقاربة الأكثر واقعية هي توجيه المهام: النموذج السريع أو الأرخص للمهام الروتينية، والنموذج الأعمق للمهام الحساسة أو المعقدة.

في مقارنة MindStudio لمهام برمجية واقعية، استخدم GPT-5.5 توكنات إخراج أقل بنسبة 72% من Claude Opus 4.7 على المهام نفسها، بينما يمكن أن تبرر دقة Opus 4.7 وتفصيله كلفته في قواعد الشيفرة الكبيرة والمعقدة ذات العبء العالي في التفكير.^[28]

بناءً على ذلك، يمكن البدء عملياً بهذا التقسيم: GPT-5.5 للإنشاء والتعديل والمهام القياسية وتشغيل الأدوات، Claude Opus 4.7 للمراجعة العميقة والحكم التخصصي، Kimi K2.6 لتجارب النماذج المفتوحة السريعة، وDeepSeek V4 Pro للمهام ذات السياق الطويل أو المعالجة الكثيفة التي تحتاج إلى كلفة API منخفضة نسبياً.^[3]^[4]^[23]^[28]

الحكم النهائي

من المعلومات العامة المتاحة حالياً، الاختيار الأكثر أماناً ليس إعلان فائز واحد بين GPT-5.5 وClaude Opus 4.7 وDeepSeek V4 Pro وKimi K2.6. الأفضل هو الاختيار حسب المهمة: GPT-5.5 قوي في الأداء العام والمهام الاقتصادية، Claude Opus 4.7 قوي في التفكير والمراجعة، Kimi K2.6 جذاب في السرعة والسعر ضمن النماذج المفتوحة، وDeepSeek V4 Pro يبرز في طول السياق وانخفاض سعر API لعائلة DeepSeek V4.^[3]^[4]^[23]^[26]^[27]

حتى داخل Artificial Analysis، تختلف الصورة بحسب الصفحة والإعداد: صفحة GPT-5.5 high تعرض درجة Intelligence 59، بينما تعرض صفحة النماذج العامة Claude Opus 4.7 Adaptive Reasoning, Max Effort في الصدارة بدرجة 57.^[27]^[30] هذه ليست تفصيلة هامشية؛ إنها سبب كافٍ لاستخدام الاختبارات كنقطة بداية فقط، ثم إجراء اختبار صغير على مهامك الفعلية، بميزانيتك، ومتطلبات زمن الاستجابة لديك، ومستوى الخطأ الذي تستطيع تحمله.^[4]^[18]^[28]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

القراءة الأكثر أماناً ليست ترتيباً عاماً واحداً؛ إعدادات التفكير ومنهجيات الاختبار تختلف.
GPT 5.5 high يسجل 59 في Artificial Analysis Intelligence Index، ونسخة GPT 5.5 xhigh تسجل Elo 1785 في GDPval AA؛ في المقابل يلخص LLM Stats المقارنة المشتركة بأن Claude Opus 4.7 يتقدم في 6 من 10 اختبارات مقابل 4 لـGPT 5...
في جدول Artificial Analysis للنماذج المفتوحة، Kimi K2.6 يسجل Intelligence 54 وسرعة 112 tokens/s وسياق 256k، بينما DeepSeek V4 Pro يسجل Intelligence 52 وسرعة 36 tokens/s وسياق 1M؛ الأول يميل إلى السرعة، والثاني إلى الس...

人々も尋ねます

「مقارنة GPT-5.5 وClaude Opus 4.7 وDeepSeek V4 وKimi K2.6 في الاختبارات المعيارية」の短い答えは何ですか?

القراءة الأكثر أماناً ليست ترتيباً عاماً واحداً؛ إعدادات التفكير ومنهجيات الاختبار تختلف.

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

في جدول Artificial Analysis للنماذج المفتوحة، Kimi K2.6 يسجل Intelligence 54 وسرعة 112 tokens/s وسياق 256k، بينما DeepSeek V4 Pro يسجل Intelligence 52 وسرعة 36 tokens/s وسياق 1M؛ الأول يميل إلى السرعة، والثاني إلى الس...

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較：2026年ベンチマークの結論」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか？

この回答を「DeepSeek V4を技術面から読む：100万トークン、MoE、API移行の要点」と照合してください。

関連ページを開く

研究を続けてください

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較：2026年ベンチマークの結論

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6：2026年ベンチマーク比較

DeepSeek V4 工程架构示意图，包含 1M 上下文、MoE 专家路由和 API 服务化元素

DeepSeek V4を技術面から読む：100万トークン、MoE、API移行の要点

Northwest Timber と Southeast Timber：なぜ答えは「larger; larger」なのか

Northwest Timber と Southeast Timber：代替性が高いと、なぜ「larger; larger」になるのか

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

DeepSeekはOpenAI、Claude、Gemini、Grokに勝てるのか　本当の焦点はコストと信頼

DeepSeekはOpenAI、Claude、Gemini、Grokに勝てるのか

研究に関する会話

あなた2026年4月25日

リサーチクエスチョン

GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6のベンチマークを調査し、比較してください。

Studio Global AI2026年4月25日38 ソース

引用された回答

提供された証拠だけでは、GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6を同一ベンチマーク上で厳密に横比較するには不十分です。確認できる範囲では、GPT-5.5は「新たな首位モデル」とされる一方、Claude Opus 4.7もArtificial Analysis系の文脈で首位級と示唆されており、Kimi K2.6は一部の公開モデル比較指標のみ数値が確認できます。^[3]^[7]^[34]

Key findings

モデル	確認できたベンチマーク・性能情報	比較上の解釈
GPT-5.5	Artificial Analysis関連記事のスニペットでは、2026年4月24日時点で「新たな主要/首位AIモデル」とされている。^[3] LinkedInスニペットにも「OpenAIのGPT-5.5が新たな首位AIモデル」とある。^[34]	総合性能で非常に強い可能性はあるが、提供証拠には具体的なスコア、評価項目、競合平均との差がないため、定量順位は確定できない。^[3]^[34]
Claude Opus 4.7	Mashableスニペットでは、AnthropicがClaude Opus 4.7について「92%のhonesty rate」と「より少ないsycophancy」を主張している。^[4] SourceForgeスニペットでは、Claude Opus 4.7は高度なソフトウェアエンジニアリングと複雑な問題解決での改善を目的にしたAnthropicの最新モデルと説明されている。^[6]	安全性・誠実性系の指標では具体値があるが、GPT-5.5やKimi K2.6と同じ総合ベンチマークでの数値比較はできない。^[4]^[6]
DeepSeek V4	Artificial Analysisの公開モデル比較スニペットに「DeepSeek V4 Pro」の記載はあるが、スコアや速度、価格などの数値は提示されていない。^[7]	Insufficient evidence. 提供証拠だけではDeepSeek V4のベンチマーク順位・強み・弱みを判断できない。^[7]
Kimi K2.6	Artificial Analysisの公開モデル比較スニペットでは、Kimi K2.6のIntelligenceが54、コンテキスト長が256k、価格が$1.7、出力速度が112 tokens/sと示されている。^[7]	4モデル中で最も具体的な公開比較数値が確認できるが、GPT-5.5やClaude Opus 4.7と同一指標で直接比較できる証拠はない。^[7]

Evidence notes

Stanford HAIの2026年AI Indexでは、2026年2月時点のSWE-bench Verifiedで上位モデルが70%台前半〜中盤に密集し、Claude 4.5 Opus high reasoningが約76.8%で首位、KimiK2.5、GPT-5.2、Gemini 3 Flash high reasoningが70%〜76%の範囲に入っていたとされている。^[2]
ただし、このStanford HAIの記述はClaude Opus 4.7、GPT-5.5、Kimi K2.6、DeepSeek V4そのものではなく、直前世代または別モデルの状況を示す背景情報にとどまる。^[2]
SciCode Benchの提供スニペットにはClaude Sonnet 4 high、Gemini 2.5 Pro、GPT-5-1-codex、Grok 4などの記載があるが、比較対象であるGPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6の直接スコアは確認できない。^[1]
GPT-5.5については「新たな首位」とする記述がある一方、別スニペットではClaude Opus 4.7もArtificial Analysis Intelligence文脈で首位に位置するように読めるため、時点差、評価セット差、またはスニペットの文脈差による不整合がある可能性がある。^[3]^[34]

Limitations / uncertainty

Insufficient evidence. 4モデルすべてを同一ベンチマーク、同一日付、同一推論設定で比較した表やスコアは、提供証拠内にはありません。^[1]^[3]^[5]^[7]^[34]
DeepSeek V4は特に情報が不足しており、提供証拠では「DeepSeek V4 Pro」というモデル名の出現以上の定量情報を確認できません。^[7]
Claude Opus 4.7の「92% honesty rate」は安全性・誠実性に関する指標であり、コーディング、数学、エージェント性能、総合知能スコアと同列には扱えません。^[4]
Kimi K2.6のIntelligence 54、256k context、$1.7、112 tokens/sは有用な比較材料ですが、GPT-5.5やClaude Opus 4.7の同じ列の数値が提供されていないため、相対順位は出せません。^[7]

Summary

現時点の提供証拠で最も強い総合性能シグナルがあるのはGPT-5.5ですが、数値スコアはありません。^[3]^[34]
Claude Opus 4.7は安全性・誠実性で92%という具体値があり、ソフトウェアエンジニアリングや複雑問題解決の改善が主張されていますが、総合スコア比較はできません。^[4]^[6]
Kimi K2.6はIntelligence 54、256k context、$1.7、112 tokens/sという具体的な公開比較値がありますが、他3モデルとの同一指標比較は不足しています。^[7]
DeepSeek V4は提供証拠だけでは評価不能です。^[7]

情報源

[2] DeepSeek is back among the leading open weights models with V4 Pro ...artificialanalysis.ai
Lower cost than frontier models, but high token usage keeps costs above most open weights peers: DeepSeek V4 Pro costs $1,071 to run the Artificial Analysis Intelligence Index, more than 4x cheaper than Claude Opus 4.7 ($4,811) but above several open weight...
[3] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[4] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarksllm-stats.com
The Verdict On the 10 benchmarks both providers report, Opus 4.7 leads on 6 and GPT-5.5 leads on 4. The leads cluster by category, not by overall quality: Opus 4.7 is ahead on the reasoning-heavy and review-grade tests (GPQA Diamond, HLE with and without to...
[9] OpenAI’s GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com
Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...
[15] Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safetymashable.com
Tim studied print journalism at the University of Southern California. He currently splits his time between Brooklyn, NY and Charleston, SC. He's currently working on his second novel, a science-fiction book. Recommended For You Anthropic says Claude Opus 4...
[16] DeepSeek V4: Features, Benchmarks, and Comparisons - DataCampdatacamp.com
How large are the DeepSeek V4 models? DeepSeek uses a Mixture of Experts (MoE) architecture. The Pro model contains 1.6 trillion total parameters (49 billion active) and requires an 865GB download. The Flash model contains 284 billion parameters (13 billion...
[17] Introducing Claude Opus 4.7anthropic.com
Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...
[18] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co
Footnotes 1. General Testing Details We report results for Kimi K2.6 and Kimi K2.5 with thinking mode enabled, Claude Opus 4.6 with max effort, GPT-5.4 with xhigh reasoning effort, and Gemini 3.1 Pro with a high thinking level. Unless otherwise specified, a...
[20] Open-weight Kimi K2.6 takes on GPT-5.4 and Claude Opus 4.6 with agent swarmsthe-decoder.com
The Decoder Open-weight Kimi K2.6 takes on GPT-5.4 and Claude Opus 4.6 with agent swarms Matthias Bastian Image description Moonshot AI has released Kimi K2.6 as an open-weight model. It's built to match GPT-5.4 and Claude Opus 4.6 on coding benchmarks, and...
[23] Comparison of Open Source AI Models across Intelligence, Performance, Price, Context Window, and more | Artificial Analysisartificialanalysis.ai
Model Name Intelligence Parameters Context Window Price Output Speed (t/s) Weights Providers Provider Benchmarks --- --- --- --- Kimi logo Kimi K2.6 Kimi 54 1.0KB (32B active at inference time) 256k $1.7 112 🤗 Novita Kimi SiliconFlow +6 more View DeepSeek...
[26] OpenAI's GPT-5.5 is the new leading AI model - Artificial Analysisartificialanalysis.ai
➤ Number one in GDPval-AA with an Elo of 1785: GPT-5.5 (xhigh) leads Claude Opus 4.7 (max) by 30 pts and Gemini 3.1 Pro Preview by 470 pts. GDPval-AA is Artificial Analysis' benchmark that leverages OpenAI's GDPval dataset to evaluate models on real-world e...
[27] GPT-5.5 (high) - Intelligence, Performance & Price Analysisartificialanalysis.ai
No, GPT-5.5 (high) is proprietary. The model weights are not publicly available. GPT-5.5 (high) is a proprietary model and OpenAI has not disclosed the model size or parameter count. GPT-5.5 (high) achieves a score of 59 on the Artificial Analysis Intellige...
[28] GPT-5.5 vs Claude Opus 4.7: Real-World Coding Performance Comparedmindstudio.ai
GPT-5.5 uses 72% fewer output tokens than Claude Opus 4.7 on the same coding tasks — a structural difference, not a minor gap. On raw benchmark quality, both models are competitive. Neither dominates on every task type. For high-volume agentic coding pipeli...
[30] Comparison of AI Models across Intelligence, Performance, and Priceartificialanalysis.ai
Which is the most intelligent AI model? Claude Opus 4.7 (Adaptive Reasoning, Max Effort) currently leads the Artificial Analysis Intelligence Index with a score of 57, out of 347 models evaluated. What are the top AI models? The top AI models by Intelligenc...

トレンドを発見する

レポート公開済み2026年4月28日Last edited 2026年5月6日14 ソース

مقارنة GPT-5.5 وClaude Opus 4.7 وDeepSeek V4 وKimi K2.6 في الاختبارات المعيارية

Studio Global AIで検索して事実確認 Discover からさらに閲覧する

17K0

الخلاصة السريعة: اختر حسب الاستخدام

الاستخدام	المرشح الأول	لماذا؟
الأداء العام والمهام ذات القيمة الاقتصادية	GPT-5.5	يسجل GPT-5.5 high درجة 59 في Artificial Analysis Intelligence Index، وتسجل نسخة GPT-5.5 xhigh نتيجة Elo 1785 في GDPval-AA.^[26]^[27]
التفكير العميق، المراجعة، والمهام التخصصية	Claude Opus 4.7	يلخص LLM Stats الاختبارات العشرة المشتركة بأن Claude Opus 4.7 يتقدم في 6 منها مقابل 4 لـGPT-5.5.^[4]
تشغيل الأدوات، التصفح، والمهام الطويلة داخل الطرفية أو الأنظمة	GPT-5.5	وفق LLM Stats، يتفوق GPT-5.5 في اختبارات مثل Terminal-Bench 2.0 وBrowseComp وOSWorld-Verified وCyberGym.^[4]
نموذج مفتوح الأوزان مع سرعة وسعر جيدين	Kimi K2.6	في جدول Artificial Analysis للنماذج المفتوحة، يظهر Kimi K2.6 بدرجة Intelligence 54، وسياق 256k، وسعر $1.7، وسرعة 112 tokens/s.^[23]
سياق طويل وسعر API منخفض	DeepSeek V4 Pro / عائلة DeepSeek V4	يعرض Artificial Analysis سياقاً بطول 1M لـDeepSeek V4 Pro، وتورد Mashable أن سعر API لـDeepSeek V4 أقل من GPT-5.5 وClaude Opus 4.7.^[3]^[23]

الصورة العامة لكل نموذج

النموذج	ما الذي تقوله الاختبارات؟	ما الذي يهم في التشغيل؟
GPT-5.5	يسجل GPT-5.5 high درجة 59 في Artificial Analysis Intelligence Index. وتقول Artificial Analysis إن GPT-5.5 xhigh يتصدر GDPval-AA بنتيجة Elo 1785، متقدماً على Claude Opus 4.7 max بنحو 30 نقطة.^[26]^[27]	تورد Mashable أن سعر API يبلغ $5 لكل مليون توكن إدخال و$30 لكل مليون توكن إخراج.^[3]
Claude Opus 4.7	في تلخيص LLM Stats للاختبارات العشرة المشتركة، يتقدم Claude Opus 4.7 في 6 مقابل 4. وفي جدول Mashable، يسجل 64.3% في SWE-Bench Pro و94.2% في GPQA Diamond و54.7% في Humanity's Last Exam with tools.^[4]^[9]	تورد Mashable أن سعر API يبلغ $5 لكل مليون توكن إدخال و$25 لكل مليون توكن إخراج.^[3]
Kimi K2.6	في جدول Artificial Analysis للنماذج المفتوحة، يسجل Intelligence 54. وتنقل The Decoder عن Moonshot AI أرقاماً تشمل 54.0 في HLE with Tools و58.6 في SWE-Bench Pro و83.2 في BrowseComp.^[20]^[23]	في الجدول نفسه: سياق 256k، وسعر $1.7، وسرعة إخراج 112 tokens/s.^[23]
DeepSeek V4 Pro	في جدول Artificial Analysis للنماذج المفتوحة، يسجل Intelligence 52. وتلخص DataCamp موقع DeepSeek V4 بأنه لا يتفوق في القدرة الصرفة على GPT-5.5 أو Claude Opus 4.7.^[16]^[23]	في جدول Artificial Analysis: سياق 1M، وسعر $2.2، وسرعة 36 tokens/s. وتورد Mashable أن سعر DeepSeek V4 API يبلغ $1.74 لكل مليون توكن إدخال و$3.48 لكل مليون توكن إخراج.^[3]^[23]

GPT-5.5 ضد Claude Opus 4.7: المواجهة تتغير بتغير المهمة

الاختبار	GPT-5.5	Claude Opus 4.7	المتقدم في جدول Mashable
SWE-Bench Pro	58.6%	64.3%	Claude Opus 4.7
Terminal-Bench 2.0	82.7%	69.4%	GPT-5.5
Humanity's Last Exam	40.6%	31.2%	GPT-5.5
Humanity's Last Exam with tools	52.2%	54.7%	Claude Opus 4.7
BrowseComp	84.4%	79.3%	GPT-5.5
GPQA Diamond	93.6%	94.2%	Claude Opus 4.7
ARC-AGI-1 Verified	94.5%	92.0%	GPT-5.5

Kimi K2.6 ضد DeepSeek V4 Pro: سرعة أعلى أم سياق أطول؟

المؤشر	Kimi K2.6	DeepSeek V4 Pro
Artificial Analysis Intelligence	54	52
طول السياق	256k	1.00M
خانة السعر	$1.7	$2.2
سرعة الإخراج	112 tokens/s	36 tokens/s

الأسعار: لا تخلط بين ثلاثة أنواع من الأرقام

السلامة والثقة ليستا نفس الشيء مثل القدرة الخام

في الإنتاج: التوجيه بين النماذج أفضل من اختيار نموذج واحد لكل شيء

الحكم النهائي

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

القراءة الأكثر أماناً ليست ترتيباً عاماً واحداً؛ إعدادات التفكير ومنهجيات الاختبار تختلف.
GPT 5.5 high يسجل 59 في Artificial Analysis Intelligence Index، ونسخة GPT 5.5 xhigh تسجل Elo 1785 في GDPval AA؛ في المقابل يلخص LLM Stats المقارنة المشتركة بأن Claude Opus 4.7 يتقدم في 6 من 10 اختبارات مقابل 4 لـGPT 5...
في جدول Artificial Analysis للنماذج المفتوحة، Kimi K2.6 يسجل Intelligence 54 وسرعة 112 tokens/s وسياق 256k، بينما DeepSeek V4 Pro يسجل Intelligence 52 وسرعة 36 tokens/s وسياق 1M؛ الأول يميل إلى السرعة، والثاني إلى الس...

人々も尋ねます

「مقارنة GPT-5.5 وClaude Opus 4.7 وDeepSeek V4 وKimi K2.6 في الاختبارات المعيارية」の短い答えは何ですか?

القراءة الأكثر أماناً ليست ترتيباً عاماً واحداً؛ إعدادات التفكير ومنهجيات الاختبار تختلف.

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較：2026年ベンチマークの結論」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか？

この回答を「DeepSeek V4を技術面から読む：100万トークン、MoE、API移行の要点」と照合してください。

関連ページを開く

研究を続けてください

研究に関する会話

あなた2026年4月25日

リサーチクエスチョン

GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6のベンチマークを調査し、比較してください。

Studio Global AI2026年4月25日38 ソース

引用された回答

Key findings

モデル	確認できたベンチマーク・性能情報	比較上の解釈
GPT-5.5	Artificial Analysis関連記事のスニペットでは、2026年4月24日時点で「新たな主要/首位AIモデル」とされている。^[3] LinkedInスニペットにも「OpenAIのGPT-5.5が新たな首位AIモデル」とある。^[34]	総合性能で非常に強い可能性はあるが、提供証拠には具体的なスコア、評価項目、競合平均との差がないため、定量順位は確定できない。^[3]^[34]
Claude Opus 4.7	Mashableスニペットでは、AnthropicがClaude Opus 4.7について「92%のhonesty rate」と「より少ないsycophancy」を主張している。^[4] SourceForgeスニペットでは、Claude Opus 4.7は高度なソフトウェアエンジニアリングと複雑な問題解決での改善を目的にしたAnthropicの最新モデルと説明されている。^[6]	安全性・誠実性系の指標では具体値があるが、GPT-5.5やKimi K2.6と同じ総合ベンチマークでの数値比較はできない。^[4]^[6]
DeepSeek V4	Artificial Analysisの公開モデル比較スニペットに「DeepSeek V4 Pro」の記載はあるが、スコアや速度、価格などの数値は提示されていない。^[7]	Insufficient evidence. 提供証拠だけではDeepSeek V4のベンチマーク順位・強み・弱みを判断できない。^[7]
Kimi K2.6	Artificial Analysisの公開モデル比較スニペットでは、Kimi K2.6のIntelligenceが54、コンテキスト長が256k、価格が$1.7、出力速度が112 tokens/sと示されている。^[7]	4モデル中で最も具体的な公開比較数値が確認できるが、GPT-5.5やClaude Opus 4.7と同一指標で直接比較できる証拠はない。^[7]

Evidence notes

Stanford HAIの2026年AI Indexでは、2026年2月時点のSWE-bench Verifiedで上位モデルが70%台前半〜中盤に密集し、Claude 4.5 Opus high reasoningが約76.8%で首位、KimiK2.5、GPT-5.2、Gemini 3 Flash high reasoningが70%〜76%の範囲に入っていたとされている。^[2]
ただし、このStanford HAIの記述はClaude Opus 4.7、GPT-5.5、Kimi K2.6、DeepSeek V4そのものではなく、直前世代または別モデルの状況を示す背景情報にとどまる。^[2]
SciCode Benchの提供スニペットにはClaude Sonnet 4 high、Gemini 2.5 Pro、GPT-5-1-codex、Grok 4などの記載があるが、比較対象であるGPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6の直接スコアは確認できない。^[1]
GPT-5.5については「新たな首位」とする記述がある一方、別スニペットではClaude Opus 4.7もArtificial Analysis Intelligence文脈で首位に位置するように読めるため、時点差、評価セット差、またはスニペットの文脈差による不整合がある可能性がある。^[3]^[34]

Limitations / uncertainty

Insufficient evidence. 4モデルすべてを同一ベンチマーク、同一日付、同一推論設定で比較した表やスコアは、提供証拠内にはありません。^[1]^[3]^[5]^[7]^[34]
DeepSeek V4は特に情報が不足しており、提供証拠では「DeepSeek V4 Pro」というモデル名の出現以上の定量情報を確認できません。^[7]
Claude Opus 4.7の「92% honesty rate」は安全性・誠実性に関する指標であり、コーディング、数学、エージェント性能、総合知能スコアと同列には扱えません。^[4]
Kimi K2.6のIntelligence 54、256k context、$1.7、112 tokens/sは有用な比較材料ですが、GPT-5.5やClaude Opus 4.7の同じ列の数値が提供されていないため、相対順位は出せません。^[7]

Summary

現時点の提供証拠で最も強い総合性能シグナルがあるのはGPT-5.5ですが、数値スコアはありません。^[3]^[34]
Claude Opus 4.7は安全性・誠実性で92%という具体値があり、ソフトウェアエンジニアリングや複雑問題解決の改善が主張されていますが、総合スコア比較はできません。^[4]^[6]
Kimi K2.6はIntelligence 54、256k context、$1.7、112 tokens/sという具体的な公開比較値がありますが、他3モデルとの同一指標比較は不足しています。^[7]
DeepSeek V4は提供証拠だけでは評価不能です。^[7]

情報源

[2] DeepSeek is back among the leading open weights models with V4 Pro ...artificialanalysis.ai
Lower cost than frontier models, but high token usage keeps costs above most open weights peers: DeepSeek V4 Pro costs $1,071 to run the Artificial Analysis Intelligence Index, more than 4x cheaper than Claude Opus 4.7 ($4,811) but above several open weight...
[3] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[4] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarksllm-stats.com
The Verdict On the 10 benchmarks both providers report, Opus 4.7 leads on 6 and GPT-5.5 leads on 4. The leads cluster by category, not by overall quality: Opus 4.7 is ahead on the reasoning-heavy and review-grade tests (GPQA Diamond, HLE with and without to...
[9] OpenAI’s GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com
Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...
[15] Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safetymashable.com
Tim studied print journalism at the University of Southern California. He currently splits his time between Brooklyn, NY and Charleston, SC. He's currently working on his second novel, a science-fiction book. Recommended For You Anthropic says Claude Opus 4...
[16] DeepSeek V4: Features, Benchmarks, and Comparisons - DataCampdatacamp.com
How large are the DeepSeek V4 models? DeepSeek uses a Mixture of Experts (MoE) architecture. The Pro model contains 1.6 trillion total parameters (49 billion active) and requires an 865GB download. The Flash model contains 284 billion parameters (13 billion...
[17] Introducing Claude Opus 4.7anthropic.com
Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...
[18] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co
Footnotes 1. General Testing Details We report results for Kimi K2.6 and Kimi K2.5 with thinking mode enabled, Claude Opus 4.6 with max effort, GPT-5.4 with xhigh reasoning effort, and Gemini 3.1 Pro with a high thinking level. Unless otherwise specified, a...
[20] Open-weight Kimi K2.6 takes on GPT-5.4 and Claude Opus 4.6 with agent swarmsthe-decoder.com
The Decoder Open-weight Kimi K2.6 takes on GPT-5.4 and Claude Opus 4.6 with agent swarms Matthias Bastian Image description Moonshot AI has released Kimi K2.6 as an open-weight model. It's built to match GPT-5.4 and Claude Opus 4.6 on coding benchmarks, and...
[23] Comparison of Open Source AI Models across Intelligence, Performance, Price, Context Window, and more | Artificial Analysisartificialanalysis.ai
Model Name Intelligence Parameters Context Window Price Output Speed (t/s) Weights Providers Provider Benchmarks --- --- --- --- Kimi logo Kimi K2.6 Kimi 54 1.0KB (32B active at inference time) 256k $1.7 112 🤗 Novita Kimi SiliconFlow +6 more View DeepSeek...
[26] OpenAI's GPT-5.5 is the new leading AI model - Artificial Analysisartificialanalysis.ai
➤ Number one in GDPval-AA with an Elo of 1785: GPT-5.5 (xhigh) leads Claude Opus 4.7 (max) by 30 pts and Gemini 3.1 Pro Preview by 470 pts. GDPval-AA is Artificial Analysis' benchmark that leverages OpenAI's GDPval dataset to evaluate models on real-world e...
[27] GPT-5.5 (high) - Intelligence, Performance & Price Analysisartificialanalysis.ai
No, GPT-5.5 (high) is proprietary. The model weights are not publicly available. GPT-5.5 (high) is a proprietary model and OpenAI has not disclosed the model size or parameter count. GPT-5.5 (high) achieves a score of 59 on the Artificial Analysis Intellige...
[28] GPT-5.5 vs Claude Opus 4.7: Real-World Coding Performance Comparedmindstudio.ai
GPT-5.5 uses 72% fewer output tokens than Claude Opus 4.7 on the same coding tasks — a structural difference, not a minor gap. On raw benchmark quality, both models are competitive. Neither dominates on every task type. For high-volume agentic coding pipeli...
[30] Comparison of AI Models across Intelligence, Performance, and Priceartificialanalysis.ai
Which is the most intelligent AI model? Claude Opus 4.7 (Adaptive Reasoning, Max Effort) currently leads the Artificial Analysis Intelligence Index with a score of 57, out of 347 models evaluated. What are the top AI models? The top AI models by Intelligenc...

トレンドを発見する

レポート公開済み2026年4月28日Last edited 2026年5月6日14 ソース

مقارنة GPT-5.5 وClaude Opus 4.7 وDeepSeek V4 وKimi K2.6 في الاختبارات المعيارية

Studio Global AIで検索して事実確認 Discover からさらに閲覧する

17K0

الخلاصة السريعة: اختر حسب الاستخدام

الاستخدام	المرشح الأول	لماذا؟
الأداء العام والمهام ذات القيمة الاقتصادية	GPT-5.5	يسجل GPT-5.5 high درجة 59 في Artificial Analysis Intelligence Index، وتسجل نسخة GPT-5.5 xhigh نتيجة Elo 1785 في GDPval-AA.^[26]^[27]
التفكير العميق، المراجعة، والمهام التخصصية	Claude Opus 4.7	يلخص LLM Stats الاختبارات العشرة المشتركة بأن Claude Opus 4.7 يتقدم في 6 منها مقابل 4 لـGPT-5.5.^[4]
تشغيل الأدوات، التصفح، والمهام الطويلة داخل الطرفية أو الأنظمة	GPT-5.5	وفق LLM Stats، يتفوق GPT-5.5 في اختبارات مثل Terminal-Bench 2.0 وBrowseComp وOSWorld-Verified وCyberGym.^[4]
نموذج مفتوح الأوزان مع سرعة وسعر جيدين	Kimi K2.6	في جدول Artificial Analysis للنماذج المفتوحة، يظهر Kimi K2.6 بدرجة Intelligence 54، وسياق 256k، وسعر $1.7، وسرعة 112 tokens/s.^[23]
سياق طويل وسعر API منخفض	DeepSeek V4 Pro / عائلة DeepSeek V4	يعرض Artificial Analysis سياقاً بطول 1M لـDeepSeek V4 Pro، وتورد Mashable أن سعر API لـDeepSeek V4 أقل من GPT-5.5 وClaude Opus 4.7.^[3]^[23]

الصورة العامة لكل نموذج

النموذج	ما الذي تقوله الاختبارات؟	ما الذي يهم في التشغيل؟
GPT-5.5	يسجل GPT-5.5 high درجة 59 في Artificial Analysis Intelligence Index. وتقول Artificial Analysis إن GPT-5.5 xhigh يتصدر GDPval-AA بنتيجة Elo 1785، متقدماً على Claude Opus 4.7 max بنحو 30 نقطة.^[26]^[27]	تورد Mashable أن سعر API يبلغ $5 لكل مليون توكن إدخال و$30 لكل مليون توكن إخراج.^[3]
Claude Opus 4.7	في تلخيص LLM Stats للاختبارات العشرة المشتركة، يتقدم Claude Opus 4.7 في 6 مقابل 4. وفي جدول Mashable، يسجل 64.3% في SWE-Bench Pro و94.2% في GPQA Diamond و54.7% في Humanity's Last Exam with tools.^[4]^[9]	تورد Mashable أن سعر API يبلغ $5 لكل مليون توكن إدخال و$25 لكل مليون توكن إخراج.^[3]
Kimi K2.6	في جدول Artificial Analysis للنماذج المفتوحة، يسجل Intelligence 54. وتنقل The Decoder عن Moonshot AI أرقاماً تشمل 54.0 في HLE with Tools و58.6 في SWE-Bench Pro و83.2 في BrowseComp.^[20]^[23]	في الجدول نفسه: سياق 256k، وسعر $1.7، وسرعة إخراج 112 tokens/s.^[23]
DeepSeek V4 Pro	في جدول Artificial Analysis للنماذج المفتوحة، يسجل Intelligence 52. وتلخص DataCamp موقع DeepSeek V4 بأنه لا يتفوق في القدرة الصرفة على GPT-5.5 أو Claude Opus 4.7.^[16]^[23]	في جدول Artificial Analysis: سياق 1M، وسعر $2.2، وسرعة 36 tokens/s. وتورد Mashable أن سعر DeepSeek V4 API يبلغ $1.74 لكل مليون توكن إدخال و$3.48 لكل مليون توكن إخراج.^[3]^[23]

GPT-5.5 ضد Claude Opus 4.7: المواجهة تتغير بتغير المهمة

الاختبار	GPT-5.5	Claude Opus 4.7	المتقدم في جدول Mashable
SWE-Bench Pro	58.6%	64.3%	Claude Opus 4.7
Terminal-Bench 2.0	82.7%	69.4%	GPT-5.5
Humanity's Last Exam	40.6%	31.2%	GPT-5.5
Humanity's Last Exam with tools	52.2%	54.7%	Claude Opus 4.7
BrowseComp	84.4%	79.3%	GPT-5.5
GPQA Diamond	93.6%	94.2%	Claude Opus 4.7
ARC-AGI-1 Verified	94.5%	92.0%	GPT-5.5

Kimi K2.6 ضد DeepSeek V4 Pro: سرعة أعلى أم سياق أطول؟

المؤشر	Kimi K2.6	DeepSeek V4 Pro
Artificial Analysis Intelligence	54	52
طول السياق	256k	1.00M
خانة السعر	$1.7	$2.2
سرعة الإخراج	112 tokens/s	36 tokens/s

الأسعار: لا تخلط بين ثلاثة أنواع من الأرقام

السلامة والثقة ليستا نفس الشيء مثل القدرة الخام

في الإنتاج: التوجيه بين النماذج أفضل من اختيار نموذج واحد لكل شيء

الحكم النهائي

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

القراءة الأكثر أماناً ليست ترتيباً عاماً واحداً؛ إعدادات التفكير ومنهجيات الاختبار تختلف.
GPT 5.5 high يسجل 59 في Artificial Analysis Intelligence Index، ونسخة GPT 5.5 xhigh تسجل Elo 1785 في GDPval AA؛ في المقابل يلخص LLM Stats المقارنة المشتركة بأن Claude Opus 4.7 يتقدم في 6 من 10 اختبارات مقابل 4 لـGPT 5...
في جدول Artificial Analysis للنماذج المفتوحة، Kimi K2.6 يسجل Intelligence 54 وسرعة 112 tokens/s وسياق 256k، بينما DeepSeek V4 Pro يسجل Intelligence 52 وسرعة 36 tokens/s وسياق 1M؛ الأول يميل إلى السرعة، والثاني إلى الس...

人々も尋ねます

「مقارنة GPT-5.5 وClaude Opus 4.7 وDeepSeek V4 وKimi K2.6 في الاختبارات المعيارية」の短い答えは何ですか?

القراءة الأكثر أماناً ليست ترتيباً عاماً واحداً؛ إعدادات التفكير ومنهجيات الاختبار تختلف.

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較：2026年ベンチマークの結論」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか？

この回答を「DeepSeek V4を技術面から読む：100万トークン、MoE、API移行の要点」と照合してください。

関連ページを開く

研究を続けてください

研究に関する会話

あなた2026年4月25日

リサーチクエスチョン

GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6のベンチマークを調査し、比較してください。

Studio Global AI2026年4月25日38 ソース

引用された回答

Key findings

モデル	確認できたベンチマーク・性能情報	比較上の解釈
GPT-5.5	Artificial Analysis関連記事のスニペットでは、2026年4月24日時点で「新たな主要/首位AIモデル」とされている。^[3] LinkedInスニペットにも「OpenAIのGPT-5.5が新たな首位AIモデル」とある。^[34]	総合性能で非常に強い可能性はあるが、提供証拠には具体的なスコア、評価項目、競合平均との差がないため、定量順位は確定できない。^[3]^[34]
Claude Opus 4.7	Mashableスニペットでは、AnthropicがClaude Opus 4.7について「92%のhonesty rate」と「より少ないsycophancy」を主張している。^[4] SourceForgeスニペットでは、Claude Opus 4.7は高度なソフトウェアエンジニアリングと複雑な問題解決での改善を目的にしたAnthropicの最新モデルと説明されている。^[6]	安全性・誠実性系の指標では具体値があるが、GPT-5.5やKimi K2.6と同じ総合ベンチマークでの数値比較はできない。^[4]^[6]
DeepSeek V4	Artificial Analysisの公開モデル比較スニペットに「DeepSeek V4 Pro」の記載はあるが、スコアや速度、価格などの数値は提示されていない。^[7]	Insufficient evidence. 提供証拠だけではDeepSeek V4のベンチマーク順位・強み・弱みを判断できない。^[7]
Kimi K2.6	Artificial Analysisの公開モデル比較スニペットでは、Kimi K2.6のIntelligenceが54、コンテキスト長が256k、価格が$1.7、出力速度が112 tokens/sと示されている。^[7]	4モデル中で最も具体的な公開比較数値が確認できるが、GPT-5.5やClaude Opus 4.7と同一指標で直接比較できる証拠はない。^[7]

Evidence notes

Stanford HAIの2026年AI Indexでは、2026年2月時点のSWE-bench Verifiedで上位モデルが70%台前半〜中盤に密集し、Claude 4.5 Opus high reasoningが約76.8%で首位、KimiK2.5、GPT-5.2、Gemini 3 Flash high reasoningが70%〜76%の範囲に入っていたとされている。^[2]
ただし、このStanford HAIの記述はClaude Opus 4.7、GPT-5.5、Kimi K2.6、DeepSeek V4そのものではなく、直前世代または別モデルの状況を示す背景情報にとどまる。^[2]
SciCode Benchの提供スニペットにはClaude Sonnet 4 high、Gemini 2.5 Pro、GPT-5-1-codex、Grok 4などの記載があるが、比較対象であるGPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6の直接スコアは確認できない。^[1]
GPT-5.5については「新たな首位」とする記述がある一方、別スニペットではClaude Opus 4.7もArtificial Analysis Intelligence文脈で首位に位置するように読めるため、時点差、評価セット差、またはスニペットの文脈差による不整合がある可能性がある。^[3]^[34]

Limitations / uncertainty

Insufficient evidence. 4モデルすべてを同一ベンチマーク、同一日付、同一推論設定で比較した表やスコアは、提供証拠内にはありません。^[1]^[3]^[5]^[7]^[34]
DeepSeek V4は特に情報が不足しており、提供証拠では「DeepSeek V4 Pro」というモデル名の出現以上の定量情報を確認できません。^[7]
Claude Opus 4.7の「92% honesty rate」は安全性・誠実性に関する指標であり、コーディング、数学、エージェント性能、総合知能スコアと同列には扱えません。^[4]
Kimi K2.6のIntelligence 54、256k context、$1.7、112 tokens/sは有用な比較材料ですが、GPT-5.5やClaude Opus 4.7の同じ列の数値が提供されていないため、相対順位は出せません。^[7]

Summary

現時点の提供証拠で最も強い総合性能シグナルがあるのはGPT-5.5ですが、数値スコアはありません。^[3]^[34]
Claude Opus 4.7は安全性・誠実性で92%という具体値があり、ソフトウェアエンジニアリングや複雑問題解決の改善が主張されていますが、総合スコア比較はできません。^[4]^[6]
Kimi K2.6はIntelligence 54、256k context、$1.7、112 tokens/sという具体的な公開比較値がありますが、他3モデルとの同一指標比較は不足しています。^[7]
DeepSeek V4は提供証拠だけでは評価不能です。^[7]

情報源

[2] DeepSeek is back among the leading open weights models with V4 Pro ...artificialanalysis.ai
Lower cost than frontier models, but high token usage keeps costs above most open weights peers: DeepSeek V4 Pro costs $1,071 to run the Artificial Analysis Intelligence Index, more than 4x cheaper than Claude Opus 4.7 ($4,811) but above several open weight...
[3] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[4] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarksllm-stats.com
The Verdict On the 10 benchmarks both providers report, Opus 4.7 leads on 6 and GPT-5.5 leads on 4. The leads cluster by category, not by overall quality: Opus 4.7 is ahead on the reasoning-heavy and review-grade tests (GPQA Diamond, HLE with and without to...
[9] OpenAI’s GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com
Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...
[15] Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safetymashable.com
Tim studied print journalism at the University of Southern California. He currently splits his time between Brooklyn, NY and Charleston, SC. He's currently working on his second novel, a science-fiction book. Recommended For You Anthropic says Claude Opus 4...
[16] DeepSeek V4: Features, Benchmarks, and Comparisons - DataCampdatacamp.com
How large are the DeepSeek V4 models? DeepSeek uses a Mixture of Experts (MoE) architecture. The Pro model contains 1.6 trillion total parameters (49 billion active) and requires an 865GB download. The Flash model contains 284 billion parameters (13 billion...
[17] Introducing Claude Opus 4.7anthropic.com
Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...
[18] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co
Footnotes 1. General Testing Details We report results for Kimi K2.6 and Kimi K2.5 with thinking mode enabled, Claude Opus 4.6 with max effort, GPT-5.4 with xhigh reasoning effort, and Gemini 3.1 Pro with a high thinking level. Unless otherwise specified, a...
[20] Open-weight Kimi K2.6 takes on GPT-5.4 and Claude Opus 4.6 with agent swarmsthe-decoder.com
The Decoder Open-weight Kimi K2.6 takes on GPT-5.4 and Claude Opus 4.6 with agent swarms Matthias Bastian Image description Moonshot AI has released Kimi K2.6 as an open-weight model. It's built to match GPT-5.4 and Claude Opus 4.6 on coding benchmarks, and...
[23] Comparison of Open Source AI Models across Intelligence, Performance, Price, Context Window, and more | Artificial Analysisartificialanalysis.ai
Model Name Intelligence Parameters Context Window Price Output Speed (t/s) Weights Providers Provider Benchmarks --- --- --- --- Kimi logo Kimi K2.6 Kimi 54 1.0KB (32B active at inference time) 256k $1.7 112 🤗 Novita Kimi SiliconFlow +6 more View DeepSeek...
[26] OpenAI's GPT-5.5 is the new leading AI model - Artificial Analysisartificialanalysis.ai
➤ Number one in GDPval-AA with an Elo of 1785: GPT-5.5 (xhigh) leads Claude Opus 4.7 (max) by 30 pts and Gemini 3.1 Pro Preview by 470 pts. GDPval-AA is Artificial Analysis' benchmark that leverages OpenAI's GDPval dataset to evaluate models on real-world e...
[27] GPT-5.5 (high) - Intelligence, Performance & Price Analysisartificialanalysis.ai
No, GPT-5.5 (high) is proprietary. The model weights are not publicly available. GPT-5.5 (high) is a proprietary model and OpenAI has not disclosed the model size or parameter count. GPT-5.5 (high) achieves a score of 59 on the Artificial Analysis Intellige...
[28] GPT-5.5 vs Claude Opus 4.7: Real-World Coding Performance Comparedmindstudio.ai
GPT-5.5 uses 72% fewer output tokens than Claude Opus 4.7 on the same coding tasks — a structural difference, not a minor gap. On raw benchmark quality, both models are competitive. Neither dominates on every task type. For high-volume agentic coding pipeli...
[30] Comparison of AI Models across Intelligence, Performance, and Priceartificialanalysis.ai
Which is the most intelligent AI model? Claude Opus 4.7 (Adaptive Reasoning, Max Effort) currently leads the Artificial Analysis Intelligence Index with a score of 57, out of 347 models evaluated. What are the top AI models? The top AI models by Intelligenc...

الخلاصة السريعة: اختر حسب الاستخدام

الصورة العامة لكل نموذج

GPT-5.5 ضد Claude Opus 4.7: المواجهة تتغير بتغير المهمة

Kimi K2.6 ضد DeepSeek V4 Pro: سرعة أعلى أم سياق أطول؟

الأسعار: لا تخلط بين ثلاثة أنواع من الأرقام

السلامة والثقة ليستا نفس الشيء مثل القدرة الخام

في الإنتاج: التوجيه بين النماذج أفضل من اختيار نموذج واحد لكل شيء

الحكم النهائي

Search, cite, and publish your own answer

重要なポイント

人々も尋ねます

「مقارنة GPT-5.5 وClaude Opus 4.7 وDeepSeek V4 وKimi K2.6 في الاختبارات المعيارية」の短い答えは何ですか?

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

次にどの関連トピックを検討すればよいでしょうか?

これを何と比較すればいいでしょうか？

研究を続けてください

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較：2026年ベンチマークの結論

DeepSeek V4を技術面から読む：100万トークン、MoE、API移行の要点

Northwest Timber と Southeast Timber：なぜ答えは「larger; larger」なのか

DeepSeekはOpenAI、Claude、Gemini、Grokに勝てるのか 本当の焦点はコストと信頼

研究に関する会話

リサーチクエスチョン

引用された回答

Key findings

Evidence notes

Limitations / uncertainty

Summary

情報源

الخلاصة السريعة: اختر حسب الاستخدام

الصورة العامة لكل نموذج

GPT-5.5 ضد Claude Opus 4.7: المواجهة تتغير بتغير المهمة

Kimi K2.6 ضد DeepSeek V4 Pro: سرعة أعلى أم سياق أطول؟

الأسعار: لا تخلط بين ثلاثة أنواع من الأرقام

السلامة والثقة ليستا نفس الشيء مثل القدرة الخام

في الإنتاج: التوجيه بين النماذج أفضل من اختيار نموذج واحد لكل شيء

الحكم النهائي

Search, cite, and publish your own answer

重要なポイント

人々も尋ねます

「مقارنة GPT-5.5 وClaude Opus 4.7 وDeepSeek V4 وKimi K2.6 في الاختبارات المعيارية」の短い答えは何ですか?

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

次にどの関連トピックを検討すればよいでしょうか?

これを何と比較すればいいでしょうか？

研究を続けてください

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較：2026年ベンチマークの結論

DeepSeek V4を技術面から読む：100万トークン、MoE、API移行の要点

Northwest Timber と Southeast Timber：なぜ答えは「larger; larger」なのか

DeepSeekはOpenAI、Claude、Gemini、Grokに勝てるのか 本当の焦点はコストと信頼

研究に関する会話

リサーチクエスチョン

引用された回答

Key findings

Evidence notes

Limitations / uncertainty

Summary

情報源

الخلاصة السريعة: اختر حسب الاستخدام

الصورة العامة لكل نموذج

GPT-5.5 ضد Claude Opus 4.7: المواجهة تتغير بتغير المهمة

Kimi K2.6 ضد DeepSeek V4 Pro: سرعة أعلى أم سياق أطول؟

الأسعار: لا تخلط بين ثلاثة أنواع من الأرقام

السلامة والثقة ليستا نفس الشيء مثل القدرة الخام

في الإنتاج: التوجيه بين النماذج أفضل من اختيار نموذج واحد لكل شيء

الحكم النهائي

Search, cite, and publish your own answer

重要なポイント

人々も尋ねます

「مقارنة GPT-5.5 وClaude Opus 4.7 وDeepSeek V4 وKimi K2.6 في الاختبارات المعيارية」の短い答えは何ですか?

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

次にどの関連トピックを検討すればよいでしょうか?

これを何と比較すればいいでしょうか？

研究を続けてください

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較：2026年ベンチマークの結論

DeepSeek V4を技術面から読む：100万トークン、MoE、API移行の要点

Northwest Timber と Southeast Timber：なぜ答えは「larger; larger」なのか

DeepSeekはOpenAI、Claude、Gemini、Grokに勝てるのか 本当の焦点はコストと信頼

研究に関する会話

DeepSeekはOpenAI、Claude、Gemini、Grokに勝てるのか　本当の焦点はコストと信頼

DeepSeekはOpenAI、Claude、Gemini、Grokに勝てるのか　本当の焦点はコストと信頼

DeepSeekはOpenAI、Claude、Gemini、Grokに勝てるのか　本当の焦点はコストと信頼