أما وثائق Claude Opus 4.7 العامة من Anthropic فتركز، في المواد المتاحة هنا، على مزايا وطريقة الاستخدام مثل خاصية task budgets
ضمن المصادر المتاحة، المعيار المشترك الأوضح بين النماذج الأربعة هو Terminal-Bench 2.0. وفق الجداول العامة المذكورة، تكون الصورة كالتالي:
| النموذج | Terminal-Bench 2.0 | المصدر |
|---|---|---|
| GPT-5.5 | 82.7% | OpenAI وMLQ.ai |
| Claude Opus 4.7 | 69.4% | OpenAI |
| DeepSeek V4-Pro Max | 67.9% | بطاقة DeepSeek V4-Pro |
| Kimi K2.6 Thinking | 66.7% | بطاقة DeepSeek V4-Pro |
هذه المقارنة تسمح باستنتاج محدود لكنه مفيد: في Terminal-Bench 2.0 تحديداً، يتقدم GPT-5.5 بوضوح، يليه Claude Opus 4.7، بينما يظهر DeepSeek V4-Pro Max وKimi K2.6 Thinking قريبين من بعضهما.
لكن هذا لا يعني أن GPT-5.5 سيكون الأفضل في كل منتج أو كل بيئة عمل. كما لا يغني عن إعادة الاختبار تحت الشروط نفسها: الأداة نفسها، الصلاحيات نفسها، طول السياق نفسه، ميزانية الاستدلال نفسها، وطريقة التصحيح نفسها.
تعرض صفحة OpenAI الخاصة بإطلاق GPT-5.5 عدة مقارنات مباشرة بين GPT-5.5 وClaude Opus 4.7. في البنود المعروضة هناك، يتقدم GPT-5.5 على Claude Opus 4.7 في كل صف مذكور.
| المعيار في جدول OpenAI | GPT-5.5 | Claude Opus 4.7 |
|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 69.4% |
| GDPval wins or ties | 84.9% | 80.3% |
| BrowseComp | 84.4% | 79.3% |
| FrontierMath Tier 1–3 | 51.7% | 43.8% |
| FrontierMath Tier 4 | 35.4% | 22.9% |
| CyberGym | 81.8% | 73.1% |
الاستنتاج الأمين هنا هو: ضمن جدول OpenAI فقط، يتفوق GPT-5.5 على Claude Opus 4.7 في هذه الاختبارات المحددة.
وتصف بطاقة النظام من OpenAI نموذج GPT-5.5 بأنه مصمم لأعمال واقعية معقدة، مثل كتابة الشيفرة، والبحث عبر الإنترنت، وتحليل المعلومات، وإنشاء المستندات والجداول، والتنقل بين الأدوات لإنجاز المهام.
مع ذلك، تظل هذه مقارنة واردة في صفحة OpenAI، وليست اختباراً مستقلاً موحداً يجمع النماذج الأربعة في البيئة نفسها.
بطاقة DeepSeek V4-Pro تعرض مقارنة مباشرة بين DS-V4-Pro Max وK2.6 Thinking في عدة اختبارات. داخل هذا الجدول، يتقدم DeepSeek في معظم البنود، لكن Kimi يتفوق في نقاط محددة.
| المعيار في بطاقة DeepSeek | DeepSeek V4-Pro Max | Kimi K2.6 Thinking | المتقدم داخل الجدول |
|---|---|---|---|
| MMLU-Pro | 87.5 | 87.1 | DeepSeek |
| SimpleQA-Verified | 57.9 | 36.9 | DeepSeek |
| Chinese-SimpleQA | 84.4 | 75.9 | DeepSeek |
| GPQA Diamond | 90.1 | 90.5 | Kimi |
| HLE | 37.7 | 36.4 | DeepSeek |
| LiveCodeBench | 93.5 | 89.6 | DeepSeek |
| HMMT 2026 Feb | 95.2 | 92.7 | DeepSeek |
| IMOAnswerBench | 89.8 | 86.0 | DeepSeek |
| Apex Shortlist | 90.2 | 75.5 | DeepSeek |
| SWE Pro | 55.4 | 58.6 | Kimi |
| Terminal-Bench 2.0 | 67.9 | 66.7 | DeepSeek |
القراءة المتزنة: DS-V4-Pro Max أعلى من K2.6 Thinking في معظم البنود التي تعرضها بطاقة DeepSeek، لكن Kimi K2.6 Thinking يتقدم في GPQA Diamond وSWE Pro.
كما أن الفارق في MMLU-Pro وTerminal-Bench 2.0 صغير نسبياً، لذلك لا يكفي النظر إلى اتجاه السهم فقط؛ نوع المهمة وهامش الخطأ وطريقة القياس قد تكون أهم من فارق محدود في رقم واحد.
الخطأ الشائع هو أخذ جدول OpenAI، وجدول DeepSeek، ووثائق Anthropic، ثم خلطها لإنتاج «بطل عام». الأدلة المتاحة لا تدعم ذلك لثلاثة أسباب رئيسية:
لذلك، تصلح benchmarks العامة كمرحلة فرز أولى، لا كقرار نهائي للشراء أو لاختيار بنية تقنية طويلة الأمد.
أفضل طريقة عملية هي تقسيم القراءة إلى ثلاث طبقات:
إذا كان منتجك يعتمد على حلقات طويلة لوكيل ذكي يستخدم أدوات متعددة، فميزة task budgets
أما إذا كانت مهامك أقرب إلى البرمجة المعقدة، أو البحث عبر الإنترنت، أو إعداد المستندات والجداول، أو العمل عبر أدوات متعددة، فإن وصف بطاقة نظام GPT-5.5 من OpenAI يرتبط مباشرة بهذه الاستخدامات. ومع ذلك، حتى لو كان نموذج ما متقدماً في جدول عام، يجب اختباره داخل مستودعاتك البرمجية، وسلسلة أدواتك، وحدود الصلاحيات لديك، وقواعد التعافي من الفشل.
Comments
0 comments