إذا كنت تبحث عن رقم واحد يختصر أداء Claude Opus 4.7، فالأرجح أنك ستجد أمامك 87.6% في SWE-bench Verified. لكن القراءة العملية للنموذج لا تبدأ وتنتهي عند هذا الرقم.
تصف Anthropic في وثائقها Claude Opus 4.7 بأنه أقوى نماذجها المتاحة عموماً للاستدلال المعقد و«البرمجة الوكيلة»؛ أي استخدام النموذج كوكيل يخطط وينفذ خطوات على الكود والأدوات [1]. وتقدمه AWS، ضمن سياق إتاحته عبر Amazon Bedrock، كترقية على Opus 4.6 لسير عمل الإنتاج مثل البرمجة الوكيلة، العمل المعرفي، الفهم البصري والمهام طويلة المدى [
7].
لذلك فالسؤال الأدق ليس: ما هو benchmark النموذج؟ بل: أي benchmark يشبه سير العمل الذي تريد تشغيله؟
النتائج الرئيسية المعلنة
| المجال | الاختبار | النتيجة المعلنة | كيف تقرأها؟ |
|---|---|---|---|
| البرمجة والوكلاء | SWE-bench Verified | 87.6% | الرقم الأبرز للمطورين عند تقييم قدرة النموذج على حل مهام برمجية من هذا النوع [ |
| البرمجة والوكلاء | SWE-bench Pro | 64.3% | قراءة مكمّلة لمهام برمجية أصعب أو مختلفة عن SWE-bench Verified [ |
| الوكلاء في الطرفية | Terminal-Bench 2.0 | 69.4% | مهم عندما يتعامل النموذج مع بيئات شبيهة بالطرفية أو مع أدوات تنفيذ [ |
| الوكلاء الماليون | Finance Agent v1.1 | 64.4% | أقرب إلى حالات التحليل أو الأتمتة المالية [ |
| اختبار برمجة داخلي | 93 مهمة | +13% في الحل مقارنة بـ Opus 4.6 | تحسن نسبي في اختبار محدد، وليس وعداً بأن كل مشروع سيتحسن بالنسبة نفسها [ |
| وكيل بحث داخلي | النتيجة العامة | 0.715 | تعرضه Anthropic كأداء قوي في عمل متعدد الخطوات ضمن اختبارها الداخلي لوكيل البحث [ |
| وكيل بحث داخلي | General Finance | 0.813 مقابل 0.767 لـ Opus 4.6 | يشير إلى تحسن على Opus 4.6 في وحدة التمويل العامة ضمن اختبار Anthropic الداخلي [ |
ماذا يعني رقم 87.6% في SWE-bench Verified؟
بالنسبة إلى فرق التطوير التي تقارن نماذج الذكاء الاصطناعي كـ وكلاء برمجة، فإن نتيجة 87.6% في SWE-bench Verified هي العنوان الأوضح في المصادر المتاحة؛ إذ توردها AWS لـ Claude Opus 4.7 [7]. وهذا ينسجم مع وصف Anthropic للنموذج بأنه قوي في الاستدلال المعقد والبرمجة الوكيلة [
1].
لكن هذا لا يعني أن النموذج سيقدم الأداء نفسه في كل مهمة. SWE-bench Verified يقيس نوعاً محدداً من قدرات حل مشكلات البرمجيات. هو مفيد جداً إذا كان عملك قريباً من هذا النمط، لكنه لا يغني عن اختبارات أخرى عندما تكون الحالة الفعلية مرتبطة بالطرفية، الأدوات، التمويل، الرؤية، البحث، أو المهام الطويلة.
لذلك، إذا كنت تختار نموذجاً لوكيل برمجي في منتج حقيقي، فابدأ من SWE-bench Verified، ثم انظر إلى SWE-bench Pro وTerminal-Bench 2.0 قبل اتخاذ قرار نهائي [6][
7].
لماذا قد ترى أرقاماً مختلفة؟
ليست كل المصادر تورد النتيجة نفسها. فهناك مصدر ثانوي يذكر أن Claude Opus 4.7 حقق 82.4% في SWE-bench Verified، بينما تورد AWS نتيجة 87.6% للنموذج نفسه [2][
7]. هذا الفارق مهم، لأن نقل الرقم دون ذكر مصدره قد يضلل القارئ أو الفريق التقني.
القراءة الأكثر أماناً هي أن تذكر دائماً: اسم الاختبار، النتيجة، والمصدر. كما تنبه AWS إلى أن Opus 4.7 قد يحتاج إلى تغييرات في صياغة التعليمات، أو تعديلات في بيئة الاختبار والتشغيل، للحصول على أفضل أداء [7]. بعبارة أبسط: طريقة تشغيل الاختبار قد تؤثر في النتيجة التي تراها.
أي benchmark يهمك فعلاً؟
إذا كان الاستخدام الأساسي هو كتابة الكود وإصلاحه، فنتيجة SWE-bench Verified هي نقطة البداية. لكنها لا تكفي وحدها إذا كان الوكيل سيعمل داخل بيئة أدوات، أو يتعامل مع أوامر طرفية، أو ينفذ خطوات طويلة؛ هنا تصبح نتائج SWE-bench Pro وTerminal-Bench 2.0 أكثر أهمية [6][
7].
أما إذا كان الهدف هو التمويل أو البحث متعدد الخطوات، فالأقرب إلى هذه الصورة هو ما تنشره Anthropic عن اختبارها الداخلي لوكيل البحث: نتيجة عامة 0.715، ونتيجة 0.813 في General Finance مقارنة بـ 0.767 لـ Opus 4.6 في الوحدة نفسها [8]. لكن يجب التعامل مع هذه النتائج بوصفها اختبارات داخلية، لا بديلاً عن تحقق مستقل داخل بيئتك.
وفي حالات سير العمل المؤسسي الطويل، تشير AWS إلى تحسينات في مهام الإنتاج الطويلة، وفهم الالتباس، ودقة اتباع التعليمات، وفقاً لما تنقله عن Anthropic [7]. هنا تصبح التجربة العملية داخل أدواتك، وتعليماتك، وبياناتك، أهم من رقم واحد على لوحة نتائج.
الخلاصة
أقوى رقم مختصر يمكن الاستشهاد به لـ Claude Opus 4.7 هو 87.6% في SWE-bench Verified، خصوصاً عند الحديث عن البرمجة الوكيلة [7]. لكن الصورة الكاملة أوسع: 64.3% في SWE-bench Pro، و69.4% في Terminal-Bench 2.0، و64.4% في Finance Agent v1.1، إلى جانب نتائج داخلية من Anthropic في البحث متعدد الخطوات والتمويل [
7][
8].
الطريقة المسؤولة لمقارنة Claude Opus 4.7 ليست البحث عن أكبر رقم، بل اختيار الاختبار الأقرب إلى عملك الفعلي، ثم تكرار التجربة بإعداداتك أنت: التعليمات، الأدوات، وبيئة التشغيل. عندها فقط يصبح benchmark مؤشراً عملياً، لا مجرد عنوان جذاب.




