هذه بالضبط صفات تبحث عنها الفرق عند بناء وكلاء مستقلين أو شبه مستقلين: انحراف أقل عن التعليمات، التزام أفضل بالقيود، وأخطاء يمكن تجنبها بدرجة أكبر خلال سير العمل الطويل.
لكن هذا الدليل له سقف واضح: إنه دليل إطلاق صادر عن الشركة المطوّرة. يوضح كيف تريد Anthropic وضع النموذج في السوق، لكنه لا يثبت وحده أن Opus 4.7 يتفوق على كل البدائل الرائدة في اختبارات طويلة محايدة.
الوكلاء طويلة الأمد غالباً يحتاجون إلى إبقاء كمية كبيرة من المعلومات حاضرة: قاعدة شيفرة، مستندات، سجلات تنفيذ، مخرجات أدوات، قرارات سابقة، وقيود المشروع. كل من Anthropic وMicrosoft يذكران أن Opus 4.7 يدعم نافذة سياق بحجم 1M رمز، وهذا يجعله مرشحاً منطقياً لمهام كبيرة ومستمرة.
مع ذلك، لا ينبغي الخلط بين سعة السياق وموثوقية السياق. النموذج قد يستوعب كثيراً من المعلومات، لكن الاختبار الحقيقي هو: هل يستخرج المعلومة الصحيحة ويطبقها بدقة بعد خطوات كثيرة وتغييرات متتابعة؟
أقوى إشارة رقمية في المواد المذكورة تأتي من Applied AI كما ورد في مواد Anthropic. فقد قالت Applied AI إن Opus 4.7 تعادل على أعلى نتيجة إجمالية في معيارها الداخلي لوكيل بحث مكوّن من ست وحدات عند 0.715، ورفع نتيجة وحدة General Finance إلى 0.813 مقارنةً بـ0.767 لـ Opus 4.6، كما أظهر أكثر أداء طويل السياق اتساقاً بين ما اختبرته.
وتظهر تقارير شركاء أخرى في الاتجاه نفسه. Sourcegraph تحدثت عن نتائج قوية في سير العمل غير المتزامن، والأتمتة، وعمليات CI/CD، والمهام طويلة التشغيل. وذكرت Cognition أن Opus 4.7 يعمل بتماسك لساعات داخل Devin ويمكّن من تحقيقات أعمق مما كان ممكناً بصورة موثوقة من قبل.
هذه الإشارات مهمة لأنها تأتي من بيئات تعتمد فعلاً على الوكلاء. لكنها تبقى، في الوقت نفسه، تقارير شركاء أو معايير داخلية معروضة عبر مواد Anthropic، وليست حزمة اختبارات عامة واسعة يديرها طرف محايد.
بعض التغطية العامة للمعايير تدعم فكرة أن Opus 4.7 قوي في مهارات قريبة من العمل الوكيلي. فشرح Vellum يتناول فئات مثل SWE-bench Verified وSWE-bench Pro وTerminal-Bench 2.0 وMCP-Atlas لاستخدام الأدوات على نطاق واسع. كما يورد LLM Stats أن Opus 4.7 حقق 87.6% على SWE-bench Verified و94.2% على GPQA، إلى جانب دعم سياق بحجم 1M رمز.
هذه الأرقام مهمة لأن البرمجة، والاستدلال، واستخدام الطرفية، واستدعاء الأدوات غالباً ما تكون داخل سير عمل الوكلاء. لكنها لا تجيب وحدها عن السؤال الأصعب: هل يستطيع الوكيل العمل لساعات أو أيام مع حالة متغيرة، واستدعاءات أدوات متكررة، وإخفاقات جزئية، ومحاولات إصلاح بعد قرارات خاطئة؟
إذا كان عبء العمل لديك يتضمن برمجة ذاتية، أو وكلاء بحث، أو أتمتة مؤسسية، أو تحقيقات CI/CD، أو تحليلاً متعدد الخطوات للمستندات، فإن Opus 4.7 يستحق تجربة جدية بناءً على تموضعه العام وتقارير الشركاء المنشورة.
لكن التجربة الجيدة لا تكون بسؤالين سريعَين في واجهة محادثة. في مهام الوكلاء طويلة الأمد، يجب مقارنة Opus 4.7 بالنماذج المنافسة تحت الشروط نفسها، مثل:
ولا يكفي قياس جودة الإجابة النهائية فقط. راقبوا معدل إنجاز المهمة، وفشل استدعاءات الأدوات، والانحراف عن التعليمات، وأخطاء الاحتفاظ بالسياق، والقدرة على التعافي بعد مسار خاطئ، وعدد مرات تسليم المهمة إلى إنسان، والزمن المنقضي، والتكلفة لكل مهمة ناجحة.
Claude Opus 4.7 يبدو قوياً جداً كمرشح لوكلاء الذكاء الاصطناعي طويلة الأمد. دعم سياق 1M، وتموضع Anthropic الصريح، ووصف Microsoft Foundry، وتقارير الشركاء المنشورة عبر Anthropic كلها تشير إلى نموذج جاد في فئة النماذج المتقدمة للعمل الوكيلي.
لكن الأدلة لا تكفي بعد لادعاء أقوى من ذلك. بناءً على المصادر العامة المتاحة هنا، Opus 4.7 نموذج يجب اختباره بجدية في الوكلاء طويلة التشغيل، لكنه ليس فائزاً مثبتاً بصورة قاطعة عبر معايير مستقلة واسعة لمهام تمتد لساعات أو أيام.
Comments
0 comments