يحافظ أوبوس 4.8 أيضاً على تسعيرة أوبوس 4.7 - دون أي زيادة على الرغم من المكاسب الكبيرة في الاختبارات القياسية . وعلى النقيض، ضاعف GPT-5.5 سعر واجهة برمجة التطبيقات (API) عن سابقه GPT-5.4، رغم أن OpenAI تقول إن تحسينات كفاءة الرموز تجعل الزيادة الفعلية في التكلفة أقرب إلى 20%
.
تدعم جميع النماذج الثلاثة التخزين المؤقت الفوري مع توفير يصل إلى 90% على رموز الإدخال المخزنة، وتقدم معالجة مجمعة بخصم 50% .
يحتوي GPT-5.5 أيضاً على فئة Pro بسعر 30/180 دولاراً لكل مليون رمز، تستهدف مهام البحث المتقدم . لا يملك كلود أوبوس فئة مكافئة.
المقارنات المباشرة بين النماذج معقدة بسبب اختلاف إصدارات الاختبارات وبروتوكولات الاختبار. ولكن حيثما تتوفر النتائج على نفس الاختبار، يتقدم أوبوس 4.8 على GPT-5.5 في المجالات التي تهم المطورين أكثر.
| الاختبار | Opus 4.8 | Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| SWE-bench Verified (برمجة) | 88.6% | 87.6% | لا يمكن مقارنته مباشرة |
| SWE-bench Pro (برمجة وكيلة) | 69.2% | 64.3% | 58.6% |
| Terminal-Bench 2.1 | 74.6% | — | — |
| Terminal-Bench 2.0 | — | 69.4% | 82.7% |
| التفكير متعدد التخصصات (بأدوات) | 57.9% | 54.7% | لا يمكن مقارنته مباشرة |
| التفكير متعدد التخصصات (بدون أدوات) | ~62.1% | — | — |
| GPQA Diamond (علوم مستوى دراسات عليا) | 93.6% | 94.2% | — |
| MMLU (معرفة عامة واسعة) | — | 91.3% | — |
| AIME 2024 (رياضيات تنافسية) | — | 99.8% | — |
| CursorBench | الأعلى | الأساس | — |
| GDPval-AA (عمل معرفي) | 1890 | 1753 | 1769 |
| Super-Agent (وكيل شامل) | 100% | — | لم يحقق 100% |
| استخدام الحاسوب الوكيل | 83.4% | 82.8% | 78.7% |
SWE-bench Pro هو الاختبار الأكثر استشهاداً لمهام هندسة البرمجيات في العالم الحقيقي. يسجل أوبوس 4.8 نسبة 69.2% مقابل 58.6% لـ GPT-5.5 - أي تقدم بـ 10.6 نقاط مئوية . كان أوبوس 4.7 متقدماً بالفعل بنسبة 64.3%، ويوسع أوبوس 4.8 هذا التفوق. يسلط إعلان أنثروبيك الضوء على إكمال أسرع للمهام وأخطاء برمجية أقل بأربع مرات مقارنة بالنماذج السابقة
.
هذا الاختبار يتطلب قراءة متأنية. يعلن GPT-5.5 عن 82.7% على Terminal-Bench 2.0 ، بينما تم قياس 74.6% لأوبوس 4.8 على Terminal-Bench 2.1، وهو إصدار أحدث
. الاثنان غير قابلين للمقارنة المباشرة. إضافة لذلك، واجه ادعاء OpenAI بنسبة 82.7% تدقيقاً؛ حيث أظهرت لوحة متصدرين مالك الاختبار 82.0% ± 2.2 في اليوم نفسه
. سجل أوبوس 4.7 نسبة 69.4% على Terminal-Bench 2.0
، ووجدت اختبارات مستقلة باستخدام أطر عمل مختلفة أن أداء GPT-5.5 أحياناً أقل من GPT-5.4 في هذا الاختبار
.
في GDPval-AA، وهو تقييم للعمل المعرفي، يحقق أوبوس 4.8 درجة Elo تبلغ 1890 مقارنة بـ 1769 لـ GPT-5.5 - وهو تفوق بنسبة 7% تقريباً . كما أن أوبوس 4.8 هو أول نموذج يحقق معدل إكمال 100% على اختبار Super-Agent من أنثروبيك، مما يعني أنه نفذ بنجاح كل مهمة وكيلة شاملة في مجموعة الاختبار
. لم يصل GPT-5.5 إلى 100%.
في استخدام الحاسوب الوكيل (OSWorld-Verified)، تتقارب النتائج: أوبوس 4.8 بنسبة 83.4%، و GPT-5.5 بنسبة 78.7%، وأوبوس 4.7 بنسبة 82.8% . هذه تحسينات تقاس بنقاط أحادية، وليست قفزات جيلية.
تغطية اختبارات GPT-5.5 أقل في الاختبارات المشتركة التي نشرتها أنثروبيك مع أوبوس 4.8، ويرجع ذلك جزئياً إلى تركيز OpenAI على مقاييس مختلفة. في GPQA Diamond (التفكير العلمي بمستوى دراسات عليا)، حقق أوبوس 4.7 نسبة 94.2% ، بينما أظهرت مقارنات سابقة أن GPT-5.4 كان له تفوق طفيف على أوبوس 4.7 في التفكير الرياضي البحت وبعض اختبارات استدعاء المعرفة
. لا تتوفر مقارنة مباشرة في GPQA بين أوبوس 4.8 و GPT-5.5 بعد، على الرغم من تسجيل أوبوس 4.8 لنسبة 93.6%
.
تدعي OpenAI أيضاً أن GPT-5.5 يستخدم رموز إخراج أقل بنسبة 40% تقريباً لكل مهمة برمجية مقارنة بـ GPT-5.4، مما قد يعوض جزئياً عن سعره الأعلى لكل رمز في بعض مهام العمل .
| المواصفة | Opus 4.8 | Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| نافذة السياق | 1 مليون رمز | 1 مليون رمز | 1 مليون رمز |
| الوضع السريع | سرعة 2.5× ($10/$50) | سرعة 2.5× ($10/$50) | غير متاح |
| تاريخ الإطلاق | 28 مايو، 2026 | 16 أبريل، 2026 | 23 أبريل، 2026 |
| خصم الدفعات | 50% | 50% | 50% (مرن) |
| التخزين المؤقت الفوري | نعم (خصم حتى 90%) | نعم (خصم حتى 90%) | نعم (خصم 90%) |
تلتقي جميع النماذج الثلاثة عند نافذة سياق تبلغ مليون رمز، على الرغم من أن أنثروبيك توثق أن أقصى إخراج لأوبوس 4.8 هو 128 ألف رمز لكل طلب . أقصى إخراج لـ GPT-5.5 مدرج عند 32 ألف رمز
.
الوضع السريع من كلود اختياري ويعمل بسرعة 2.5 ضعف تقريباً. تقول أنثروبيك أن الوضع السريع لأوبوس 4.8 أرخص بثلاث مرات من الاستدلال السريع على أجيال أوبوس السابقة . لا يقدم GPT-5.5 فئة سرعة ممتازة مكافئة.
ينبغي قراءة الاختبارات المستقلة مع وضع حدودها في الاعتبار:
اختر Claude Opus 4.8 إذا: كانت البرمجة الوكيلة، أو مهام استخدام الحاسوب، أو العمل المعرفي، أو العمليات ذات السياق الطويل تهيمن على عبء عملك. إنه يتصدر في كل اختبار مشترك حيث المقارنات ممكنة، والتسعير لم يتغير عن أوبوس 4.7.
اختر GPT-5.5 إذا: كنت مندمجاً بعمق في منظومة OpenAI، أو تعطي أولوية للتفكير الرياضي البحت، أو تتوقع أن تعوض مكاسب كفاءة الرموز عن السعر الأعلى لكل رمز في أنماط أوامرك المحددة.
ابقَ على Opus 4.7 إذا: كنت تريد برمجة وكيلة بمستوى الطليعة (64.3% في SWE-bench Pro لا تزال متقدمة بفارق كبير عن GPT-5.5) ولا تحتاج المكاسب المحددة التي يجلبها أوبوس 4.8 - ولكن نظراً لتطابق السعر، ليس هناك سبب وجيه لعدم الترقية.
بالنسبة للمطورين الذين يشغلون وكلاء ذوي مخرجات كثيفة أو تحليل مستندات طويلة، فإن سعر الإخراج الأرخص بنسبة 17% وأسعار السياق الطويل الثابتة لكلود أوبوس يحدثان فرقاً ملموساً في فواتير API الشهرية.
Comments
0 comments