الاختيار العملي هنا لا يبدأ بسؤال: أي نموذج هو الأقوى؟ بل بسؤال أدق: ما نوع العمل الذي تريد إنجازه، وكم ستدفع مقابل كل مليون رمز؟ الأرقام المتاحة ترسم أربع شخصيات مختلفة: Claude Opus 4.7 عندما تكون الجودة أهم من التكلفة، GPT-5.5 عندما تهمك مهام الترمينال واستمرارية العمل داخل ChatGPT أو Codex، Kimi K2.6 عندما تريد أداء برمجياً جيداً بسعر منخفض، وDeepSeek V4 عندما تحتاج عدداً كبيراً من النداءات مع سياق طويل [3][
4][
7][
16].
لكن لا تقرأ الجداول كحكم نهائي. بعض النتائج تأتي مع أدوات، وبعضها بلا أدوات، وبعضها يستخدم أوضاع جهد أو تفكير مختلفة، كما أن الأسماء التجارية نفسها تضم أحياناً أكثر من متغير [3][
6][
14][
16].
القرار في دقيقة
| الأولوية | جرّبه أولاً | الإشارة الأهم |
|---|---|---|
| أعلى جودة في المهام الصعبة | Claude Opus 4.7 | يتقدم في أرقام HLE القابلة للمقارنة أمام GPT-5.5 وDeepSeek، وتضعه CodeRouter أولاً في SWE-Bench Pro بنسبة 64.3% [ |
| الترمينال، الوكلاء، وبيئة OpenAI | GPT-5.5 | VentureBeat تورد له 82.7% في Terminal-Bench 2.0، أعلى من Claude Opus 4.7 وDeepSeek V4، كما تربطه إحدى الأدلة العملية بتدفقات ChatGPT وCodex [ |
| برمجة قوية بسعر منخفض | Kimi K2.6 | CodeRouter يضعه عند 58.6% في SWE-Bench Pro، متعادلاً مع GPT-5.5، وبسعر $0.60/$4.00 لكل مليون رمز إدخال/إخراج [ |
| حجم استخدام كبير وسياق طويل رخيص | DeepSeek V4-Pro أو V4 Flash | V4-Pro مذكور بسعر $1.74/$3.48 لكل مليون رمز وبسياق 1M، بينما يظهر V4 Flash بسعر $0.14/$0.28 وسياق 1M، مع ضرورة التعامل معه كمتغير مختلف [ |
| مسار موثق للاستضافة الذاتية | Kimi K2.6 | Verdent تذكر أن أوزان K2.6 موجودة على Hugging Face ويمكن تشغيلها عبر vLLM أو SGLang أو KTransformers [ |
ماذا تقول اختبارات الأداء؟
اختبار Humanity’s Last Exam، أو HLE، هو معيار أكاديمي متعدد الوسائط يضم 2500 سؤال في الرياضيات والعلوم الإنسانية والعلوم الطبيعية، ويستهدف قياس قدرات النماذج على أسئلة صعبة ذات إجابات قابلة للتحقق [15]. أما SWE-Bench Pro فيقيس قدرات هندسة البرمجيات على مشكلات GitHub واقعية ومتعددة اللغات، وفق الوصف الذي تنقله DocsBot [
18]. ويظهر Terminal-Bench 2.0 في تقرير VentureBeat ضمن نتائج الوكلاء وهندسة البرمجيات [
3].
| الاختبار | القراءة العملية | الأرقام المتاحة |
|---|---|---|
| HLE بلا أدوات | Claude Opus 4.7 يتصدر بين النماذج الثلاثة الموجودة في جدول VentureBeat القابل للمقارنة. | Claude Opus 4.7: 46.9%؛ GPT-5.5: 41.4%؛ DeepSeek V4: 37.7%. لا يظهر Kimi K2.6 في هذا المقتطف القابل للمقارنة [ |
| HLE مع الأدوات | Claude يبقى أعلى من GPT-5.5 وDeepSeek في جدول VentureBeat؛ Kimi لديه رقم منافس لكن من مصدر آخر. | Claude Opus 4.7: 54.7%؛ GPT-5.5: 52.2%؛ DeepSeek V4: 48.2% في VentureBeat. CodeRouter يورد لـ Kimi K2.6 رقم 54.0 في HLE مع الأدوات، لكنه ليس من الجدول نفسه [ |
| SWE-Bench Pro | Claude في الصدارة، ثم GPT-5.5 وKimi في مجموعة ثانية، وDeepSeek قريب لكنه أدنى. | CodeRouter تورد Claude Opus 4.7 عند 64.3%، وGPT-5.5 وKimi K2.6 عند 58.6%، وDeepSeek V4-Pro حول 55%؛ وتورد VentureBeat رقماً قدره 55.4% لـ DeepSeek [ |
| Terminal-Bench 2.0 | أقوى حجة رقمية لصالح GPT-5.5 في البيانات القابلة للمقارنة. | GPT-5.5: 82.7%؛ Claude Opus 4.7: 69.4%؛ DeepSeek V4: 67.9%. لا توجد في المقتطف المتاح نتيجة لـ Kimi K2.6 [ |
الخلاصة من هذه الأرقام: Claude Opus 4.7 يعطي أقوى إشارة جودة عامة، GPT-5.5 يتفوق بوضوح في Terminal-Bench 2.0، Kimi K2.6 يلمع في معادلة السعر مقابل الأداء البرمجي، وDeepSeek V4 يصبح أكثر جاذبية عندما تكون الكلفة ونافذة السياق في مقدمة القرار [3][
4][
16].
السعر ونافذة السياق: الاختبار لا يدفع الفاتورة
في وكلاء الذكاء الاصطناعي التي تجري عشرات أو مئات النداءات، قد يصبح سعر الرمز أهم من فرق صغير في لوحة الصدارة. المصادر المتاحة تضع Kimi K2.6 وDeepSeek V4 في خانة الأسعار الهجومية، بينما يبقى GPT-5.5 وClaude Opus 4.7 أقرب إلى الفئة الممتازة [4][
16][
19].
| النموذج أو المتغير | السعر المذكور | نافذة السياق المذكورة | ملاحظة |
|---|---|---|---|
| Claude Opus 4.7 | $5 إدخال / $25 إخراج لكل 1M رمز في Artificial Analysis [ | 1M رمز، مع حد إخراج أقصى 128K رمز [ | Artificial Analysis تصفه أيضاً بأنه من النماذج الرائدة في الذكاء، لكنه مكلف وبطيء ويميل إلى الإسهاب [ |
| GPT-5.5 | $5 إدخال / $30 إخراج لكل 1M رمز في CodeRouter [ | 1M رمز [ | يناسبك أكثر إذا كنت تعمل أصلاً داخل ChatGPT أو Codex، أو إذا كان رقم Terminal-Bench حاسماً لديك [ |
| Kimi K2.6 | $0.60 إدخال / $4.00 إخراج لكل 1M رمز في CodeRouter [ | 256K رمز [ | Artificial Analysis تعرض أيضاً 256K سياقاً لـ Kimi مقابل 1000K لـ Claude Opus 4.7 في مقارنة مباشرة [ |
| DeepSeek V4-Pro | $1.74 إدخال / $3.48 إخراج لكل 1M رمز في CodeRouter [ | 1M رمز [ | خيار جذاب للحجم الكبير بسعر منخفض وسياق طويل، مع أنه لا يتصدر HLE أو SWE-Bench Pro في الأرقام المتاحة [ |
| DeepSeek V4 Flash | $0.14 إدخال / $0.28 إخراج لكل 1M رمز في CodeRouter [ | 1M رمز [ | هذا متغير مختلف؛ لا يصح نقل نتائج V4-Pro أو V4-Pro-Max إليه تلقائياً [ |
هناك نقطة تستحق الانتباه في Claude: بطاقة Artificial Analysis الخاصة به تذكر $5/$25 وسياق 1M، بينما يستخدم جدول CodeRouter الخاص بمقارنة Kimi قيماً أخرى لـ Claude [16][
19]. عند إعداد ميزانية إنتاجية، لا تعتمد على مقالة أو لوحة صدارة فقط؛ ارجع إلى سعر مزود الخدمة والعقد الحاليين.
أي نموذج يناسب حالتك؟
اختر Claude Opus 4.7 إذا كان الخطأ مكلفاً
Claude Opus 4.7 هو أول نموذج يستحق التجربة عندما تكون المهمة مراجعة كود معقدة، أو تحليلاً طويلاً، أو عملاً يكون فيه اكتشاف العيوب الخفية أغلى من توفير الرموز. السبب هو تقدمه في HLE أمام GPT-5.5 وDeepSeek، وصدارة SWE-Bench Pro وفق CodeRouter، وتقييم Artificial Analysis الذي يضعه بين النماذج الرائدة في الذكاء مع التنبيه إلى التكلفة والبطء والإسهاب [3][
14][
16]. كما تذكر Artificial Analysis أنه متاح عبر واجهة Anthropic البرمجية، وAmazon Bedrock، وMicrosoft Azure، وGoogle Vertex [
19].
اختر GPT-5.5 إذا كان عملك يدور حول OpenAI أو الترمينال
GPT-5.5 لا يتجاوز Claude Opus 4.7 في HLE ضمن بيانات VentureBeat، لكنه يملك أفضل نتيجة مذكورة في Terminal-Bench 2.0: 82.7% مقابل 69.4% لـ Claude Opus 4.7 و67.9% لـ DeepSeek V4 [3]. إذا كان فريقك يعمل بالفعل في ChatGPT أو Codex، فإحدى الأدلة العملية تقدمه كمسار طبيعي قبل الانتقال الكامل إلى مزود آخر [
7].
اختر Kimi K2.6 إذا أردت أداء برمجياً جيداً بتكلفة أقل
Kimi K2.6 هو أوضح حالة سعر مقابل أداء في المصادر المتاحة: CodeRouter تضعه متعادلاً مع GPT-5.5 في SWE-Bench Pro عند 58.6%، وتذكر سعره عند $0.60/$4.00 لكل مليون رمز [16]. نافذة سياقه البالغة 256K أصغر من 1M المذكورة لـ GPT-5.5 وDeepSeek V4-Pro في الجدول نفسه، لكنها قد تكون كافية إذا كان مستودعك أو سير عملك البرمجي يلائم هذا الحجم [
16]. وإذا كنت تحتاج تشغيل الأوزان لديك، تذكر Verdent أن K2.6 موجود على Hugging Face ويعمل مع vLLM أو SGLang أو KTransformers، مع 4× H100 كحد أدنى عملي لنسخة INT4 بسياق مخفض [
5].
اختر DeepSeek V4 إذا كان الحجم والسياق أهم من الصدارة
DeepSeek V4 Pro/Pro-Max يأتي خلف Claude Opus 4.7 وGPT-5.5 في HLE وTerminal-Bench 2.0 وSWE-Bench Pro ضمن أرقام VentureBeat، لكنه يجمع بين سعر أقل وسياق 1M، ما يجعله مرشحاً قوياً لخطوط العمل ذات الحجم الكبير [3][
16]. وإذا كان الهدف هو أقل تكلفة ممكنة، يظهر V4 Flash أرخص بكثير في CodeRouter، لكن يجب التعامل معه كمتغير منفصل لا كنسخة مطابقة لـ V4-Pro [
4][
16].
قبل أن تنتقل: حدود المقارنة
- ليست كل الأرقام من الإعداد نفسه. بعض نتائج HLE تأتي مع الأدوات وبعضها بلا أدوات، ومصادر أخرى تستخدم أوضاعاً مثل high effort أو max effort أو thinking [
3][
6][
14][
16].
- المتغيرات مهمة. GPT-5.5 ليس بالضرورة GPT-5.5 Pro، وDeepSeek V4-Pro وV4-Pro-Max وV4 Flash ليست اسماً واحداً يمكن خلط نتائجه بلا حذر [
3][
4][
16].
- الأسعار ولوحات الصدارة تتقادم بسرعة. Verdent تنبه إلى أن هذه الأرقام قد تصبح قديمة سريعاً في بيئة إطلاقات متواصلة [
5].
- تجربتك الفعلية هي الحكم. الدليل العملي الأفضل هو تشغيل المهمة نفسها على أكثر من نموذج قبل تغيير المسار، لا اختيار النموذج صاحب الإطلاق الأعلى ضجيجاً [
7].
الخلاصة
إذا كانت الجودة هي كل شيء، ابدأ بـ Claude Opus 4.7. إذا كانت مهامك تدور حول الترمينال أو الوكلاء أو بيئة OpenAI، جرّب GPT-5.5 أولاً. إذا أردت برمجة تنافسية بتكلفة منخفضة، فـ Kimi K2.6 يستحق الاختبار المبكر. وإذا كان عنق الزجاجة هو حجم النداءات والسياق الطويل بتكلفة أقل، فاختبر DeepSeek V4-Pro أو V4 Flash مع قبول أنهما لا يتصدران أصعب الاختبارات في المصادر المتاحة [3][
4][
7][
16][
19].




