studioglobal
الأكثر رواجًا في الاكتشاف
الإجاباتمنشور7 المصادر

GPT-5.4 وGPT-5.3-Codex وClaude Opus 4.6: من الأفضل للبرمجة؟

لا يوجد فائز واحد لكل مهام البرمجة: Claude Opus 4.6 يملك أقوى إشارة في SWE Bench Verified بنطاق يقارب 79–81%، بينما يظهر GPT 5.3 Codex كأقوى خيار من OpenAI في مقارنات Terminal Bench 2.0 المذكورة [1][3][5][7][9]. ابدأ بـ Claude Opus 4.6 لإصلاح أخطاء المستودعات على نمط SWE Bench Verified، وجرّب GPT 5.3 Codex في وكلاء...

4.5K0
Abstract comparison of AI coding models on a benchmark leaderboard
GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: The Coding Winner Depends on the BenchmarkBenchmark results point to different winners depending on the test variant and agent harness.
موجّه الذكاء الاصطناعي

Create a landscape editorial hero image for this Studio Global article: GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: The Coding Winner Depends on the Benchmark. Article summary: There is no universal coding winner: Claude Opus 4.6 has the strongest reported SWE Bench Verified signal at about 79 81%, GPT 5.3 Codex leads the cited Terminal Bench 2.0 comparison at 77.3%, and GPT 5.4's same sourc.... Topic tags: ai, ai benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "gpt-5.4 vs opus 4.6. # GPT-5.4 vs Claude Opus 4.6: Which One Is Better for Coding? OpenAI has launched GPT-5.4, the latest iteration of its GPT-5 family, and, as per them, it’s the" source context "GPT-5.4 vs Claude Opus 4.6: Which One Is Better for Coding? - Bind AI" Reference image 2: visual subject "gpt-5.4 vs opus 4.6. # GPT-5.4 vs Claude Opus 4.6: Whic

openai.com

إذا كنت تبحث عن اسم واحد تقول عنه إنه أفضل نموذج للبرمجة، فالأرقام المتاحة لا تساعدك على هذا الاختصار. الصورة الأقرب للواقع هي أن Claude Opus 4.6 يبدو الأقوى في SWE-Bench Verified، وأن GPT-5.3-Codex هو خيار OpenAI الأبرز في مهام Terminal-Bench 2.0 داخل التقارير المذكورة، بينما تبدو مكاسب GPT-5.4 المباشرة في البرمجة محدودة وليست قفزة فاصلة [1][3][5][7][9].

المهم هنا ليس الرقم وحده، بل طريقة القياس. اختبارات SWE-Bench لها نسخ ومتغيرات مختلفة، ونتائج Terminal-Bench العامة تقيس غالبًا زوجًا من الوكيل والنموذج، لا النموذج وحده [1][6][7][10]. لذلك فالسؤال الأدق ليس: من الأفضل؟ بل: من الأفضل لنوع عملك؟

الخلاصة السريعة: اختر حسب المهمة

نوع العملالنموذج الأول الذي يستحق التجربةالدليلالتحفظ الأساسي
إصلاح أخطاء مستودعات برمجية على نمط SWE-Bench VerifiedClaude Opus 4.6التقارير تضع Opus 4.6 تقريبًا بين 79.2% و80.8% على SWE-Bench Verified [3][5][7][9].لا تقارن هذه النتيجة مباشرة بنتائج SWE-Bench Pro Public كأنهما الاختبار نفسه [6][7][10].
وكلاء برمجة يعملون عبر الطرفية وسطر الأوامرGPT-5.3-Codex، مع تثبيت إطار تشغيل الوكيلمقارنة تركز على GPT-5.4 تضع GPT-5.3-Codex عند 77.3% في Terminal-Bench 2.0، متقدمًا على GPT-5.4 عند 75.1% وClaude Opus 4.6 عند 65.4% [3].لوحة Terminal-Bench العامة ترتب أزواج وكيل/نموذج؛ Claude Opus 4.6 يصل إلى 79.8% مع ForgeCode هناك [1].
اختيار نموذج من عائلة OpenAI فقطGPT-5.4، لكن بتوقعات واقعيةالتقرير نفسه يضع GPT-5.4 عند 57.7% في SWE-Bench Pro مقابل 56.8% لـ GPT-5.3-Codex [3].في Terminal-Bench 2.0 يظهر GPT-5.4 أقل من GPT-5.3-Codex في المقارنة نفسها [3].
أنظمة كثيرة الأدوات تعتمد على MCPGPT-5.4 يستحق اختبارًا مستقلًاتحليل GPT-5.4 يقول إن ميزة البحث عن الأدوات تخفض استخدام رموز MCP بنسبة 47% عبر تحميل تعريفات الأدوات عند الحاجة [3].تقليل الرموز ليس هو نفسه الفوز في اختبار إصلاح الأخطاء أو مهام الطرفية [3].

أين يقع فخ المقارنة؟

SWE-Bench Verified ليس SWE-Bench Pro Public

أقوى حجة لصالح Claude Opus 4.6 تأتي من SWE-Bench Verified. الأرقام المذكورة في المصادر تضعه عند 79.2% أو 79.4% أو 80.8% في هذا المتغير من الاختبار [3][5][7][9].

أما GPT-5.3-Codex فقراءته أصعب؛ لأن المصادر لا تستخدم دائمًا السطر نفسه من SWE-Bench. تحليل GPT-5.4 يذكر GPT-5.3-Codex عند 56.8% في SWE-Bench Pro، بينما تذكر مقارنات أخرى بين Opus وCodex نتيجة 78.2% لـ GPT-5.3-Codex على SWE-Bench Pro Public [3][6][7]. هذا ليس سببًا لأخذ متوسط بسيط بين الرقمين، بل تنبيه إلى أن الاختبارات مختلفة. عدة مصادر تؤكد أن SWE-Bench Verified وSWE-Bench Pro Public لا يصلحان للمقارنة المباشرة [6][7][10].

بالنسبة إلى GPT-5.4، أوضح تفوق مباشر له داخل OpenAI في هذه المصادر يبدو صغيرًا: 57.7% في SWE-Bench Pro مقابل 56.8% لـ GPT-5.3-Codex في التحليل نفسه [3]. وهناك ملخص آخر يشير إلى رقم 57.7% لـ GPT-5.4 في SWE-Bench Pro Public، مع التحذير نفسه من أن مقارنة Claude وGPT هنا ليست مقارنة متكافئة تمامًا [10].

Terminal-Bench يقيس الوكيل والنموذج معًا

قراءة Terminal-Bench 2.0 تحتاج حذرًا خاصًا. لوحة النتائج العامة تعرض أزواجًا من الوكيل والنموذج، لا أداء النموذج الأساسي وحده [1]. في هذه اللوحة، يظهر GPT-5.3-Codex عند 78.4% مع SageAgent، و77.3% مع Droid، و75.1% مع Simple Codex [1]. ويظهر Claude Opus 4.6 عند 79.8% مع ForgeCode، و75.3% مع Capy، و62.9% مع Terminus 2 [1].

هذا الفارق داخل النموذج نفسه كافٍ لتغيير الفائز الظاهر. مقارنة GPT-5.4 تضع GPT-5.3-Codex أمام Claude Opus 4.6 في Terminal-Bench 2.0 بنتيجة 77.3% مقابل 65.4% [3]. لكن لوحة النتائج العامة تعرض إدخال ForgeCode/Claude Opus 4.6 عند 79.8%، أي أعلى من إدخال SageAgent/GPT-5.3-Codex عند 78.4% [1]. الخلاصة العملية: لا تحكم على نموذج في مهام الطرفية إلا بعد تثبيت إطار الوكيل أو اختباره ضمن البيئة نفسها.

قراءة كل نموذج على حدة

Claude Opus 4.6: أقوى إشارة لإصلاح أخطاء المستودعات

إذا كان معيارك الأقرب إلى الواقع هو SWE-Bench Verified، فإن Claude Opus 4.6 هو نقطة البداية الأفضل دعمًا في هذه المصادر. نتائجه المعلنة أو المذكورة تدور حول 79% إلى 81%: 79.2% في تحليل GPT-5.4، و79.4% في مقارنات Opus وCodex، و80.8% في جولات معيارية أخرى [3][5][6][7][9].

لكن هذا لا يعني أنه ينتصر في كل أنواع البرمجة. قصته في Terminal-Bench مختلطة: بعض المقارنات تذكر 65.4%، بينما تعرض اللوحة العامة 79.8% عندما يقترن Opus 4.6 بـ ForgeCode و62.9% مع Terminus 2 [1][3][7][9]. لذلك هو خيار أول آمن لاختبارات إصلاح المستودعات على نمط Verified، لا بطلًا مطلقًا لكل سيناريو.

GPT-5.3-Codex: أقوى حجة من OpenAI في وكلاء الطرفية

تبرز قيمة GPT-5.3-Codex عندما تشبه المهمة عمل وكيل يقرأ الطرفية، ينفذ أوامر، يعدل ملفات، ويكرر المحاولة. التقارير تذكره عند 77.3% في Terminal-Bench 2.0، ولوحة النتائج العامة تضعه عند 78.4% مع SageAgent، و77.3% مع Droid، و75.1% مع Simple Codex [1][3][7][9].

أما في SWE-Bench، فالصورة تحتاج ضبطًا أدق. بعض المصادر تذكر GPT-5.3-Codex عند 78.2% في SWE-Bench Pro Public، بينما تذكر مصادر أخرى 56.8% في SWE-Bench Pro [3][6][7][9]. وبما أن المصادر نفسها تنبه إلى أن المتغيرات ليست قابلة للتبديل المباشر، فمن الأفضل تقييم GPT-5.3-Codex داخل نسخة الاختبار والإعداد الذي ستستخدمه فعليًا [6][7][10].

GPT-5.4: تحسن محدود في البرمجة، وزاوية أوضح في الأدوات

لا تبدو أرقام GPT-5.4 في هذه المجموعة كقفزة ساحقة في البرمجة. المقارنة المباشرة داخل المصدر نفسه تمنحه تقدّمًا ضيقًا في SWE-Bench Pro على GPT-5.3-Codex، 57.7% مقابل 56.8%، لكنها تضعه أدنى منه في Terminal-Bench 2.0، 75.1% مقابل 77.3% [3].

النقطة الأكثر تميزًا في GPT-5.4 هنا ليست حل الأخطاء بحد ذاته، بل استخدام الأدوات. تحليل GPT-5.4 يقول إن البحث عن الأدوات يخفض استخدام رموز MCP بنسبة 47% عبر تحميل تعريفات الأدوات عند الحاجة بدل وضع كل التعريفات في السياق منذ البداية [3]. في وكلاء البرمجة كثيفة الأدوات قد يكون ذلك مهمًا، لكنه يحتاج قياسًا منفصلًا عن دقة حل المسائل البرمجية.

كيف تقارنها من دون أن تخدعك الأرقام؟

  1. حدد نسخة الاختبار أولًا. لا تضع SWE-Bench Verified وSWE-Bench Pro وSWE-Bench Pro Public في جدول واحد كأنها مقياس واحد [6][7][10].
  2. ثبّت إطار الوكيل في مهام الطرفية. لوحة Terminal-Bench 2.0 العامة توضح أن النموذج نفسه قد يحصل على نتائج مختلفة بوضوح حسب الوكيل المرافق له [1].
  3. افصل بين دقة البرمجة وكفاءة الأدوات. خفض رموز MCP بنسبة 47% في GPT-5.4 قد يكون مفيدًا للأنظمة كثيفة الأدوات، لكنه ليس ادعاءً بالفوز في SWE-Bench أو Terminal-Bench [3].
  4. تعامل مع الترتيبات المختلطة كإشارات اتجاهية. المصادر تدعم فائزين مختلفين تحت اختبارات مختلفة، وهذا بالضبط سبب خطورة إعلان ترتيب عالمي واحد [1][3][6][7][10].

الخلاصة

ابدأ بـ Claude Opus 4.6 إذا كان عملك يشبه إصلاح أخطاء مستودعات ضمن SWE-Bench Verified، وأبقِ GPT-5.3-Codex حاضرًا في أي اختبار لوكلاء الطرفية، وجرّب GPT-5.4 إذا كنت تريد أحدث نموذج من OpenAI أو تريد قياس فائدة كفاءته في استخدام الأدوات [1][3][5][7][9]. الحكم الأكثر أمانًا ليس أن نموذجًا واحدًا يهيمن على البرمجة، بل أن الفائز يتغير بحسب نسخة الاختبار، وإطار الوكيل، وطبيعة العمل الذي ستنفذه فعليًا [1][6][7][10].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ابحث وتحقق من الحقائق مع Studio Global AI

الوجبات السريعة الرئيسية

  • لا يوجد فائز واحد لكل مهام البرمجة: Claude Opus 4.6 يملك أقوى إشارة في SWE Bench Verified بنطاق يقارب 79–81%، بينما يظهر GPT 5.3 Codex كأقوى خيار من OpenAI في مقارنات Terminal Bench 2.0 المذكورة [1][3][5][7][9].
  • ابدأ بـ Claude Opus 4.6 لإصلاح أخطاء المستودعات على نمط SWE Bench Verified، وجرّب GPT 5.3 Codex في وكلاء الطرفية، واختبر GPT 5.4 عندما تهمك كفاءة استخدام الأدوات وميزة تقليل رموز MCP بنسبة 47% [1][3].
  • لا تقارن SWE Bench Verified وSWE Bench Pro Public كأنهما اختبار واحد؛ المصادر المذكورة تنبه إلى أن هذه المتغيرات ليست قابلة للمقارنة المباشرة [6][7][10].

يسأل الناس أيضا

ما هي الإجابة المختصرة على "GPT-5.4 وGPT-5.3-Codex وClaude Opus 4.6: من الأفضل للبرمجة؟"؟

لا يوجد فائز واحد لكل مهام البرمجة: Claude Opus 4.6 يملك أقوى إشارة في SWE Bench Verified بنطاق يقارب 79–81%، بينما يظهر GPT 5.3 Codex كأقوى خيار من OpenAI في مقارنات Terminal Bench 2.0 المذكورة [1][3][5][7][9].

ما هي النقاط الأساسية التي يجب التحقق منها أولاً؟

لا يوجد فائز واحد لكل مهام البرمجة: Claude Opus 4.6 يملك أقوى إشارة في SWE Bench Verified بنطاق يقارب 79–81%، بينما يظهر GPT 5.3 Codex كأقوى خيار من OpenAI في مقارنات Terminal Bench 2.0 المذكورة [1][3][5][7][9]. ابدأ بـ Claude Opus 4.6 لإصلاح أخطاء المستودعات على نمط SWE Bench Verified، وجرّب GPT 5.3 Codex في وكلاء الطرفية، واختبر GPT 5.4 عندما تهمك كفاءة استخدام الأدوات وميزة تقليل رموز MCP بنسبة 47% [1][3].

ماذا يجب أن أفعل بعد ذلك في الممارسة العملية؟

لا تقارن SWE Bench Verified وSWE Bench Pro Public كأنهما اختبار واحد؛ المصادر المذكورة تنبه إلى أن هذه المتغيرات ليست قابلة للمقارنة المباشرة [6][7][10].

ما هو الموضوع ذو الصلة الذي يجب أن أستكشفه بعد ذلك؟

تابع مع "Claude Security من Anthropic: شرح النسخة التجريبية لفحص ثغرات الشيفرة بالذكاء الاصطناعي" لزاوية أخرى واستشهادات إضافية.

فتح الصفحة ذات الصلة

ما الذي يجب أن أقارنه بهذا؟

تحقق من هذه الإجابة مقابل "Grok 4.3 API: مليون توكن وسعر منخفض… كيف تراهن xAI على النماذج والصوت؟".

فتح الصفحة ذات الصلة

مواصلة البحث الخاص بك

المصادر

  • [1] 2.0 Leaderboardtbench.ai

    Rank Agent Model Date Agent Org Model Org Accuracy -- -- -- -- -- -- -- -- 4 ForgeCode Claude Opus 4.6 2026-03-12 ForgeCode Anthropic 79.8%± 1.6 5 SageAgent GPT-5.3-Codex 2026-03-13 OpenSage OpenAI 78.4%± 2.2 6 ForgeCode Gemini 3.1 Pro 2026-03-02 ForgeCode...

  • [3] GPT-5.4: The Real Leap Isn't Coding | Blog - Alex Lavaeealexlavaee.me

    - Coding benchmarks are flat. SWE-Bench Pro: 57.7% vs 56.8% for GPT-5.3-Codex. Terminal-Bench 2.0 actually regressed from 77.3% to 75.1%. - Tool search cuts MCP token usage by 47% by loading tool definitions on demand instead of cramming them all into conte...

  • [5] Best AI for Coding 2026: SWE-Bench Breakdown—Opus 4.6 ...marc0.dev

    I dug into all of them. Here's what the benchmarks actually say, what they don't, and which model is worth your money depending on what you actually build. … Benchmark Claude Opus 4.6 GPT-5.3 Codex Winner -- -- -- -- SWE-bench Verified 80.8% 56.8% Opus 4.6...

  • [6] Claude Opus 4.6 vs GPT-5.3 Codex: Complete Comparisondigitalapplied.com

    79.4% Claude SWE-bench Verified 78.2% GPT-5.3 SWE-bench Pro 77.3% Claude GPQA Diamond 25% GPT-5.3 Speed Gain Key Takeaways Claude leads SWE-bench Verified:: Opus 4.6 scores 79.4% on SWE-bench Verified while GPT-5.3-Codex leads SWE-bench Pro Public at 78.2%...

  • [7] Claude Opus 4.6 vs GPT-5.3 Codex: We Tested Both on Real ...intelligibberish.com

    The Benchmark Numbers Before getting to practical testing, here’s how the flagship models compare on standardized benchmarks. Claude Opus 4.6: - SWE-bench Verified: 79.4% - GPQA Diamond: 77.3% - Terminal-Bench 2.0: 65.4% GPT-5.3 Codex: - SWE-bench Pro Publi...

  • [9] New GPT and Claude Releases Continue to One-Up Themselvesblog.kilo.ai

    - Agent Teams (preview) — multiple Claude instances collaborating in parallel on tasks like code review, testing, and documentation - 80.8% on SWE-Bench Verified — the highest score on real-world bug-fixing evaluations - 65.4% on Terminal-Bench 2.0 — a new...

  • [10] SWE-bench 2026: Claude Opus 4.6 vs GPT-5.4 Coding Benchmarksevolink.ai

    Here is the practical answer: - Claude Opus 4.6 has strong official coding claims from Anthropic, including public discussion of SWE-bench Verified methodology and strong performance on Terminal-Bench 2.0. - GPT-5.4 has strong official coding claims from Op...