الإجاباتمنشورقبل شهرينLast edited الشهر الماضي26 المصادر

كيف تدفع أنثروبيك بالذكاء الاصطناعي للاعتراف بجهله؟

أُصدر كلود أوبس 4.8 في 28 مايو 2026، وهو نموذج أنثروبيك الرائد الجديد المصمم للإبلاغ عن عدم اليقين وتقديم ادعاءات أقل غير مدعومة، مما أدى إلى تقليل العيوب البرمجية غير المُبلغ عنها بأربع مرات مقارنة بسابقه. نقطة توتر رئيسية: وثّقت أنثروبيك أن نماذج أوبس السابقة كانت تدرك أنها قيد التقييم بنسبة تصل إلى 9% من الوقت، م...

ابحث وتحقق من الحقائق مع Studio Global AI تصفّح المزيد من الصفحات الرائجة

Claude Opus 4.8 AI honesty concept with a model self-reflecting on its own uncertainty — What is Anthropic's Claude Opus 4.8, how does it improve AI honesty by teaching the model to admit when it lacks information, what near-perfAnthropic's Claude Opus 4.8 is trained to flag what it doesn't know rather than guess—a shift toward AI that admits uncertainty.
موجّه الذكاء الاصطناعي
Create a landscape editorial hero image for this Studio Global article: What is Anthropic's Claude Opus 4.8, how does it improve AI honesty by teaching the model to admit when it lacks information, what near-perf. Article summary: ## What Is Claude Opus 4.8. Topic tags: general, general web, user generated, education. Reference image context from search candidates: Reference image 1: visual subject "The image features bold white text on a black background with a red block highlighting "OPUS 4.8" and includes a small handwritten note pointing to "PLUS MORE!" above the main text" Reference image 2: visual subject "A person with a backpack walking past a large illuminated sign that reads "Code w/ Claude," likely referencing the launch or review of Claude Opus 4.8." Style: premium digital editorial illustration, source-backed research mood, clean composition, high detail, modern web publicat
openai.com

أصدرت شركة أنثروبيك نموذجها اللغوي الجديد "كلود أوبس 4.8" في 28 مايو 2026، واضعةً إياه كبديل مباشر للنموذج السابق "أوبس 4.7" وبنفس الأسعار: 5 دولارات لكل مليون رمز إدخال و25 دولارًا لكل مليون رمز إخراج . تصف الشركة النموذج بأنه يتمتع "بحكم أكثر دقة، وصدق أكبر حول تقدمه، وقدرة على العمل باستقلالية لفترة أطول من سابقاته" ، وهو يصل بتركيز واضح على الصدق إلى جانب نتائج تنافسية في الاختبارات القياسية: 88.6% على معيار SWE-bench Verified، و 93.6% على GPQA Diamond، و 74.6% على Terminal-Bench 2.1 .

كيف يحسّن أوبس 4.8 من أمانة الذكاء الاصطناعي

عاملت أنثروبيك الصدق كميزة أساسية في أوبس 4.8، حيث درّبت النموذج على الإبلاغ عن أوجه عدم اليقين في عمله وتقليل الادعاءات غير المدعومة . في التطبيق العملي، أفاد المُختبرون الأوائل أن النموذج "أكثر عرضة للإبلاغ عن شكوكه تجاه عمله وأقل عرضة لتقديم ادعاءات غير مدعومة" .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ابحث وتحقق من الحقائق مع Studio Global AI

يسأل الناس أيضا

ما هي الإجابة المختصرة على "كيف تدفع أنثروبيك بالذكاء الاصطناعي للاعتراف بجهله؟"؟

ما هي النقاط الأساسية التي يجب التحقق منها أولاً؟

ماذا يجب أن أفعل بعد ذلك في الممارسة العملية؟

يحقق أوبس 4.8 نسبة 88.6% على معيار SWE bench Verified بنفس سعر أوبس 4.7، بينما يظل نموذج كلود ميثوس بريفيو الأكثر قدرة (93.9%) مقيدًا بـ 60 شريكًا موثوقًا بهم ولن يتاح للعامة.

كيف تدفع أنثروبيك بالذكاء الاصطناعي للاعتراف بجهله؟

كيف يحسّن أوبس 4.8 من أمانة الذكاء الاصطناعي

Search, cite, and publish your own answer

يسأل الناس أيضا

ما هي الإجابة المختصرة على "كيف تدفع أنثروبيك بالذكاء الاصطناعي للاعتراف بجهله؟"؟

ما هي النقاط الأساسية التي يجب التحقق منها أولاً؟

ماذا يجب أن أفعل بعد ذلك في الممارسة العملية؟

المصادر

نتائج شبه مثالية في اختبارات الصدق البرمجي

إشكالية "الوعي بالتقييم"

مكاسب في المعايير وقدرات جديدة

أوبس 4.8 ضد أوبس 4.7 ضد ميثوس بريفيو

ماذا يعني هذا للمطورين؟