हालांकि, व्यापक एजेंटिक कोडिंग सूट में GPT-5.5 अभी भी कुछ विशेष क्षेत्रों में बढ़त बनाए हुए है। Terminal-Bench 2.1 नामक एजेंटिक टर्मिनल कोडिंग मूल्यांकन पर, GPT-5.5 ने 78.2% के साथ Opus 4.8 के 74.6% और Gemini 3.1 Pro के 70.3% से बेहतर प्रदर्शन किया ।
एंथ्रोपिक के आंतरिक बेंचमार्क नॉलेज-वर्क (ज्ञान-आधारित कार्य) में भी बढ़त दिखाते हैं। आर्थिक रूप से मूल्यवान नॉलेज वर्क का आकलन करने वाले GDPval-AA मूल्यांकन में इस मॉडल ने 1890 का स्कोर प्राप्त किया, जबकि GPT-5.5 का स्कोर 1769 और Gemini का 1314 रहा । अपने पूरे परीक्षण सूट में, एंथ्रोपिक का दावा है कि Opus 4.8 कई प्रमुख श्रेणियों में दोनों प्रतिद्वंद्वी मॉडलों से बेहतर प्रदर्शन करता है, हालाँकि यह हर एक टेस्ट में अव्वल नहीं है
।
सिर्फ़ कच्ची इंटेलिजेंस बेंचमार्क से हटकर, एंथ्रोपिक ने मॉडल की भरोसेमंदता में सुधार पर ख़ासा ज़ोर दिया है। कंपनी ने बताया कि Opus 4.8 के अपने द्वारा जेनरेट किए गए कोड में खामियों को बिना बताए गुज़र जाने देने की संभावना Opus 4.7 की तुलना में लगभग चार गुना कम है ।
शुरुआती परीक्षकों की प्रतिक्रिया में इस बात पर प्रकाश डाला गया कि जटिल, बहु-चरणीय वर्कफ़्लो के दौरान मॉडल अब अनिश्चितता को चिह्नित करने की अधिक संभावना रखता है और बिना आधार के दावे करने से बचता है । कंपनी ने इस रिलीज़ में 'ईमानदारी' को एक प्रमुख उत्पाद विशेषता के रूप में पेश किया और कहा कि मॉडल अब अपर्याप्त रूप से समर्थित जानकारी को तथ्य के रूप में पेश करने की संभावना कम रखता है
।
डायनामिक वर्कफ़्लोज़ (Dynamic Workflows): Claude Code में एक रिसर्च प्रीव्यू के रूप में उपलब्ध यह सुविधा मॉडल को किसी कार्य की योजना बनाने, सैकड़ों समानांतर उप-एजेंटों के बीच उसे व्यवस्थित करने, और रिपोर्ट करने से पहले परिणामों को सत्यापित करने की अनुमति देती है। इसे एक ही सत्र में बड़े पैमाने पर कोड माइग्रेशन, ऑडिटिंग और बग हंटिंग जैसे कार्यों के लिए डिज़ाइन किया गया है ।
एडजस्टेबल एंगेजमेंट / एफ़र्ट कंट्रोल (Adjustable Engagement / Effort Control): अब उपयोगकर्ता मॉडल की रीज़निंग की गहराई तय कर सकते हैं। claude.ai और Claude Code पर 'एफ़र्ट' पैरामीटर इंटेलिजेंस, टोकन लागत और गति के बीच एक संतुलन बनाने की सुविधा देता है। दस्तावेज़ीकरण में सबसे कठिन कोडिंग और एजेंटिक कार्यों के लिए xhigh स्तर और अन्य इंटेलिजेंस-संवेदनशील कार्यों के लिए न्यूनतम high स्तर का उपयोग करने की सिफारिश की गई है ।
प्रॉम्प्ट कैशिंग दरें 5 मिनट के कैश राइट के लिए $6.25 प्रति मिलियन टोकन, 1 घंटे के कैश राइट के लिए $10 प्रति मिलियन टोकन और कैश हिट्स और रिफ्रेश के लिए $0.50 प्रति मिलियन टोकन निर्धारित की गई हैं ।
Claude Opus 4.8 का रिलीज़ केवल कच्चे बेंचमार्क स्कोर में बढ़ोतरी नहीं है; यह एंटरप्राइज़ और डेवलपर्स के लिए एक लक्षित अपग्रेड है। इसकी उत्पाद कहानी एजेंटों के लिए विश्वसनीयता, स्पष्ट अनिश्चितता प्रबंधन और स्पष्ट प्रयास स्तरों के माध्यम से प्रोग्रामरों को लागत-प्रदर्शन के बीच संतुलन पर नियंत्रण देने पर केंद्रित है। मूल्य निर्धारण की कहानी रूढ़िवादी बनी हुई है, जिसमें मानक एपीआई कॉल की कीमत में कोई वृद्धि नहीं हुई है, जबकि फ़ास्ट मोड की कीमत में गिरावट विलंबता-महत्वपूर्ण अनुप्रयोगों के लिए हाई-स्पीड इन्फ़रेंस को अधिक सुलभ बनाती है।
Comments
0 comments