Terminal-Bench 2.1 पर, जो कमांड-लाइन एजेंटिक कोडिंग का परीक्षण करता है, Opus 4.8 74.6% स्कोर करता है। यह अभी भी GPT-5.5 के 78.2% से पीछे है, लेकिन Opus 4.7 के 66.1% से काफी आगे निकल जाता है । एजेंटिक कंप्यूटर उपयोग के लिए, Opus 4.8 OSWorld-Verified पर 83.4% हासिल करता है, जो Opus 4.7 (82.8%) और GPT-5.5 (78.7%) से थोड़ा आगे है
।
GDPval-AA द्वारा मापे गए ज्ञान कार्य पर, Opus 4.8 1890 Elo स्कोर करता है, जो GPT-5.5 (1769) से काफी आगे और Gemini (1314) से बहुत बड़ा अंतर है । बहु-विषयक तर्क के लिए ह्यूमैनिटीज़ लास्ट एग्ज़ाम पर, यह टूल्स के साथ 57.9% स्कोर करता है—जो एंथ्रोपिक का उच्चतम सामान्य-पहुंच परिणाम है—बनाम बिना टूल्स के 49.8%
।
एंथ्रोपिक Opus 4.8 को एक सार्थक रूप से ज़्यादा ईमानदार मॉडल के रूप में पेश करता है। कंपनी के अपने मूल्यांकनों में, यह Opus 4.7 की तुलना में अपने आत्म-मूल्यांकन में कोडिंग की खामियों को अनदेखा करने की संभावना से लगभग चार गुना कम है ।
गलत-संरेखित व्यवहार की दरें—जिनमें धोखाधड़ी या दुरुपयोग में सहयोग शामिल है—Opus 4.7 की तुलना में काफी कम हैं और Claude Mythos Preview के तुलनीय हैं, जिसे एंथ्रोपिक अपना सबसे अच्छा-संरेखित मॉडल मानता है । यह उन डेवलपर्स के लिए मायने रखता है जो प्रोडक्शन कोड की समीक्षा या निर्माण के लिए AI पर निर्भर हैं और उन्हें एक ऐसे मॉडल की आवश्यकता है जो आत्मविश्वास से खराब आउटपुट देने के बजाय अपने ब्लाइंड स्पॉट को चिह्नित करे।
सबसे ज़्यादा दिखने वाला यूज़र-फेसिंग बदलाव एक नया एफर्ट कंट्रोल डायल है जो अब claude.ai और Cowork इंटरफ़ेस पर उपलब्ध है । यूज़र्स चुन सकते हैं कि Claude किसी प्रतिक्रिया पर कितना कम्प्यूटेशनल प्रयास लगाता है, कई स्तरों पर:
xhigh): कठिन कार्यों और लंबे समय तक चलने वाले वर्कफ़्लो के लिए अनुशंसित ज़्यादा गहन तर्क।Claude Code में, एंथ्रोपिक ने ऊंचे प्रयास स्तरों के साथ आने वाले उच्च टोकन उपयोग को समायोजित करने के लिए दर सीमाएं बढ़ा दी हैं । यह डेवलपर्स को जटिल कोडिंग और एजेंटिक कार्यों पर विलंबता, लागत और तर्क की गहराई के बीच बेहतर ट्रेडऑफ देता है।
बहुत बड़े पैमाने की समस्याओं से निपटने वाले डेवलपर्स के लिए, एंथ्रोपिक एंटरप्राइज, टीम और मैक्स प्लान सब्सक्राइबर्स के लिए Claude Code में एक रिसर्च प्रीव्यू के रूप में डायनेमिक वर्कफ़्लो रोल आउट कर रहा है ।
यह फीचर Claude को एक कार्य की योजना बनाने, फिर एक ही सेशन में सैकड़ों पैरेलल सब-एजेंटों को जनरेट करने और चलाने की सुविधा देता है। रिपोर्ट करने से पहले आउटपुट सत्यापित किए जाते हैं, जो सिस्टम को सैकड़ों हज़ारों लाइनों के कोड में कोडबेस-स्केल माइग्रेशन के लिए उपयुक्त बनाता है ।
Opus 4.8 के लिए मानक मूल्य बिल्कुल वही है जो Opus 4.7 के लिए था: $5 प्रति मिलियन इनपुट टोकन और $25 प्रति मिलियन आउटपुट टोकन । प्रॉम्प्ट कैशिंग राइट और रिफ्रेश दरें प्रीमियम Opus टियर के अनुरूप रहती हैं
।
ज़्यादा महत्वपूर्ण मूल्य बदलाव स्पीड साइड पर है। Opus 4.8 का फास्ट मोड 2.5 गुना तक तेज़ आउटपुट टोकन जनरेशन देता है और अब इसकी लागत $10 प्रति मिलियन इनपुट टोकन और $50 प्रति मिलियन आउटपुट टोकन है । यह Opus 4.6 और Opus 4.7 के फास्ट मोड की तुलना में तीन गुना सस्ता है, जहां इसकी लागत $30/$150 थी
। एंथ्रोपिक ने Opus 4.6 के लिए फास्ट मोड को हटा दिया है और यूज़र्स को Opus 4.8 या 4.7 के फास्ट मोड पर माइग्रेट करने का निर्देश दे रहा है
।
API के माध्यम से फास्ट मोड का उपयोग करने के लिए, डेवलपर्स मॉडल आईडी claude-opus-4-8 के साथ speed: "fast"fast-mode-2026-02-01 बीटा हैडर शामिल करते हैं । यह फीचर पूरे 200k+ इनपुट टोकन कॉन्टेक्स्ट विंडो में मानक दरों पर एक गुणक के रूप में मूल्य निर्धारित है, और यह प्रॉम्प्ट कैशिंग और डेटा रेजिडेंसी गुणकों के साथ स्टैक होता है
।
यह मॉडल आज Claude API के माध्यम से claude-opus-4-8 उपनाम का उपयोग करके उपलब्ध है, और यह फास्ट मोड, प्रॉम्प्ट कैशिंग और बैच प्रोसेसिंग कॉन्फ़िगरेशन में समर्थित है । एंथ्रोपिक का API दस्तावेज़ीकरण और प्लेटफ़ॉर्म रिलीज़ नोट्स पुष्टि करते हैं कि Claude for Pro, Max, Team, और Enterprise प्लान पर ग्राहक तुरंत Opus 4.8 तक पहुंच सकते हैं
।
Opus 4.8 के साथ, एंथ्रोपिक ने Mythos-क्लास मॉडलों को आम तौर पर उपलब्ध कराने की समय-सीमा पर अपनी भाषा को स्पष्ट किया। 7 अप्रैल, 2026 से, Claude Mythos Preview प्रोजेक्ट ग्लासविंग के माध्यम से लगभग 50 रक्षात्मक-सुरक्षा भागीदारों तक ही सीमित है । मॉडल की आक्रामक साइबर सुरक्षा क्षमता इतनी मजबूत थी कि एंथ्रोपिक ने इसे सार्वजनिक रिलीज़ से रोक दिया
।
28 मई को, एंथ्रोपिक ने अपनी सार्वजनिक फ्रेमिंग को अपडेट करते हुए कहा कि वह आने वाले हफ्तों में सभी ग्राहकों के लिए Mythos-क्लास मॉडल जारी करने की योजना बना रहा है । यह सबसे स्पष्ट समयरेखा है जो कंपनी ने ग्लासविंग लॉन्च करने के बाद से दी है। इसने $965 बिलियन के पोस्ट-मनी वैल्यूएशन पर $65 बिलियन के सीरीज़ एच राउंड का भी खुलासा किया, जो इस बात को पुष्ट करता है कि Mythos-क्लास मॉडलों के लिए व्यावसायिक मार्ग अनुसंधान पूर्वावलोकन से व्यापक उपलब्धता की ओर बढ़ रहा है
।
Claude Opus 4.8 एक वृद्धिशील मॉडल अपग्रेड है जो बिल्डरों के लिए तीन व्यावहारिक अंतर पैदा करता है:
टीमों के लिए यह मूल्यांकन करना कि स्विच करना है या नहीं, सबसे मजबूत संकेत यह है कि Opus 4.8 को सीधे अपने कोडिंग, एजेंटिक और ज्ञान-कार्य कार्यों पर परीक्षण करें—विशेष रूप से लंबे समय तक चलने वाले सत्रों के लिए जहां आत्म-सुधार, अनिश्चितता फ़्लैगिंग और पैरेलल सब-एजेंट ऑर्केस्ट्रेशन सबसे ज़्यादा मायने रखते हैं।
Comments
0 comments