रिपोर्टप्रकाशित2 माह पहलेLast edited पिछला माह24 स्रोत

एंथ्रोपिक ने लॉन्च किया Claude Opus 4.8: जानिए GPT-5.5 को पीछे छोड़ने वाला ये AI मॉडल भारतीय डेवलपर्स के लिए क्यों है खास

Claude Opus 4.8 ने SWE Bench Pro एजेंटिक कोडिंग बेंचमार्क पर 69.2% स्कोर किया, जो GPT 5.5 के 58.6% और Gemini 3.1 Pro के 54.2% से बेहतर है। हालांकि, टर्मिनल आधारित कोडिंग बेंचमार्क पर GPT 5.5 अभी भी आगे है। मानक मूल्य निर्धारण अपरिवर्तित रखा गया है: प्रति मिलियन इनपुट टोकन के लिए $5 (लगभग ₹420) और आउटपुट टोकन के लिए...

Studio Global AI के साथ खोजें और तथ्यों की जांच करें और ट्रेंडिंग पेज देखें

Conceptual illustration of Claude Opus 4.8's launch, symbolizing AI performance benchmarks and agentic coding capabilities. — What were the key details of Anthropic's Claude Opus 4.8 launch on May 28, 2026, including its benchmark performance against OpenAI's GPT 5Anthropic launched Claude Opus 4.8 with significant improvements in agentic coding and model reliability. Image: AI-generated.
AI संकेत
Create a landscape editorial hero image for this Studio Global article: What were the key details of Anthropic's Claude Opus 4.8 launch on May 28, 2026, including its benchmark performance against OpenAI's GPT 5.. Article summary: **Launch positioning:** Claude Opus 4.8 was described as outperforming Opus 4.7 across most major benchmarks and beating GPT-5.5 and Gemini 3.1 Pro in several categories.. Topic tags: deepresearch, general web, user generated, documentation. Reference image context from search candidates: Reference image 1: visual subject "Anthropic released Claude Opus 4.8 today, and it outperforms its predecessor across most major benchmarks while beating OpenAI’s GPT-5.5 and Google’s Gemini 3.1 Pro in several key" source context "Anthropic Just Dropped Claude Opus 4.8. - The VC Corner" Reference image 2: visual subject "Anthropic released Claude Opus 4.8 today, and it outper
openai.com

एंथ्रोपिक (Anthropic) ने 28 मई, 2026 को सार्वजनिक रूप से Claude Opus 4.8 को जारी कर दिया है, और इसे अपना अब तक का सबसे सक्षम उपलब्ध मॉडल बताया है । यह अपडेट सीधे Opus 4.7 का स्थान लेता है और इसका मुख्य फोकस कोडिंग, लंबे समय तक चलने वाले स्वचालित (एजेंटिक) कार्यों और एंटरप्राइज़-स्तरीय विश्वसनीयता पर है। इस लॉन्च के साथ, पुरानी कीमतों को बरकरार रखते हुए एक काफ़ी सस्ता फ़ास्ट मोड और नए वर्कफ़्लो टूल भी पेश किए गए हैं ।

प्रतिद्वंद्वियों के मुक़ाबले प्रदर्शन की तुलना (बेंचमार्क)

सबसे ज़्यादा चर्चित तुलना SWE-Bench Pro नामक एजेंटिक कोडिंग बेंचमार्क पर हुई है। एंथ्रोपिक के मूल्यांकन डेटा के अनुसार, Opus 4.8 ने इसमें सबसे आगे रहते हुए 69.2% का स्कोर हासिल किया, जबकि इसके पिछले मॉडल Opus 4.7 ने 64.3%, OpenAI के GPT-5.5 ने 58.6%, और गूगल के Gemini 3.1 Pro ने 54.2% स्कोर किया ।

हालांकि, व्यापक एजेंटिक कोडिंग सूट में GPT-5.5 अभी भी कुछ विशेष क्षेत्रों में बढ़त बनाए हुए है। Terminal-Bench 2.1 नामक एजेंटिक टर्मिनल कोडिंग मूल्यांकन पर, GPT-5.5 ने 78.2% के साथ Opus 4.8 के 74.6% और Gemini 3.1 Pro के 70.3% से बेहतर प्रदर्शन किया ।

एंथ्रोपिक के आंतरिक बेंचमार्क नॉलेज-वर्क (ज्ञान-आधारित कार्य) में भी बढ़त दिखाते हैं। आर्थिक रूप से मूल्यवान नॉलेज वर्क का आकलन करने वाले GDPval-AA मूल्यांकन में इस मॉडल ने 1890 का स्कोर प्राप्त किया, जबकि GPT-5.5 का स्कोर 1769 और Gemini का 1314 रहा । अपने पूरे परीक्षण सूट में, एंथ्रोपिक का दावा है कि Opus 4.8 कई प्रमुख श्रेणियों में दोनों प्रतिद्वंद्वी मॉडलों से बेहतर प्रदर्शन करता है, हालाँकि यह हर एक टेस्ट में अव्वल नहीं है ।

मुख्य तकनीकी अपग्रेड: ईमानदारी और विश्वसनीयता पर ज़ोर

सिर्फ़ कच्ची इंटेलिजेंस बेंचमार्क से हटकर, एंथ्रोपिक ने मॉडल की भरोसेमंदता में सुधार पर ख़ासा ज़ोर दिया है। कंपनी ने बताया कि Opus 4.8 के अपने द्वारा जेनरेट किए गए कोड में खामियों को बिना बताए गुज़र जाने देने की संभावना Opus 4.7 की तुलना में लगभग चार गुना कम है ।

शुरुआती परीक्षकों की प्रतिक्रिया में इस बात पर प्रकाश डाला गया कि जटिल, बहु-चरणीय वर्कफ़्लो के दौरान मॉडल अब अनिश्चितता को चिह्नित करने की अधिक संभावना रखता है और बिना आधार के दावे करने से बचता है । कंपनी ने इस रिलीज़ में 'ईमानदारी' को एक प्रमुख उत्पाद विशेषता के रूप में पेश किया और कहा कि मॉडल अब अपर्याप्त रूप से समर्थित जानकारी को तथ्य के रूप में पेश करने की संभावना कम रखता है ।

डायनामिक वर्कफ़्लोज़ और एफ़र्ट कंट्रोल का परिचय

बेस मॉडल के साथ-साथ, एंथ्रोपिक ने डेवलपर्स और पावर यूज़र्स के लिए कई नई सुविधाएँ भी लॉन्च की हैं ।

डायनामिक वर्कफ़्लोज़ (Dynamic Workflows): Claude Code में एक रिसर्च प्रीव्यू के रूप में उपलब्ध यह सुविधा मॉडल को किसी कार्य की योजना बनाने, सैकड़ों समानांतर उप-एजेंटों के बीच उसे व्यवस्थित करने, और रिपोर्ट करने से पहले परिणामों को सत्यापित करने की अनुमति देती है। इसे एक ही सत्र में बड़े पैमाने पर कोड माइग्रेशन, ऑडिटिंग और बग हंटिंग जैसे कार्यों के लिए डिज़ाइन किया गया है ।

एडजस्टेबल एंगेजमेंट / एफ़र्ट कंट्रोल (Adjustable Engagement / Effort Control): अब उपयोगकर्ता मॉडल की रीज़निंग की गहराई तय कर सकते हैं। claude.ai और Claude Code पर 'एफ़र्ट' पैरामीटर इंटेलिजेंस, टोकन लागत और गति के बीच एक संतुलन बनाने की सुविधा देता है। दस्तावेज़ीकरण में सबसे कठिन कोडिंग और एजेंटिक कार्यों के लिए xhigh स्तर और अन्य इंटेलिजेंस-संवेदनशील कार्यों के लिए न्यूनतम high स्तर का उपयोग करने की सिफारिश की गई है ।

API प्राइसिंग स्ट्रक्चर का विवरण

नियमित API उपयोग के लिए मूल्य निर्धारण पिछली पीढ़ी (Claude Opus 4.7) के समान ही रखा गया है ।

मानक दर: प्रति मिलियन इनपुट टोकन के लिए $5 (लगभग ₹420) और आउटपुट टोकन के लिए $25 (लगभग ₹2,100) ।
फ़ास्ट मोड दर: प्रति मिलियन इनपुट टोकन के लिए $10 (लगभग ₹840) और आउटपुट टोकन के लिए $50 (लगभग ₹4,200)। यह मोड मानक गति से लगभग 2.5 गुना तेज़ चलता है, जो इसे पिछले Opus मॉडलों के फ़ास्ट मोड की तुलना में लगभग 3 गुना सस्ता बनाता है ।

प्रॉम्प्ट कैशिंग दरें 5 मिनट के कैश राइट के लिए $6.25 प्रति मिलियन टोकन, 1 घंटे के कैश राइट के लिए $10 प्रति मिलियन टोकन और कैश हिट्स और रिफ्रेश के लिए $0.50 प्रति मिलियन टोकन निर्धारित की गई हैं ।

यह लॉन्च AI की दुनिया के लिए क्या संकेत देता है

Claude Opus 4.8 का रिलीज़ केवल कच्चे बेंचमार्क स्कोर में बढ़ोतरी नहीं है; यह एंटरप्राइज़ और डेवलपर्स के लिए एक लक्षित अपग्रेड है। इसकी उत्पाद कहानी एजेंटों के लिए विश्वसनीयता, स्पष्ट अनिश्चितता प्रबंधन और स्पष्ट प्रयास स्तरों के माध्यम से प्रोग्रामरों को लागत-प्रदर्शन के बीच संतुलन पर नियंत्रण देने पर केंद्रित है। मूल्य निर्धारण की कहानी रूढ़िवादी बनी हुई है, जिसमें मानक एपीआई कॉल की कीमत में कोई वृद्धि नहीं हुई है, जबकि फ़ास्ट मोड की कीमत में गिरावट विलंबता-महत्वपूर्ण अनुप्रयोगों के लिए हाई-स्पीड इन्फ़रेंस को अधिक सुलभ बनाती है।

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI के साथ खोजें और तथ्यों की जांच करें

लोग पूछते भी हैं