शुरू से ही, क्लॉड कोड को हाथों-हाथ डेवलपर वर्कफ़्लो के लिए डिज़ाइन किया गया था। यह कोड को खोज और पढ़ सकता है, फाइलों को संपादित कर सकता है, टेस्ट चला सकता है, और सीधे कमांड लाइन से GitHub पर पुश कर सकता है । प्रारंभिक प्रीव्यू सीमित पहुंच में था, लेकिन डेवलपर प्रतिक्रिया तत्काल थी। मार्च 2025 तक, टूल ने इमेज पेस्ट सपोर्ट और फाइल @-मेंशनिंग प्राप्त कर ली थी; अप्रैल 2025 तक, सत्र दृढ़ता और पुनरारंभ कार्यक्षमता को जोड़ा गया, जिससे बातचीत को पुनरारंभ के पार संदर्भ ले जाने की अनुमति मिली
।
0.2.x सीरीज़, जो फरवरी से मई में सामान्य उपलब्धता लॉन्च तक फैली थी, ने धीरे-धीरे टर्मिनल अनुभव को स्थिर किया। जब क्लॉड कोड ने सामान्य उपलब्धता हासिल की, तब तक यह निरंतर सॉफ्टवेयर इंजीनियरिंग कार्य के लिए उत्पादन के लिए तैयार था ।
क्लॉड कोड की क्षमताओं के पीछे एंथ्रोपिक के क्रमिक फ्लैगशिप मॉडल हैं। प्रत्येक Opus पीढ़ी ने टूल की कोडिंग, तर्क और विश्वसनीयता में सीधे सुधार किया है।
नवंबर 2025 में रिलीज़ Claude Opus 4.5 को कोडिंग, एजेंटों और कंप्यूटर उपयोग के लिए दुनिया का सबसे अच्छा मॉडल बताया गया । इसने Opus 4.x आर्किटेक्चर की स्थापना की जो प्लेटफॉर्म की नींव बन गया।
Opus 4.6 ने योजना, लंबे समय तक चलने वाले एजेंटिक कार्य विश्वसनीयता और बड़े कोडबेस में संचालन में महत्वपूर्ण सुधार लाए। सबसे उल्लेखनीय रूप से, इसने बीटा में 1-मिलियन-टोकन संदर्भ विंडो पेश की - इस पैमाने के संदर्भ को संभालने वाला पहला Opus-श्रेणी का मॉडल ।
Opus 4.6 से Opus 4.7 की छलांग कोडिंग बेंचमार्क के लिए सीस्मिक थी। एक ही मॉडल रिलीज़ में, एंथ्रोपिक SWE-bench Verified (अनुकूली मोड) पर 80.8% से बढ़कर 87.6% पर पहुंच गया । इसने SWE-bench Pro को 53.4% से 64.3% तक धकेल दिया - निकटतम प्रतियोगी पर 10-पॉइंट से अधिक की बढ़त
।
Opus 4.7 ने अनुकूली सोच की शुरुआत की, जो प्रति कार्य गतिशील रूप से कंप्यूट आवंटित करता है, और एंथ्रोपिक API, Amazon Bedrock, और Google Cloud के Vertex AI पर उत्पादन गुणवत्ता पर 1M-टोकन संदर्भ विंडो को स्थिर किया ।
सबसे हालिया मॉडल अपग्रेड रूपांतरित करने के बजाय परिष्कृत करता है। Opus 4.8 सीधे Opus 4.7 पर निर्माण करता है, SWE-bench Pro स्कोर को 64.3% से 69.2% तक सुधारता है जबकि अनदेखे कोड दोषों की दर को नाटकीय रूप से कम करता है। एंथ्रोपिक ने बताया कि मॉडल द्वारा अपने कोड में खामियों को अनदेखा करने की संभावना चार गुना कम है, और परीक्षकों ने अनिश्चितता को चिह्नित करने और असमर्थित दावों से बचने की अधिक इच्छा देखी ।
महत्वपूर्ण रूप से, Opus 4.8 Opus 4.7 के साथ API संगतता बनाए रखता है और उसी कीमत पर आता है। यह पिछले मॉडलों की तुलना में एक-तिहाई लागत पर 2.5× तेज़ फास्ट मोड भी लाता है, जो सीधे क्लॉड कोड में डेवलपर अनुभव में सुधार करता है ।
एंथ्रोपिक ने अपना पहला वार्षिक डेवलपर सम्मेलन, कोड विद क्लॉड, 6 मई, 2026 को सैन फ्रांसिस्को में आयोजित किया, जिसके लंदन और टोक्यो में उपग्रह कार्यक्रम थे । एक नया मॉडल प्रदर्शित करने के बजाय, कार्यक्रम पूरी तरह से प्लेटफ़ॉर्म क्षमताओं पर केंद्रित था - विशेष रूप से, क्लॉड मैनेज्ड एजेंट्स के लिए सुविधाएँ।
एंथ्रोपिक ने अपने होस्ट किए गए, स्टेटफुल एजेंट रनटाइम के लिए चार फीचर्स शिप किए, जो लगभग एक महीने पहले अप्रैल 2026 की शुरुआत में पब्लिक बीटा में लॉन्च हुआ था ।
ड्रीमिंग (रिसर्च प्रीव्यू) इस बैच की सबसे अवधारणात्मक रूप से महत्वाकांक्षी सुविधा है। जब एजेंट निष्क्रिय होते हैं, तो एक निर्धारित पृष्ठभूमि प्रक्रिया पिछली 100 बातचीतों की समीक्षा करती है, आवर्ती पैटर्न, वर्कफ़्लो और गलतियों को निकालती है, और फिर उच्च सिग्नल के लिए एजेंट के मेमोरी स्टोर को फिर से लिखती है। मूल सत्र डेटा को अपरिवर्तनीय रखा जाता है - एजेंट केवल इन मेमोरी अपडेट को स्पष्ट रूप से अपनाता है, और डेवलपर्स मेमोरी बदले जाने से पहले मैन्युअल समीक्षा चुन सकते हैं ।
यह तंत्र प्रभावी रूप से एजेंटों को बिना प्रत्यक्ष पुनर्प्रशिक्षण के समय के साथ सुधार करने में सक्षम बनाता है। यह वर्तमान में रिसर्च प्रीव्यू में उपलब्ध है और इसके लिए एक्सेस के लिए आवेदन करने की आवश्यकता है ।
आउटकम्स (पब्लिक बीटा) संरचित सफलता मानदंड प्रस्तुत करता है। एक अलग मूल्यांकनकर्ता एक पृथक संदर्भ विंडो में चलता है, डेवलपर-परिभाषित रूब्रिक्स के विरुद्ध एजेंट के आउटपुट का मूल्यांकन करता है। यदि स्कोर एक सीमा से नीचे गिरता है, तो एजेंट स्वचालित रूप से पुनः प्रयास करता है ।
मल्टी-एजेंट ऑर्केस्ट्रेशन (पब्लिक बीटा) एक मुख्य एजेंट को जटिल कार्यों को विघटित करने और एक साझा फाइल सिस्टम पर समानांतर रूप से चलने वाले विशेष उप-एजेंटों के बेड़े को काम भेजने की अनुमति देता है - प्रत्येक का अपना मॉडल, प्रॉम्प्ट और टूल होता है ।
वेबहुक्स (पब्लिक बीटा) एजेंटों को कार्य पूर्ण होने पर बाहरी सिस्टम को सूचनाएं भेजने की अनुमति देता है, एजेंटिक वर्कफ़्लो को संवादी से ईवेंट-संचालित में ले जाता है ।
मैनेज्ड एजेंट्स फीचर्स के साथ, कोड विद क्लॉड में कई अन्य लॉन्च शामिल थे:
क्लॉड कोड का हेडलाइन बेंचमार्क नंबर Claude Opus 4.7 के साथ अनुकूली मोड में हासिल किया गया SWE-bench Verified पर इसका 87.6% स्कोर है । यह स्कोर जून 2026 तक आम तौर पर उपलब्ध AI कोडिंग एजेंटों में सबसे अधिक प्रकाशित परिणाम का प्रतिनिधित्व करता है।
SWE-bench Verified ओपन-सोर्स पायथन रिपॉज़िटरीज़ से 500 वास्तविक दुनिया के GitHub मुद्दों का एक क्यूरेटेड सेट है जिसे एजेंटों को शुरू से अंत तक हल करना होता है। यह एजेंटिक सॉफ्टवेयर इंजीनियरिंग के लिए उद्योग का मानक संदर्भ बन गया है, और इस लीडरबोर्ड पर क्लॉड कोड की चढ़ाई - Opus 4.5 पर 80.9% से Opus 4.7 पर 87.6% तक - उत्पाद के लिए एक मुख्य कथा रही है ।
87.6% का आंकड़ा स्थिर नहीं है। यह मॉडल, प्रॉम्प्ट और "हार्नेस" पर निर्भर करता है - रनटाइम वातावरण जो टूल उपयोग को व्यवस्थित करता है। Claude Opus 4.7 का अनुकूली मोड प्रति कार्य गतिशील रूप से कंप्यूट आवंटित करता है, जटिल रिफैक्टर्स के लिए अधिक संसाधन भेजता है। इस अनुकूली हार्नेस के बिना स्टैंडअलोन क्लॉड कोड उसी बेंचमार्क पर 80.8% स्कोर करता है ।
कठिन SWE-bench Pro बेंचमार्क पर - जो कठिन वास्तविक दुनिया के मुद्दे समाधान का परीक्षण करता है - Opus 4.7 ने 64.3% स्कोर किया, GPT-5.4 (57.7%), GPT-5.5 (58.6%), और Gemini 3.1 Pro (54.2%) से आगे । Opus 4.8 ने बाद में SWE-bench Pro को 69.2% तक धकेल दिया
।
क्लॉड कोड का प्रदर्शन कई बेंचमार्क में फैला हुआ है:
यह ध्यान देने योग्य है कि प्रतिस्पर्धी तस्वीर तरल बनी हुई है। OpenAI के GPT-5.5 ने 2026 के मध्य में SWE-bench Verified पर 88.7% के साथ संक्षेप में बढ़त ले ली थी, जिससे एक विभाजन पैदा हुआ जहां क्लॉड कोड SWE-bench Pro पर आगे था और GPT-5.5 Verified पर आगे था । प्रत्येक मॉडल रिलीज़ के साथ लीडरबोर्ड विकसित होता रहता है।
क्लॉड कोड के लिए एंथ्रोपिक की स्थिति लंबी-अवधि की स्वायत्तता की अवधारणा के आसपास एकजुट हुई है। Claude Opus 4.8 को "लंबे समय तक चलने वाले कार्यों पर काम करते रहने की निरंतरता और स्वायत्तता" वाला बताया गया है और इसे विशेष रूप से "जटिल तर्क, लंबी-अवधि की एजेंटिक कोडिंग और उच्च-स्वायत्तता कार्य के लिए एंथ्रोपिक का सबसे सक्षम मॉडल" के रूप में लेबल किया गया है ।
वन-शॉट प्रॉम्प्ट पूर्णता के बजाय निरंतर, स्वतंत्र संचालन पर यह जोर वह जगह है जहां क्लॉड कोड सबसे स्पष्ट रूप से अलग है। ड्रीमिंग, अनुकूली कंप्यूट आवंटन और मल्टी-एजेंट ऑर्केस्ट्रेशन जैसी सुविधाएं सभी एक दर्शन की ओर इशारा करती हैं जहां एजेंट से सत्रों में संचालित होने, अपने स्वयं के आउटपुट से सीखने और न्यूनतम डेवलपर हस्तक्षेप के साथ जटिल बहु-फ़ाइल परियोजनाओं का प्रबंधन करने की उम्मीद की जाती है।
एंथ्रोपिक ने प्रतिस्पर्धी बढ़त के रूप में मॉडल ईमानदारी पर जोर देना भी शुरू कर दिया है। Opus 4.8 की रिलीज़ मॉडल की अनिश्चितता को चिह्नित करने और असमर्थित दावे करने से बचने की इच्छा पर जोर देती है - उत्पादन वातावरण में अपने एजेंट के आउटपुट पर भरोसा करने की आवश्यकता वाले डेवलपर्स के उद्देश्य से एक व्यावहारिक सुरक्षा-उन्मुख फ्रेमिंग ।
Comments
0 comments