उत्तरप्रकाशित2 माह पहलेLast edited पिछला माह31 स्रोत

एआई कोडिंग टूल्स: 19% धीमे, 1.7 गुना ज़्यादा बग, फिर भी डेवलपर्स इनके बिना काम करने से इनकार क्यों कर रहे हैं?

एक ऐतिहासिक रैंडमाइज़्ड कंट्रोल्ड ट्रायल में पाया गया कि अनुभवी डेवलपर्स एआई टूल्स का इस्तेमाल करके 19% धीमे थे, जबकि उन्हें 24% की रफ़्तार बढ़ने की उम्मीद थी — और इसके बाद भी उन्होंने बिना एआई के कोड करने से इनकार कर... 470 वास्तविक गिटहब पुल रिक्वेस्ट के विश्लेषण से पता चलता है कि एआई जनरेटेड कोड में मानव लिखित को...

Studio Global AI के साथ खोजें और तथ्यों की जांच करें और ट्रेंडिंग पेज देखें

Split illustration of a developer's face half-human and half-circuit, with a speedometer showing conflicting perception and reality arrows for AI coding productivity — What does recent research reveal about the productivity, code quality, and industry dependency effects of AI coding tools, including METR'sThe gap between what developers feel and what the clock measures remains the defining finding of AI coding tool research in 2025–2026.
AI संकेत
Create a landscape editorial hero image for this Studio Global article: What does recent research reveal about the productivity, code quality, and industry dependency effects of AI coding tools, including METR's. Article summary: Here is a synthesis of the recent research on all four fronts.. Topic tags: general, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "Our early 2025 study found the use of AI causes tasks to take 19% longer, with a confidence interval between +2% and +39%. For the subset of the" source context "We are Changing our Developer Productivity Experiment Design - METR" Reference image 2: visual subject "Three questions conceptualizing increase in value produced due to access to AI tools around March 2026, with estimates for March 2025 and March" source context "Measuring the Self-Reported Impact of Early-20
openai.com

एआई कोडिंग टूल्स का वादा बेहद आकर्षक था: एक कमेंट टाइप कीजिए, फंक्शन बनकर तैयार हो जाएगा, और तेज़ी से शिप कर दीजिए। लेकिन 2025 के मध्य से 2026 तक आए कठोर शोधों की लहर ने इस कहानी को काफी जटिल बना दिया है। सीधे-सादे उत्पादकता गुणक के बजाय, डेटा एक ऐसे टूल की तस्वीर पेश करता है जो अनुभवी डेवलपर्स को धीमा कर देता है, मापने योग्य रूप से ज़्यादा बग वाला कोड तैयार करता है, और एक ऐसी निर्भरता पैदा करता है जो तब भी बनी रहती है जब आँकड़े उसके पक्ष में नहीं होते।

METR उत्पादकता विरोधाभास: 43-पॉइंट का धारणा अंतर

जुलाई 2025 में, गैर-लाभकारी अनुसंधान संगठन METR ने एआई डेवलपर टूलिंग का सबसे गंभीर निष्कर्ष प्रकाशित किया। एक यादृच्छिक नियंत्रित परीक्षण (रैंडमाइज़्ड कंट्रोल्ड ट्रायल) में 16 अनुभवी ओपन-सोर्स डेवलपर्स को 246 वास्तविक कार्यों पर लगाया गया, जिनमें बेतरतीब ढंग से कुछ कार्यों के लिए एआई कोडिंग टूल्स (Cursor Pro और Claude 3.5/3.7 Sonnet) तक पहुँच दी गई और कुछ के लिए नहीं।

अध्ययन से पहले, उन्हीं डेवलपर्स ने भविष्यवाणी की थी कि एआई उन्हें 24% तेज़ बनाएगा। लेकिन जो मापा गया, उसकी वास्तविकता इसके विपरीत थी: एआई टूल्स का उपयोग करने वाले डेवलपर्स को बिना सहायता के काम करने वालों की तुलना में कार्यों को पूरा करने में 19% अधिक समय लगा (95% विश्वास अंतराल: +2% से +39%)।

यह सुस्ती प्रयास की कमी के कारण नहीं थी। डेवलपर्स ने अतिरिक्त समय एआई आउटपुट की समीक्षा करने, त्रुटियों को सुधारने, मॉडल को सही समाधान की ओर ले जाने और कोड जनरेशन के इंतज़ार में बिताया। सबसे महत्वपूर्ण बात यह है कि धारणा और वास्तविकता के बीच का अंतर प्रयोग के बाद भी बना रहा। मापी गई सुस्ती का अनुभव करने के बाद, डेवलपर्स ने फिर भी अनुमान लगाया कि वे 20% तेज़ थे — घड़ी ने जो दिखाया और उनके दिमाग ने जो माना, उसके बीच 43-पॉइंट का अंतर था।

METR ने बाद में 2026 की शुरुआत में अध्ययन के डिज़ाइन पर दोबारा गौर किया, और कार्य विविधता के लिए समायोजन किया। संशोधित विश्लेषण में 6% की मामूली सैंपल-वाइड गति वृद्धि पाई गई, लेकिन इसमें अत्यधिक भिन्नता थी: कुछ डेवलपर्स ने कुछ कार्यों पर 25% तक की बढ़त हासिल की, जबकि अन्य शुद्ध रूप से धीमे ही रहे। मूल निष्कर्ष कायम रहा: एआई का लाभ अत्यधिक कार्य-निर्भर है, और स्व-रिपोर्ट की गई गति एक विश्वसनीय मीट्रिक नहीं है।

CodeRabbit: एआई कोड गुणवत्ता में खामियाँ (1.7 गुना ज़्यादा मुद्दे)

अगर कार्य पूरा होने के समय के आँकड़े अस्पष्ट हैं, तो कोड गुणवत्ता का डेटा ज़्यादा स्पष्ट है। CodeRabbit की ऐतिहासिक "स्टेट ऑफ़ एआई वर्सेस ह्यूमन कोड जनरेशन" रिपोर्ट ने ओपन-सोर्स प्रोजेक्ट्स में 470 वास्तविक गिटहब पुल रिक्वेस्ट का विश्लेषण किया — जिनमें 320 एआई-कोऑथर्ड और 150 केवल मानव-लिखित थीं।

मुख्य बात चौंकाने वाली है: एआई-जनरेटेड पुल रिक्वेस्ट में मानव-लिखित कोड की तुलना में औसतन ~1.7 गुना ज़्यादा मुद्दे थे (प्रति पीआर 10.83 मुद्दे बनाम 6.45)। गुणवत्ता की कमी केवल शैली या फ़ॉर्मेटिंग तक सीमित नहीं थी। यह उन क्षेत्रों में केंद्रित थी जो वास्तविक घटनाओं का कारण बनते हैं:

तर्क और शुद्धता संबंधी त्रुटियाँ एआई-जनरेटेड पीआर में 75% अधिक थीं।
पठनीयता संबंधी मुद्दे 3 गुना से अधिक बढ़ गए।
एरर हैंडलिंग की कमियाँ लगभग 2 गुना अधिक पाई गईं।
सुरक्षा कमज़ोरियाँ मानव-लिखित कोड की तुलना में 2.74 गुना अधिक थीं।

CodeRabbit के विश्लेषण ने एआई-लेखक वाले कोड के लिए एक "भारी समीक्षा पूंछ" की भी पहचान की, जिसका अर्थ है कि मानव समीक्षकों ने एआई-जनरेटेड बदलावों में समस्याओं को खोजने और उनका निदान करने में असम्मानित रूप से अधिक समय बिताया। जैसा कि रिपोर्ट के लेखकों ने कहा, मनुष्य और एआई एक जैसी गलतियाँ करते हैं — एआई बस उनमें से कई को अधिक बार और बड़े पैमाने पर करता है।

यह पैटर्न CodeRabbit की इस व्यापक टिप्पणी से मेल खाता है कि 2025 एआई की गति से परिभाषित हुआ, लेकिन 2026 को एआई गुणवत्ता का वर्ष बनना होगा। पोस्टमॉर्टम और परिचालन घटनाओं ने तेजी से एआई सहायकों द्वारा पेश की गई सूक्ष्म तर्क त्रुटियों, कॉन्फ़िगरेशन की अनदेखी और डिज़ाइन की गलतफहमियों की ओर इशारा किया।

टोकन की बर्बादी: एआई का हर डॉलर बग्स और रीवर्क में 82 सेंट खो देता है

गुणवत्ता की कमी सीधे वित्तीय बर्बादी में बदल जाती है। डेवलपर उत्पादकता प्लेटफ़ॉर्म Entelligence.AI ने 2,444 कंपनियों से डेटा एकत्र किया और एक ऐसा ब्यौरा तैयार किया जो इंजीनियरिंग हलकों में गूंज उठा है:

कहाँ जाता है डॉलर	एआई टोकन पर खर्च हर $1 की लागत
एआई द्वारा लाए गए बग्स को ठीक करना	$0.44
रीवर्क	$0.27
समीक्षा की दिक्कत	$0.11
उपयोगकर्ताओं तक पहुँचने वाला वास्तविक मूल्य	$0.18

दूसरे शब्दों में, एआई टोकन पर खर्च हर डॉलर का 82 सेंट बग्स, रीवर्क और समीक्षा ओवरहेड में चला जाता है। केवल 18 सेंट उपयोगकर्ता-सामना मूल्य प्रदान करता है। यह लागत सैद्धांतिक नहीं है। Uber ने अपना पूरा 2026 का एआई कोडिंग बजट चार महीनों के भीतर ख़त्म कर दिया और शून्य मापने योग्य उत्पादकता लाभ दर्ज किया। एक अनाम Uber कार्यकारी ने स्पष्ट रूप से कहा कि एआई खर्च और उत्पाद सुधार के बीच की कड़ी "अभी तक मौजूद नहीं है।"

स्टैनफोर्ड और MIT के एक पूरक अध्ययन में पाया गया कि कोड बग्स को ठीक करने वाले एआई एजेंट प्रति कार्य दस लाख से अधिक टोकन जला सकते हैं — जो मानक कोड प्रश्नोत्तर कार्यों की टोकन खपत का लगभग 1,000 गुना है। अर्थशास्त्र सुझाव देता है कि कई संगठनों के लिए, एआई अपनाने की बाद की लागतें वर्तमान में वादा किए गए उत्पादकता लाभ को खा रही हैं।

एआई निर्भरता विरोधाभास: एक धीमे टूल के आदी

शायद मनोवैज्ञानिक रूप से सबसे चौंकाने वाली खोज यह है कि जो डेवलपर्स इस डेटा का अनुभव करते हैं, वे फिर भी एआई के बिना काम करने से इनकार करते हैं। कई आउटलेट्स ने रिपोर्ट किया है कि METR अध्ययन के प्रतिभागियों ने अपने स्वयं के सुस्ती के आँकड़े दिखाए जाने के बाद भी बिना सहायता वाली कोडिंग पर लौटने का विरोध किया। इसे "एआई निर्भरता विरोधाभास" के रूप में वर्णित किया गया है — एक बार जब डेवलपर्स एआई सहायता के आदी हो जाते हैं, तो वे अपनी बिना सहायता वाली क्षमता पर विश्वास खो देते हैं, तब भी जब टूल उन्हें प्रदर्शनकारी रूप से धीमा कर रहा हो।

जैसा कि एक डेवलपर ने कहा, एआई "उबाऊ हिस्सों को संभालता है — बॉयलरप्लेट, सिंटैक्स, वह सामान जो काम जैसा लगता है लेकिन जहाँ असली कठिनाई नहीं होती।" यह टूल कोडिंग को तेज़ महसूस कराता है, भले ही स्टॉपवॉच कुछ और कहे, क्योंकि घर्षण प्रारंभिक ड्राफ्ट लिखने से हटकर सावधानीपूर्वक समीक्षा करने पर आ जाता है।

विशेषज्ञ अब क्या सलाह देते हैं

METR के नियंत्रित परीक्षणों, CodeRabbit के पुल रिक्वेस्ट विश्लेषण और Entelligence.AI के एंटरप्राइज़ डेटा से, सिफारिशों का एक सुसंगत सेट उभर कर आया है:

एआई आउटपुट को एक जूनियर डेवलपर के कोड की तरह मानें। हर चीज़ की समीक्षा करें। तर्क त्रुटियों, छूटे हुए एज केसेस और सुरक्षा अंतरालों की अपेक्षा करें। बिना समीक्षा वाले एआई कोड को कभी भी डिप्लॉय न करें।
स्वीकार करें कि एआई ड्राफ्टिंग को तो तेज़ करता है लेकिन समीक्षा का बोझ बढ़ाता है। टूल ज़्यादा कोड तेज़ी से लिखता है, लेकिन "पूर्ण" होने तक का शुद्ध समय अक्सर इस पर निर्भर करता है कि अतिरिक्त समीक्षा समय ड्राफ्टिंग की गति को पछाड़ता है या नहीं।
वास्तविक साइकिल समय मापें, अनुमानित गति नहीं। स्व-रिपोर्ट किए गए उत्पादकता लाभ व्यवस्थित रूप से बढ़ा-चढ़ाकर बताए जाते हैं। METR ने पाया कि 2-3 गुना गति लाभ का दावा करने वाले डेवलपर्स वस्तुनिष्ठ समय लॉग से मेल नहीं खा रहे थे।
छिपी हुई लागतों के लिए बजट बनाएँ। यदि टोकन खर्च का 44% एआई-जनित बग्स को ठीक करने में जाता है, तो संगठनों को एआई अपनाने की कुल लागत का मॉडल बनाने की ज़रूरत है, न कि केवल एपीआई बिल का।

उभरते सबूत यह सुझाव नहीं देते कि एआई कोडिंग टूल्स बेकार हैं। विशिष्ट संदर्भों में — अपरिचित कोडबेस को समझने, बॉयलरप्लेट जनरेट करने, और उन कार्यों में जहाँ डेवलपर्स ने भविष्यवाणी की थी कि एआई काफी मदद करेगा — मापने योग्य गति वृद्धि दिखाई देती है। लेकिन अपने स्वयं के परिपक्व कोडबेस पर काम करने वाले अनुभवी डेवलपर्स की व्यापक आबादी में, 2025 के मध्य से 2026 तक शुद्ध प्रभाव धीमी डिलीवरी, अधिक खामियाँ और एक ऐसी निर्भरता रहा है जो डेटा के सामने भी टिकी रहती है।

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI के साथ खोजें और तथ्यों की जांच करें

लोग पूछते भी हैं