एक feature, broadly, internal activity का ऐसा pattern है जिसे researchers किसी concept, behavior या signal के रूप में पहचानने और test करने की कोशिश करते हैं । इससे मॉडल को सिर्फ opaque numbers की दीवार मानने के बजाय, उसके अंदर सक्रिय होने वाले कुछ concepts पर पकड़ बनती है
।
यानी सवाल सिर्फ यह नहीं रहता कि Claude ने क्या कहा। सवाल यह भी बनता है कि जवाब बनाते समय उसके भीतर कौन-से concepts या signals सक्रिय हुए ।
Anthropic का नया जोर सिर्फ अलग-अलग features खोजने पर नहीं, बल्कि उन्हें computational ‘circuits’ में जोड़ने पर है । कंपनी के अनुसार, यह काम input words से output words तक जाने वाले pathway के कुछ हिस्सों को उजागर करने की कोशिश है
।
यह फर्क अहम है। एक अकेला feature बता सकता है कि मॉडल के अंदर कोई concept मौजूद है या activate हुआ है। लेकिन circuit यह समझने में मदद कर सकता है कि कई internal components एक-दूसरे को कैसे प्रभावित करते हैं और मिलकर किसी response को आकार देते हैं । Reasoning जैसी दिखने वाली behavior में यही रास्ता—कौन-सा signal किसके बाद और किससे जुड़कर असर डालता है—बहुत मायने रखता है।
मार्च 2025 में Anthropic ने कहा कि वह दो papers साझा कर रहा है: एक paper feature-level work को circuit tracing तक बढ़ाता है, और दूसरा इसी toolset को Claude 3.5 Haiku पर लागू करता है । Claude 3.5 Haiku वाली study में सरल tasks के deep studies किए गए, जिन्हें Anthropic ने दस महत्वपूर्ण model behaviors के प्रतिनिधि उदाहरणों की तरह पेश किया
।
कंपनी ने इस काम को ‘AI biology’ देखने जैसा कहा । यह phrase बताता है कि Anthropic सिर्फ बाहर से model को grade नहीं करना चाहता—जैसे answer सही है या नहीं, भाषा fluently लिखी गई है या नहीं, safety rules follow हुए या नहीं। वह अंदर के mechanisms को समझना चाहता है, ताकि यह पता चले कि model किसी खास तरह से behave क्यों करता है
।
जब आप Claude से पूछते हैं, ‘तुमने ऐसा जवाब क्यों दिया?’, तो उसका explanation भी आखिरकार generated text ही होता है। Anthropic की interpretability research उस text को पैदा करने वाली underlying computations की तरफ जाती है ।
इसीलिए circuit tracing अलग तरह का evidence है। यह prompt देकर model से reasoning सुनने की कोशिश नहीं है। यह neural activity को अधिक समझने योग्य structures में translate करने वाले tools के जरिए computational pathway के हिस्सों को inspect करने की कोशिश है ।
इस approach से Claude के internals के कुछ हिस्से ज्यादा legible हो सकते हैं: कौन-से features relevant लगते हैं, वे features कैसे जुड़े हैं, और response बनाने में कौन-से pathways शामिल दिखते हैं । इससे researchers final output के साथ-साथ internal mechanisms की भी तुलना कर सकते हैं, बजाय इसके कि वे केवल model के जवाब पर निर्भर रहें
।
लेकिन Anthropic की अपनी framing भी सावधान है। कंपनी इसे ‘microscope’ की दिशा में progress और input words से output words तक जाने वाले pathway के ‘parts’ reveal करने वाला काम बताती है । इसलिए मौजूदा tools को Claude की हर computation का complete decoder या model के अंदर ‘क्या सोचा गया’ इसका भरोसेमंद transcript मान लेना गलत होगा
।
Anthropic Claude की hidden reasoning को ज्यादा समझने योग्य बनाने के लिए तीन स्तरों पर काम कर रहा है: internal activations को interpretable features में बदलना, उन features को circuits के रूप में trace करना, और फिर इस map को real model behaviors पर apply करना । नतीजा Claude की computation का एक partial scientific map है—पूरी mind-reading नहीं, और हर जवाब की complete explanation भी नहीं
।
Comments
0 comments