जब कोई फ़ाइल एक ही प्रॉम्प्ट के लिए बहुत बड़ी हो, तो MapReduce पैटर्न एक सिद्ध समाधान है । यह तीन चरणों में काम करता है:
इस तकनीक को LangChain जैसे फ्रेमवर्क (बिल्ट-इन MapReduce चेन) द्वारा सपोर्ट किया जाता है, और ACL 2025 और arXiv से शैक्षणिक पेपर्स ने औपचारिक रूप से लंबे-डॉक्यूमेंट समझ के लिए इसकी प्रभावशीलता को मान्य किया है । Nature में प्रकाशित एक अध्ययन भी पुष्टि करता है कि यह दृष्टिकोण एन्सेम्बल प्रॉम्प्ट का उपयोग करके वार्षिक/दशकीय डॉक्यूमेंट कॉरपोरा तक स्केल करता है
।
चंकिंग सलाह: "सिमैंटिक रूप से चंक करें, सिर्फ़ टोकन काउंट से नहीं। सेक्शन ब्रेक और पैराग्राफ बाउंड्री अर्थ को संरक्षित करते हैं" ।
रिट्रीवल-ऑग्मेंटेड जनरेशन (RAG) सारांशीकरण से आगे जाता है — यह आपको बड़े दस्तावेज़ संग्रहों से विशिष्ट तथ्य पूछने देता है ।
किसी भी तरीके के लिए मुख्य सुझाव: AI को हमेशा एक स्ट्रक्चर्ड प्रॉम्प्ट दें — फ़ॉर्मेट, लंबाई और फ़ोकस निर्दिष्ट करें — न कि सामान्य "summarize this" ।
Comments
0 comments