सबसे सुरक्षित नियम यह है: ChatGPT और दूसरे AI टूल्स को पहले किसी बाहरी क्लाउड सेवा की तरह समझिए। जो जानकारी सार्वजनिक है, कृत्रिम यानी synthetic है या सचमुच anonymized है, वह आम तौर पर कम जोखिम वाली होती है। लेकिन जो डेटा किसी व्यक्ति की पहचान कर सकता है, किसी सिस्टम तक पहुंच दे सकता है, अनुबंध के तहत गोपनीय है या कंपनी की बौद्धिक संपदा और व्यापारिक रहस्य से जुड़ा है, उसे बिना जांचे किसी कंज़्यूमर AI टूल में पेस्ट नहीं करना चाहिए।
कारण साफ है। OpenAI अपनी privacy policy में कहता है कि उसकी सेवाओं में यूज़र जो Content डालते हैं, उससे personal data collect हो सकता है; इसमें prompts और upload की गई files, images, audio और video जैसे content शामिल हैं।[5] इसलिए केवल यह पूछना काफी नहीं कि टूल आपके input से train होता है या नहीं। असली सवाल है: क्या यही टूल, यही डेटा, इसी उद्देश्य के लिए process करने के लिए मंज़ूर है?
AI टूल्स के लिए डेटा ट्रैफिक लाइट
| रंग | उदाहरण | क्या करें |
|---|---|---|
| हरा | सार्वजनिक जानकारी, सामान्य सवाल, अपने बनाए हुए काल्पनिक उदाहरण, dummy data, synthetic datasets, सचमुच anonymized अंश | आम तौर पर इस्तेमाल किया जा सकता है, बशर्ते उसमें personal, confidential या protected जानकारी न बची हो। |
| पीला | बिना secrets वाले आंतरिक draft, anonymized support cases, secrets हटाया हुआ code, नाम, ID और contact details हटाने के बाद की tables | केवल data minimization के साथ इस्तेमाल करें। टूल approved हो, training, storage और access settings पहले जांची गई हों। |
| लाल | passwords, API keys, tokens, login details, identity, bank या tax data, health और patient data, पूरी customer या employee lists, confidential contracts, M&A documents, unpublished financial numbers, secrets या core IP वाला source code | बिना जांचे कंज़्यूमर AI टूल में न डालें। अगर processing ज़रूरी हो, तो approved Business, Enterprise या API setup और internal approval के बाद ही करें। |
यह ट्रैफिक लाइट कानूनी सलाह नहीं है, बल्कि practical safety filter है। जितनी आसानी से कोई जानकारी किसी व्यक्ति, ग्राहक, कर्मचारी, मरीज, contract या internal system को पहचानने योग्य बनाती है, उतना ही conservative फैसला लें।
कंज़्यूमर ChatGPT में खास सावधानी क्यों चाहिए
ChatGPT में लिखा गया prompt कोई local notebook नहीं है। OpenAI के अनुसार prompts और uploads User Content का हिस्सा हो सकते हैं और उनमें personal data शामिल हो सकता है।[5]
ChatGPT के Data Controls यूज़र को यह तय करने देते हैं कि उनकी conversations और interactions models को बेहतर बनाने में इस्तेमाल हों या नहीं।[9] इस setting को बंद करना privacy के लिहाज़ से अहम कदम हो सकता है। लेकिन इससे sensitive content अपने-आप allowed नहीं हो जाता, क्योंकि यह सिर्फ training और model improvement से जुड़ा हिस्सा कवर करता है; data protection, compliance, access और retention जैसे सवाल अलग रहते हैं।
Temporary Chats कुछ जोखिम घटाते हैं। OpenAI उन्हें history में save न होने, Memories के लिए इस्तेमाल न होने, training में इस्तेमाल न होने और 30 दिनों के बाद delete होने के रूप में describe करता है; OpenAI के अनुसार abuse monitoring के लिए उनका review फिर भी हो सकता है।[9][
11] इसलिए Temporary Chat भी confidential business papers, real customer data या health data डालने का खुला लाइसेंस नहीं है।
Business, Enterprise, Edu, Healthcare और API में क्या बदलता है
OpenAI कंज़्यूमर use और business products के बीच फर्क बताता है। OpenAI के अनुसार Business Data में ChatGPT Business, ChatGPT Enterprise, ChatGPT for Healthcare, ChatGPT Edu, ChatGPT for Teachers और API Platform के inputs और outputs शामिल हैं।[7]
इन Business Data के बारे में OpenAI कहता है कि default रूप से उन्हें training के लिए इस्तेमाल नहीं किया जाता।[7] OpenAI यह भी कहता है कि ChatGPT Business, ChatGPT Enterprise और API के लिए वह GDPR और अन्य privacy laws से जुड़ी compliance जरूरतों में मदद के लिए Data Processing Addendum यानी DPA कर सकता है; ChatGPT Edu और ChatGPT for Teachers के लिए वह Student Data Privacy Agreement का उल्लेख करता है।[
7] OpenAI Enterprise, Business, Edu, ChatGPT for Healthcare और API के लिए business data privacy, security, compliance और data-retention policies की जानकारी भी देता है।[
6]
फिर भी business product का मतलब यह नहीं कि हर तरह का डेटा डालना अपने-आप ठीक है। संस्थाओं को purpose, data type, access permissions, retention, internal policy, customer contracts और लागू regulatory requirements अलग से जांचनी चाहिए।
किसी भी upload से पहले ये सवाल पूछें
असली data किसी AI tool में डालने से पहले कम-से-कम ये बातें साफ होनी चाहिए:
- क्या tool को privacy, legal और IT टीम ने approve किया है?
- क्या provider prompts, files या outputs को training या model improvement के लिए इस्तेमाल करता है?
- क्या training use बंद करने की setting है या contract में उसका exclusion है?
- inputs, uploads और outputs कितने समय तक store रहते हैं?
- क्या provider की तरफ से कोई व्यक्ति support, safety या abuse monitoring के लिए content देख सकता है?
- कौन-सी third-party apps, connectors, plugins या subprocessors access पा सकते हैं?
- क्या DPA, admin controls, role-based access, audit options और retention rules मौजूद हैं?
- क्या internal policies और external contracts इसी data को इसी tool में process करने की अनुमति देते हैं?
अगर इन सवालों के जवाब साफ नहीं हैं, तो placeholders, anonymized excerpts या synthetic data के साथ काम करें।
बेहतर prompt practice: copy-paste कम, जरूरत भर data ज्यादा
सबसे सुरक्षित prompt वही है जिसमें task के लिए सिर्फ जरूरी जानकारी हो। अगर नाम, email address, phone number, postal address, customer number, patient number, contract number या कोई दूसरी पहचान-सूचक detail जवाब के लिए जरूरी नहीं है, तो उसे हटा दें या placeholder से बदल दें।
Customer cases: पूरा case name, customer number और contact details के साथ paste करने के बजाय [CUSTOMER], [CUSTOMER_ID] और [DATE] जैसे placeholders इस्तेमाल करें।
Tables: पूरी customer या employee list upload न करें। सीधे identifiers हटाएं और सिर्फ वही columns रखें जो analysis के लिए जरूरी हैं।
Code: API keys, tokens, private certificates, passwords या production credentials prompts में न डालें। केवल relevant code snippet दें और configuration values को placeholders से बदलें।
Contracts और financial data: अगर केवल किसी clause, pattern या wording पर help चाहिए, तो पूरे document के बजाय anonymized excerpt इस्तेमाल करें।
जब असली data process करना ही पड़े
कई बार dummy data से काम नहीं चलता। ऐसी स्थिति में सुरक्षित क्रम यह रखें:
- Purpose साफ करें: क्या model को सचमुच real data चाहिए, या anonymized excerpt काफी है?
- Data कम करें: सबसे छोटा जरूरी dataset ही इस्तेमाल करें।
- Identifiers हटाएं: व्यक्ति, customer, patient और organization से जुड़े पहचान-सूचक हिस्से जितना हो सके कम करें।
- Secrets मिटाएं: passwords, tokens, API keys और private certificates prompt में नहीं जाने चाहिए।
- Approved environment चुनें: organization के data के लिए approved Business, Enterprise या API setup इस्तेमाल करें; OpenAI इन products के लिए अलग enterprise privacy rules बताता है, जिनमें business data पर default रूप से training न करना शामिल है।[
7]
- Settings और contracts जांचें: training use, storage, role permissions, DPA और retention पहले clear करें।[
6][
7][
9]
- Use document करें: tool, purpose, data type, settings और approval का record रखें।
निचोड़
ChatGPT के लिए कोई एक लाइन का जवाब नहीं है कि सब कुछ डाल सकते हैं या कुछ भी नहीं डाल सकते। कंज़्यूमर context में prompts और uploads personal data शामिल कर सकते हैं और OpenAI उन्हें User Content के रूप में collect कर सकता है।[5] Data Controls और Temporary Chats यह प्रभावित करते हैं कि conversations model improvement, history या Memories में जाएंगी या नहीं; OpenAI के अनुसार Temporary Chats 30 दिनों के बाद delete होते हैं, लेकिन abuse monitoring के लिए review किए जा सकते हैं।[
9][
11]
Business, Enterprise, Edu, Healthcare और API use के लिए OpenAI अलग नियम बताता है, जिनमें default रूप से Business Data पर training न करना शामिल है।[7] अगर संदेह हो, तो data paste न करें। पहले anonymize करें, placeholders इस्तेमाल करें या approved Business, Enterprise या API setup के जरिए ही काम करें।




