studioglobal
Khám phá xu hướng
Câu trả lờiĐã xuất bản5 nguồn

Dữ liệu nào được đưa vào ChatGPT? Bảng đèn giao thông để tránh lộ thông tin

Dữ liệu công khai, dữ liệu tổng hợp hoặc đã ẩn danh thực sự thường ít rủi ro hơn; dữ liệu khách hàng, sức khỏe, nhân sự, hợp đồng, tài chính và thông tin đăng nhập không nên đưa vào chat cá nhân chưa kiểm tra. OpenAI cho biết prompt và nội dung tải lên có thể là User Content chứa dữ liệu cá nhân; Data Controls chủ y...

17K0
Abstrakte Illustration zum Datenschutz bei ChatGPT und anderen KI-Tools
ChatGPT-Datenschutz: Welche Daten darfst du in KI-Tools eingebenKI-generiertes Symbolbild: Datenschutz-Check vor dem Upload in ChatGPT oder andere KI-Tools.
Prompt AI

Create a landscape editorial hero image for this Studio Global article: ChatGPT-Datenschutz: Welche Daten darfst du in KI-Tools eingeben?. Article summary: Gib in öffentliche KI Tools nur Daten ein, die du auch einem externen Cloud Dienst anvertrauen würdest: öffentliche, synthetische oder wirklich anonymisierte Inhalte.. Topic tags: chatgpt, openai, privacy, data protection, gdpr. Reference image context from search candidates: Reference image 1: visual subject "Embivalent" source context "Welche Daten darf / sollte ich bei welcher KI (nicht) eingeben?" Reference image 2: visual subject "Dominik Freinhofer" source context "Welche Daten darf / sollte ich bei welcher KI (nicht) eingeben?" Style: premium digital editorial illustration, source-backed research mood, clean composition, high detail, modern web publication hero. Use reference image context only for broad subject, composition, a

openai.com

Quy tắc dễ nhớ nhất: hãy xem ChatGPT và các công cụ AI trước hết như một dịch vụ đám mây bên ngoài. Nội dung công khai, dữ liệu giả lập hoặc dữ liệu đã ẩn danh thật sự thường ít rủi ro hơn. Còn những gì có thể nhận diện con người, mở quyền truy cập hệ thống, thuộc phạm vi bảo mật hợp đồng hoặc chứa bí mật kinh doanh thì không nên đưa vào một công cụ cá nhân chưa được kiểm tra.

Lý do khá rõ: trong chính sách quyền riêng tư, OpenAI nói họ có thể thu thập dữ liệu cá nhân mà người dùng đưa vào dịch vụ dưới dạng Content, bao gồm prompt và nội dung tải lên như tệp, hình ảnh, âm thanh hoặc video.[5] Vì vậy, chỉ hỏi một câu: công cụ này có dùng dữ liệu của mình để huấn luyện hay không? là chưa đủ. Câu đúng hơn phải là: công cụ cụ thể này có được phép xử lý đúng loại dữ liệu này cho đúng mục đích này không?

Bảng đèn giao thông cho ChatGPT và công cụ AI

MứcVí dụKhuyến nghị
XanhThông tin công khai, câu hỏi chung, ví dụ tự tạo, dữ liệu dummy, bộ dữ liệu tổng hợp, đoạn trích đã ẩn danh thật sựThường có thể dùng, miễn là không còn thông tin cá nhân, nội dung mật hoặc dữ liệu được bảo vệ.
VàngTài liệu nội bộ không chứa bí mật, ca hỗ trợ đã ẩn danh, mã nguồn không có secret, bảng tính sau khi đã bỏ tên, ID và thông tin liên hệChỉ dùng khi đã tối thiểu hóa dữ liệu, dùng công cụ được phê duyệt và kiểm tra cài đặt về huấn luyện, lưu trữ, quyền truy cập.
ĐỏMật khẩu, API key, token, thông tin đăng nhập, số giấy tờ tùy thân, dữ liệu tài khoản hoặc thuế, dữ liệu sức khỏe và bệnh nhân, danh sách đầy đủ khách hàng hoặc nhân viên, hợp đồng mật, tài liệu mua bán sáp nhập, số liệu tài chính chưa công bố, mã nguồn có secret hoặc tài sản trí tuệ cốt lõiKhông dán vào công cụ cá nhân chưa kiểm tra. Nếu thật sự phải xử lý, chỉ dùng môi trường Business, Enterprise hoặc API đã được phê duyệt và có chấp thuận nội bộ.

Bảng này không phải tư vấn pháp lý. Nó là bộ lọc an toàn thực dụng. Nội dung càng dễ làm lộ danh tính cá nhân, khách hàng, nhân viên, bệnh nhân, hợp đồng hoặc hệ thống nội bộ, bạn càng nên chọn phương án thận trọng.

Vì sao ChatGPT tài khoản cá nhân cần đặc biệt cẩn trọng

Một cuộc trò chuyện trong ChatGPT không giống ghi chú lưu trên máy tính cá nhân. OpenAI nói User Content có thể chứa dữ liệu cá nhân và nêu rõ prompt cùng nội dung tải lên là ví dụ.[5]

Các Data Controls trong ChatGPT cho phép người dùng quyết định liệu cuộc trò chuyện và tương tác của họ có được dùng để cải thiện mô hình hay không.[9] Tắt tùy chọn này là một bước bảo vệ quan trọng. Nhưng nó không tự động biến dữ liệu nhạy cảm thành dữ liệu được phép nhập, vì đây chỉ là một phần của câu chuyện về quyền riêng tư, tuân thủ và bảo mật.

Temporary Chats, hay trò chuyện tạm thời, giúp giảm một số rủi ro. OpenAI mô tả loại chat này là không lưu trong lịch sử, không dùng cho Memory, không dùng để huấn luyện và sẽ bị xóa sau 30 ngày; tuy vậy, nội dung vẫn có thể được kiểm tra để giám sát lạm dụng.[9][11] Vì thế, Temporary Chats không phải là giấy phép để đưa hợp đồng mật, dữ liệu khách hàng thật hoặc dữ liệu sức khỏe vào công cụ.

Business, Enterprise, Edu, Healthcare và API khác gì?

OpenAI phân biệt việc dùng cá nhân với các sản phẩm dành cho tổ chức. Theo OpenAI, Business Data là input và output từ ChatGPT Business, ChatGPT Enterprise, ChatGPT for Healthcare, ChatGPT Edu, ChatGPT for Teachers và API Platform.[7]

Với Business Data, OpenAI nói mặc định dữ liệu này không được dùng để huấn luyện.[7] OpenAI cũng cho biết với ChatGPT Business, ChatGPT Enterprise và API, họ có thể ký Data Processing Addendum, tức phụ lục xử lý dữ liệu, để hỗ trợ các yêu cầu của GDPR và các luật bảo vệ dữ liệu khác; với ChatGPT Edu và ChatGPT for Teachers, OpenAI dẫn chiếu Student Data Privacy Agreement.[7] Ngoài ra, OpenAI công bố thông tin về quyền riêng tư dữ liệu kinh doanh, bảo mật, tuân thủ và chính sách lưu giữ dữ liệu cho Enterprise, Business, Edu, ChatGPT for Healthcare và API.[6]

Tuy nhiên, có tài khoản doanh nghiệp không có nghĩa là dữ liệu nào cũng được đưa vào. Tổ chức vẫn cần kiểm tra mục đích xử lý, loại dữ liệu, phân quyền, thời hạn lưu trữ, chính sách nội bộ, hợp đồng với khách hàng và yêu cầu pháp lý hoặc ngành nghề liên quan.

8 câu hỏi nên trả lời trước khi tải dữ liệu lên AI

Trước khi nhập hoặc tải dữ liệu thật vào một công cụ AI, ít nhất hãy làm rõ các điểm sau:

  1. Công cụ này đã được bộ phận bảo mật, pháp chế và CNTT phê duyệt chưa?
  2. Nhà cung cấp có dùng prompt, tệp tải lên hoặc output để huấn luyện hay cải thiện mô hình không?
  3. Có tùy chọn opt-out hoặc điều khoản hợp đồng loại trừ việc dùng dữ liệu để huấn luyện không?
  4. Prompt, tệp tải lên và output được lưu trong bao lâu?
  5. Con người phía nhà cung cấp có thể xem nội dung vì hỗ trợ, bảo mật hoặc giám sát lạm dụng không?
  6. Ứng dụng bên thứ ba, connector, plugin hoặc bên xử lý phụ nào có thể truy cập dữ liệu?
  7. Có DPA, quyền quản trị, phân quyền theo vai trò, khả năng audit và quy tắc lưu giữ rõ ràng không?
  8. Chính sách nội bộ và hợp đồng bên ngoài có cho phép xử lý đúng loại dữ liệu này trong đúng công cụ này không?

Nếu không trả lời rõ được các câu hỏi trên, hãy dùng placeholder, đoạn trích đã ẩn danh hoặc dữ liệu tổng hợp.

Cách viết prompt an toàn hơn: tối thiểu hóa thay vì bê nguyên xi

Prompt an toàn nhất chỉ chứa phần thật sự cần cho nhiệm vụ. Nếu câu trả lời không cần tên, email, số điện thoại, địa chỉ, mã khách hàng, mã bệnh nhân, số hợp đồng hoặc định danh khác, hãy bỏ chúng ra trước.

Trường hợp khách hàng: Thay vì dán toàn bộ hồ sơ có tên, mã khách hàng và thông tin liên hệ, hãy thay bằng các placeholder như [KHÁCH_HÀNG], [MÃ_KHÁCH_HÀNG] và [NGÀY].

Bảng tính: Không tải lên toàn bộ danh sách khách hàng hoặc nhân viên. Hãy bỏ định danh trực tiếp và chỉ giữ những cột thật sự cần cho phân tích.

Mã nguồn: Không đưa API key, token, chứng chỉ riêng, mật khẩu hoặc thông tin truy cập môi trường thật vào prompt. Chỉ chia sẻ đoạn mã liên quan và thay giá trị cấu hình bằng placeholder.

Hợp đồng và tài chính: Nếu chỉ cần kiểm tra một điều khoản, mẫu diễn đạt hoặc cách viết, hãy dùng đoạn trích đã ẩn danh thay vì toàn bộ tài liệu.

Khi bắt buộc phải xử lý dữ liệu thật

Đôi khi dữ liệu dummy không đủ. Khi đó, nên đi theo thứ tự thận trọng:

  1. Làm rõ mục đích: Kiểm tra xem mô hình có thật sự cần dữ liệu thật không, hay chỉ cần một đoạn đã ẩn danh.
  2. Tối thiểu hóa dữ liệu: Chỉ dùng tập dữ liệu nhỏ nhất cần thiết.
  3. Gỡ định danh: Giảm tối đa các thông tin liên quan đến cá nhân, khách hàng, bệnh nhân và tổ chức.
  4. Xóa secret: Mật khẩu, token, API key và chứng chỉ riêng không thuộc về prompt.
  5. Chọn môi trường được phê duyệt: Với dữ liệu doanh nghiệp, nên dùng thiết lập Business, Enterprise hoặc API đã được kiểm tra; OpenAI mô tả các quy tắc riêng về quyền riêng tư doanh nghiệp, trong đó Business Data mặc định không được dùng để huấn luyện.[7]
  6. Kiểm tra cài đặt và hợp đồng: Làm rõ việc dùng dữ liệu để huấn luyện, thời hạn lưu trữ, phân quyền, DPA và quy định lưu giữ trước khi dùng.[6][7][9]
  7. Ghi lại việc sử dụng: Lưu vết công cụ, mục đích, loại dữ liệu, cài đặt và phê duyệt để có thể kiểm tra lại.

Kết luận ngắn

Không có câu trả lời chung kiểu cứ dùng ChatGPT là được hoặc tuyệt đối không dùng. Trong bối cảnh tài khoản cá nhân, prompt và nội dung tải lên có thể chứa dữ liệu cá nhân và được OpenAI mô tả là User Content.[5] Data Controls và Temporary Chats ảnh hưởng đến việc hội thoại có góp phần cải thiện mô hình, có nằm trong lịch sử hay có dùng cho Memory hay không; với Temporary Chats, OpenAI nói dữ liệu sẽ bị xóa sau 30 ngày nhưng vẫn có thể được kiểm tra để giám sát lạm dụng.[9][11]

Với ChatGPT Business, Enterprise, Edu, Healthcare và API, OpenAI nêu các quy tắc riêng, bao gồm việc mặc định không dùng Business Data để huấn luyện.[7] Nếu không chắc, nguyên tắc an toàn là: đừng dán dữ liệu đó vào. Hãy ẩn danh, dùng placeholder hoặc chuyển sang môi trường Business, Enterprise hay API đã được phê duyệt.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI

Bài học chính

  • Dữ liệu công khai, dữ liệu tổng hợp hoặc đã ẩn danh thực sự thường ít rủi ro hơn; dữ liệu khách hàng, sức khỏe, nhân sự, hợp đồng, tài chính và thông tin đăng nhập không nên đưa vào chat cá nhân chưa kiểm tra.
  • OpenAI cho biết prompt và nội dung tải lên có thể là User Content chứa dữ liệu cá nhân; Data Controls chủ yếu cho phép chọn việc hội thoại có góp phần cải thiện mô hình hay không.[5][9]
  • Với ChatGPT Business, Enterprise, Edu, Healthcare và API, OpenAI nêu các quy tắc riêng cho dữ liệu kinh doanh, gồm mặc định không dùng dữ liệu đó để huấn luyện.[7]

Người ta cũng hỏi

Câu trả lời ngắn gọn cho "Dữ liệu nào được đưa vào ChatGPT? Bảng đèn giao thông để tránh lộ thông tin" là gì?

Dữ liệu công khai, dữ liệu tổng hợp hoặc đã ẩn danh thực sự thường ít rủi ro hơn; dữ liệu khách hàng, sức khỏe, nhân sự, hợp đồng, tài chính và thông tin đăng nhập không nên đưa vào chat cá nhân chưa kiểm tra.

Những điểm chính cần xác nhận đầu tiên là gì?

Dữ liệu công khai, dữ liệu tổng hợp hoặc đã ẩn danh thực sự thường ít rủi ro hơn; dữ liệu khách hàng, sức khỏe, nhân sự, hợp đồng, tài chính và thông tin đăng nhập không nên đưa vào chat cá nhân chưa kiểm tra. OpenAI cho biết prompt và nội dung tải lên có thể là User Content chứa dữ liệu cá nhân; Data Controls chủ yếu cho phép chọn việc hội thoại có góp phần cải thiện mô hình hay không.[5][9]

Tôi nên làm gì tiếp theo trong thực tế?

Với ChatGPT Business, Enterprise, Edu, Healthcare và API, OpenAI nêu các quy tắc riêng cho dữ liệu kinh doanh, gồm mặc định không dùng dữ liệu đó để huấn luyện.[7]

Tôi nên khám phá chủ đề liên quan nào tiếp theo?

Tiếp tục với "Phân tích nghiên cứu: Trẻ học từ nhờ nghe nhiều hơn hay xử lý từ nhanh hơn?" để có góc nhìn khác và trích dẫn bổ sung.

Mở trang liên quan

Tôi nên so sánh điều này với cái gì?

Kiểm tra chéo câu trả lời này với "Trẻ học nói không chỉ nhờ nghe nhiều: cách người lớn đáp lời có liên quan ra sao?".

Mở trang liên quan

Tiếp tục nghiên cứu của bạn

Trao đổi nghiên cứu

Bạn

Câu hỏi nghiên cứu

Suche & Faktencheck: Welche Daten darf ich in ChatGPT oder andere KI-Tools eingeben?

Studio Global AI12 nguồn

Câu trả lời được trích dẫn

Kurz: In öffentliche KI-Tools solltest du nur Daten eingeben, die du auch einem externen Cloud-Dienst offenlegen dürftest – am besten anonymisierte, pseudonymisierte oder künstliche Testdaten. Bei ChatGPT ist der wichtige Unterschied: Im Consumer-Produkt können Eingaben je nach Einstellung zur Modellverbesserung genutzt werden, während OpenAI für Business-, Enterprise-, Edu-, Healthcare- und API-Daten standardmäßig kein Training auf deinen Geschäftsdaten macht.[5][9][7]

  • OpenAI sagt ausdrücklich, dass es im Consumer-Bereich personenbezogene Daten erfasst, die du in Prompts, Dateien, Bildern, Audio oder anderen Uploads eingibst.[5]
  • In ChatGPT kannst du die Einstellung „Improve the model for everyone“ ausschalten; dann werden künftige Gespräche zwar weiter in deinem Verlauf angezeigt, aber nicht zum Trainieren von ChatGPT verwendet.[9][11]
  • „Temporary Chats“ werden laut OpenAI nach 30 Tagen gelöscht, nicht zum Training verwendet, nicht im Verlauf gespeichert und erzeugen keine Memories; sie können nur zur Missbrauchsüberwachung geprüft werden.[9][11]
  • Für ChatGPT Business, Enterprise, Edu, Healthcare und die API gilt laut OpenAI: Deine Business-Daten werden standardmäßig nicht zum Training verwendet; für Business, Enterprise und API bietet OpenAI außerdem ein Data Processing Addendum für DSGVO-/Datenschutz-Compliance an.[7]
  • Praktisch heißt das: Unkritische Inhalte kannst du meist eingeben, etwa öffentlich bekannte Informationen, generische Fragen, anonymisierte Textausschnitte, Dummy-Daten oder selbst erstellte Beispiel-Datensätze.
  • Nicht oder nur mit freigegebenem Enterprise-Setup eingeben solltest du in der Regel:
    • vollständige Kund:innen-, Patient:innen- oder Mitarbeiterdaten
    • Gesundheitsdaten, Ausweisnummern, Kontodaten, Steuerdaten
    • Passwörter, API-Keys, Tokens, Zugangsdaten
    • vertrauliche Verträge, M&A-Unterlagen, nicht veröffentlichte Finanzzahlen
    • Quellcode mit Secrets oder internem IP-Kern
  • Für „andere KI-Tools“ gilt dieselbe Faustregel: Erst prüfen, ob der Anbieter Inputs fürs Training nutzt, wie lange Daten gespeichert werden, ob Menschen Zugriff haben können, ob Dritt-Apps/Connectoren mitlesen und ob es einen AVV/DPA sowie Admin-Kontrollen gibt. Wenn das nicht klar dokumentiert ist, behandle das Tool wie einen nicht freigegebenen externen Dienst.
  • Wenn du echte Daten verarbeiten musst, ist die sichere Reihenfolge meist:
    1. Daten minimieren
    2. Namen/IDs entfernen oder ersetzen
    3. Secrets löschen
    4. nur freigegebene Business-/Enterprise-Umgebung nutzen
    5. Training deaktivieren bzw. vertraglich ausschließen
    6. interne Datenschutz-/IT-Freigabe einholen

Wenn du willst, mache ich dir als Nächstes noch eine kurze Ampelliste „grün/gelb/rot: Diese Daten ja, diese nur bedingt, diese nie in KI-Tools“.

Nguồn

  • [5] Privacy policy | OpenAIopenai.com

    User Content: We collect Personal Data that you provide in the input to our Services (“Content”), including your prompts and other content you upload, such as files⁠(opens in a new window), images⁠(opens in a new window), audio and video⁠(opens in a new win...

  • [6] Business data privacy, security, and complianceopenai.com

    With Enterprise Key Management (EKM)⁠(opens in a new window), customers can control their own encryption keys, adding another layer of security and compliance. Learn more⁠⁠ about our data retention policies for ChatGPT Enterprise, Business, Edu, ChatGPT for...

  • [7] Enterprise privacy at OpenAIopenai.com

    Our commitments provide you with ownership and control over your business data (inputs and outputs from ChatGPT Business, ChatGPT Enterprise, ChatGPT for Healthcare, ChatGPT Edu, ChatGPT for Teachers and our API Platform) and support for your compliance nee...

  • [9] Data Controls FAQ | OpenAI Help Centerhelp.openai.com

    Data Controls let you decide how ChatGPT uses your conversations and interactions. They specifically allow you to choose whether your conversations help

  • [11] ChatGPT Privacy Settings | OpenAI | OpenAIopenai.com

    ChatGPT puts you in control of your privacy, with features like temporary chats, memory controls, and strong security protections.