Quy tắc dễ nhớ nhất: hãy xem ChatGPT và các công cụ AI trước hết như một dịch vụ đám mây bên ngoài. Nội dung công khai, dữ liệu giả lập hoặc dữ liệu đã ẩn danh thật sự thường ít rủi ro hơn. Còn những gì có thể nhận diện con người, mở quyền truy cập hệ thống, thuộc phạm vi bảo mật hợp đồng hoặc chứa bí mật kinh doanh thì không nên đưa vào một công cụ cá nhân chưa được kiểm tra.
Lý do khá rõ: trong chính sách quyền riêng tư, OpenAI nói họ có thể thu thập dữ liệu cá nhân mà người dùng đưa vào dịch vụ dưới dạng Content, bao gồm prompt và nội dung tải lên như tệp, hình ảnh, âm thanh hoặc video.[5] Vì vậy, chỉ hỏi một câu: công cụ này có dùng dữ liệu của mình để huấn luyện hay không? là chưa đủ. Câu đúng hơn phải là: công cụ cụ thể này có được phép xử lý đúng loại dữ liệu này cho đúng mục đích này không?
Bảng đèn giao thông cho ChatGPT và công cụ AI
| Mức | Ví dụ | Khuyến nghị |
|---|---|---|
| Xanh | Thông tin công khai, câu hỏi chung, ví dụ tự tạo, dữ liệu dummy, bộ dữ liệu tổng hợp, đoạn trích đã ẩn danh thật sự | Thường có thể dùng, miễn là không còn thông tin cá nhân, nội dung mật hoặc dữ liệu được bảo vệ. |
| Vàng | Tài liệu nội bộ không chứa bí mật, ca hỗ trợ đã ẩn danh, mã nguồn không có secret, bảng tính sau khi đã bỏ tên, ID và thông tin liên hệ | Chỉ dùng khi đã tối thiểu hóa dữ liệu, dùng công cụ được phê duyệt và kiểm tra cài đặt về huấn luyện, lưu trữ, quyền truy cập. |
| Đỏ | Mật khẩu, API key, token, thông tin đăng nhập, số giấy tờ tùy thân, dữ liệu tài khoản hoặc thuế, dữ liệu sức khỏe và bệnh nhân, danh sách đầy đủ khách hàng hoặc nhân viên, hợp đồng mật, tài liệu mua bán sáp nhập, số liệu tài chính chưa công bố, mã nguồn có secret hoặc tài sản trí tuệ cốt lõi | Không dán vào công cụ cá nhân chưa kiểm tra. Nếu thật sự phải xử lý, chỉ dùng môi trường Business, Enterprise hoặc API đã được phê duyệt và có chấp thuận nội bộ. |
Bảng này không phải tư vấn pháp lý. Nó là bộ lọc an toàn thực dụng. Nội dung càng dễ làm lộ danh tính cá nhân, khách hàng, nhân viên, bệnh nhân, hợp đồng hoặc hệ thống nội bộ, bạn càng nên chọn phương án thận trọng.
Vì sao ChatGPT tài khoản cá nhân cần đặc biệt cẩn trọng
Một cuộc trò chuyện trong ChatGPT không giống ghi chú lưu trên máy tính cá nhân. OpenAI nói User Content có thể chứa dữ liệu cá nhân và nêu rõ prompt cùng nội dung tải lên là ví dụ.[5]
Các Data Controls trong ChatGPT cho phép người dùng quyết định liệu cuộc trò chuyện và tương tác của họ có được dùng để cải thiện mô hình hay không.[9] Tắt tùy chọn này là một bước bảo vệ quan trọng. Nhưng nó không tự động biến dữ liệu nhạy cảm thành dữ liệu được phép nhập, vì đây chỉ là một phần của câu chuyện về quyền riêng tư, tuân thủ và bảo mật.
Temporary Chats, hay trò chuyện tạm thời, giúp giảm một số rủi ro. OpenAI mô tả loại chat này là không lưu trong lịch sử, không dùng cho Memory, không dùng để huấn luyện và sẽ bị xóa sau 30 ngày; tuy vậy, nội dung vẫn có thể được kiểm tra để giám sát lạm dụng.[9][
11] Vì thế, Temporary Chats không phải là giấy phép để đưa hợp đồng mật, dữ liệu khách hàng thật hoặc dữ liệu sức khỏe vào công cụ.
Business, Enterprise, Edu, Healthcare và API khác gì?
OpenAI phân biệt việc dùng cá nhân với các sản phẩm dành cho tổ chức. Theo OpenAI, Business Data là input và output từ ChatGPT Business, ChatGPT Enterprise, ChatGPT for Healthcare, ChatGPT Edu, ChatGPT for Teachers và API Platform.[7]
Với Business Data, OpenAI nói mặc định dữ liệu này không được dùng để huấn luyện.[7] OpenAI cũng cho biết với ChatGPT Business, ChatGPT Enterprise và API, họ có thể ký Data Processing Addendum, tức phụ lục xử lý dữ liệu, để hỗ trợ các yêu cầu của GDPR và các luật bảo vệ dữ liệu khác; với ChatGPT Edu và ChatGPT for Teachers, OpenAI dẫn chiếu Student Data Privacy Agreement.[
7] Ngoài ra, OpenAI công bố thông tin về quyền riêng tư dữ liệu kinh doanh, bảo mật, tuân thủ và chính sách lưu giữ dữ liệu cho Enterprise, Business, Edu, ChatGPT for Healthcare và API.[
6]
Tuy nhiên, có tài khoản doanh nghiệp không có nghĩa là dữ liệu nào cũng được đưa vào. Tổ chức vẫn cần kiểm tra mục đích xử lý, loại dữ liệu, phân quyền, thời hạn lưu trữ, chính sách nội bộ, hợp đồng với khách hàng và yêu cầu pháp lý hoặc ngành nghề liên quan.
8 câu hỏi nên trả lời trước khi tải dữ liệu lên AI
Trước khi nhập hoặc tải dữ liệu thật vào một công cụ AI, ít nhất hãy làm rõ các điểm sau:
- Công cụ này đã được bộ phận bảo mật, pháp chế và CNTT phê duyệt chưa?
- Nhà cung cấp có dùng prompt, tệp tải lên hoặc output để huấn luyện hay cải thiện mô hình không?
- Có tùy chọn opt-out hoặc điều khoản hợp đồng loại trừ việc dùng dữ liệu để huấn luyện không?
- Prompt, tệp tải lên và output được lưu trong bao lâu?
- Con người phía nhà cung cấp có thể xem nội dung vì hỗ trợ, bảo mật hoặc giám sát lạm dụng không?
- Ứng dụng bên thứ ba, connector, plugin hoặc bên xử lý phụ nào có thể truy cập dữ liệu?
- Có DPA, quyền quản trị, phân quyền theo vai trò, khả năng audit và quy tắc lưu giữ rõ ràng không?
- Chính sách nội bộ và hợp đồng bên ngoài có cho phép xử lý đúng loại dữ liệu này trong đúng công cụ này không?
Nếu không trả lời rõ được các câu hỏi trên, hãy dùng placeholder, đoạn trích đã ẩn danh hoặc dữ liệu tổng hợp.
Cách viết prompt an toàn hơn: tối thiểu hóa thay vì bê nguyên xi
Prompt an toàn nhất chỉ chứa phần thật sự cần cho nhiệm vụ. Nếu câu trả lời không cần tên, email, số điện thoại, địa chỉ, mã khách hàng, mã bệnh nhân, số hợp đồng hoặc định danh khác, hãy bỏ chúng ra trước.
Trường hợp khách hàng: Thay vì dán toàn bộ hồ sơ có tên, mã khách hàng và thông tin liên hệ, hãy thay bằng các placeholder như [KHÁCH_HÀNG], [MÃ_KHÁCH_HÀNG] và [NGÀY].
Bảng tính: Không tải lên toàn bộ danh sách khách hàng hoặc nhân viên. Hãy bỏ định danh trực tiếp và chỉ giữ những cột thật sự cần cho phân tích.
Mã nguồn: Không đưa API key, token, chứng chỉ riêng, mật khẩu hoặc thông tin truy cập môi trường thật vào prompt. Chỉ chia sẻ đoạn mã liên quan và thay giá trị cấu hình bằng placeholder.
Hợp đồng và tài chính: Nếu chỉ cần kiểm tra một điều khoản, mẫu diễn đạt hoặc cách viết, hãy dùng đoạn trích đã ẩn danh thay vì toàn bộ tài liệu.
Khi bắt buộc phải xử lý dữ liệu thật
Đôi khi dữ liệu dummy không đủ. Khi đó, nên đi theo thứ tự thận trọng:
- Làm rõ mục đích: Kiểm tra xem mô hình có thật sự cần dữ liệu thật không, hay chỉ cần một đoạn đã ẩn danh.
- Tối thiểu hóa dữ liệu: Chỉ dùng tập dữ liệu nhỏ nhất cần thiết.
- Gỡ định danh: Giảm tối đa các thông tin liên quan đến cá nhân, khách hàng, bệnh nhân và tổ chức.
- Xóa secret: Mật khẩu, token, API key và chứng chỉ riêng không thuộc về prompt.
- Chọn môi trường được phê duyệt: Với dữ liệu doanh nghiệp, nên dùng thiết lập Business, Enterprise hoặc API đã được kiểm tra; OpenAI mô tả các quy tắc riêng về quyền riêng tư doanh nghiệp, trong đó Business Data mặc định không được dùng để huấn luyện.[
7]
- Kiểm tra cài đặt và hợp đồng: Làm rõ việc dùng dữ liệu để huấn luyện, thời hạn lưu trữ, phân quyền, DPA và quy định lưu giữ trước khi dùng.[
6][
7][
9]
- Ghi lại việc sử dụng: Lưu vết công cụ, mục đích, loại dữ liệu, cài đặt và phê duyệt để có thể kiểm tra lại.
Kết luận ngắn
Không có câu trả lời chung kiểu cứ dùng ChatGPT là được hoặc tuyệt đối không dùng. Trong bối cảnh tài khoản cá nhân, prompt và nội dung tải lên có thể chứa dữ liệu cá nhân và được OpenAI mô tả là User Content.[5] Data Controls và Temporary Chats ảnh hưởng đến việc hội thoại có góp phần cải thiện mô hình, có nằm trong lịch sử hay có dùng cho Memory hay không; với Temporary Chats, OpenAI nói dữ liệu sẽ bị xóa sau 30 ngày nhưng vẫn có thể được kiểm tra để giám sát lạm dụng.[
9][
11]
Với ChatGPT Business, Enterprise, Edu, Healthcare và API, OpenAI nêu các quy tắc riêng, bao gồm việc mặc định không dùng Business Data để huấn luyện.[7] Nếu không chắc, nguyên tắc an toàn là: đừng dán dữ liệu đó vào. Hãy ẩn danh, dùng placeholder hoặc chuyển sang môi trường Business, Enterprise hay API đã được phê duyệt.




