Trước khi tải một tệp Excel, hợp đồng, công văn, bản ghi họp hay đoạn mã nguồn lên AI, đừng chỉ hỏi: “Công cụ này có an toàn không?”. Câu hỏi thực tế hơn là: nếu nội dung này lọt ra ngoài thì ai bị thiệt hại? Dịch vụ AI có giữ lại dữ liệu đầu vào không? Có dùng lại cho mục đích thương mại, cải thiện dịch vụ hay xử lý tiếp không? Ai có quyền truy cập? Cơ quan, công ty hoặc đơn vị của bạn có cho phép không? Nếu có sự cố, có truy ra được ai đã đưa dữ liệu nào lên không?
Khung quản trị rủi ro AI tạo sinh của NIST liệt kê nhiều hạng mục cần kiểm soát như nguồn gốc dữ liệu, bảo vệ dữ liệu, lưu trữ dữ liệu, sử dụng thương mại, lựa chọn rút khỏi, đánh giá tác động, ứng phó sự cố, giám sát và kiểm soát theo mức rủi ro. Tài liệu của EDPB về mô hình ngôn ngữ lớn cũng tập trung vào rủi ro quyền riêng tư và các biện pháp giảm thiểu khi dùng hệ thống LLM.[1][
2]
Trong bài này, “AI công khai” được hiểu là công cụ AI đám mây chưa được tổ chức của bạn phê duyệt, hoặc bạn chưa xác minh được các điều kiện quan trọng như lưu trữ dữ liệu, tái sử dụng đầu vào, quyền rút khỏi, phân quyền truy cập, giám sát và ứng phó sự cố. Điều này không có nghĩa mọi hệ thống AI đều bị cấm xử lý dữ liệu nhạy cảm. Vấn đề nằm ở chỗ: trước khi đưa dữ liệu thật vào, phải có câu trả lời có thể kiểm chứng về quản trị dữ liệu.[2]
Kết luận nhanh: chưa trả lời được thì đừng tải nguyên văn
Dữ liệu cá nhân có thể nhận diện, bí mật công ty và tài liệu nhà nước chưa công khai không nên được dán trực tiếp vào AI công khai. Ngay cả khi bạn chỉ muốn nhờ AI tóm tắt, dịch, viết lại, phân tích bảng tính hoặc sửa lỗi mã, phần nội dung đưa vào vẫn có thể làm lộ thông tin về cá nhân, khách hàng, quyết định nội bộ, tài khoản truy cập hoặc thông tin được bảo vệ. Cách an toàn hơn là rút gọn, che thông tin nhạy cảm, ẩn danh hóa, hoặc dùng môi trường đã được tổ chức phê duyệt.[1][
2]
Tiêu chí quan trọng không phải là tên nhà cung cấp AI, mà là bốn điểm: dữ liệu có nhạy cảm không; dịch vụ sẽ lưu và sử dụng dữ liệu thế nào; tổ chức của bạn có cho phép không; và nếu xảy ra sự cố thì có theo dõi, xử lý được không. NIST xem bảo vệ dữ liệu, lưu trữ dữ liệu, giám sát, ứng phó sự cố, lựa chọn rút khỏi và kiểm soát theo rủi ro là các hạng mục quản trị AI tạo sinh. Nếu những câu hỏi này chưa có đáp án, đừng tải bản gốc lên.[2]
Dữ liệu cá nhân, bí mật công ty, tài liệu nhà nước: phân loại thế nào?
| Loại dữ liệu | Nguyên tắc xử lý | Trước khi tải lên cần chắc chắn |
|---|---|---|
| Dữ liệu cá nhân | Không đưa nguyên văn thông tin có thể nhận diện một người. Nếu thật sự cần dùng AI, hãy tối thiểu hóa dữ liệu, che hoặc ẩn danh hóa trước, đồng thời kiểm tra điều khoản dịch vụ và quy định nội bộ. | EDPB xem rủi ro quyền riêng tư trong hệ thống LLM là một chủ đề riêng; NIST cũng đưa bảo vệ dữ liệu, lưu trữ dữ liệu, đánh giá tác động và giám sát vào quản trị AI tạo sinh.[ |
| Bí mật công ty | Không đưa vào công cụ AI công khai chưa được phê duyệt. Hợp đồng, danh sách khách hàng, hồ sơ thầu, tài liệu mua bán - sáp nhập, ý kiến pháp lý, mã nguồn, khóa truy cập và chứng thực đều nên được xem là rủi ro cao. | NIST đề cập các hạng mục như sử dụng thương mại, nguồn gốc dữ liệu, bảo vệ dữ liệu, lưu trữ dữ liệu, ứng phó sự cố, giám sát và phát triển phần mềm an toàn.[ |
| Tài liệu nhà nước | Phân biệt dữ liệu đã công khai, ít nhạy cảm, có thể tái sử dụng hợp pháp với công văn chưa công khai, tờ trình nội bộ, dự thảo chính sách, tài liệu điều tra hoặc thực thi. Nhóm sau không nên đưa vào AI công khai. | Báo cáo của JRC dành riêng phần thảo luận cho ứng dụng AI tạo sinh trong khu vực công; phụ lục của Nghị viện châu Âu cũng nêu ví dụ dùng dữ liệu Bundestag chính thức nhưng tránh thông tin cá nhân hoặc nhạy cảm.[ |
5 câu hỏi phải trả lời trước khi bấm tải lên
Chỉ cần một câu chưa rõ, hãy dừng lại và đừng đưa bản gốc vào AI công khai.
- Nội dung có chứa dữ liệu cá nhân hoặc thông tin nhạy cảm không? Nếu dữ liệu có thể nhận diện một người, hoặc tạo ra rủi ro quyền riêng tư, không nên dán nguyên văn. Tài liệu của EDPB tập trung chính vào rủi ro quyền riêng tư và cách giảm thiểu khi dùng hệ thống LLM.[
1]
- Dịch vụ có lưu đầu vào hoặc đầu ra không, và lưu trong bao lâu? NIST đưa lưu trữ dữ liệu vào danh mục quản trị rủi ro AI tạo sinh.[
2]
- Dữ liệu có bị dùng cho mục đích thương mại, xử lý lại hoặc cải thiện dịch vụ không? Có cơ chế rút khỏi không? NIST liệt kê sử dụng thương mại, bảo vệ dữ liệu, lưu trữ dữ liệu và lựa chọn rút khỏi như các hạng mục cần quản trị.[
2]
- Ai được dùng công cụ này, và hành vi sử dụng có được ghi nhận không? NIST đề cập tư cách người dùng, việc hạn chế sử dụng ẩn danh và giám sát; trong thực tế, tổ chức cần biết ai dùng, dùng để làm gì và đã đưa loại dữ liệu nào vào.[
2]
- Tổ chức đã có đánh giá tác động, ứng phó sự cố và kiểm soát theo rủi ro chưa? Đây đều là các nội dung được NIST nêu trong quản trị rủi ro AI tạo sinh.[
2]
Một dòng trong prompt như “hãy giữ bí mật” không phải là biện pháp an toàn. Điều cần xác minh là dữ liệu được lưu thế nào, ai có thể truy cập, có thể từ chối tái sử dụng hay không, khi có sự cố ai chịu trách nhiệm xử lý, và quy định của tổ chức có cho phép hay không.[2]
Danh sách xanh - vàng - đỏ trước khi dùng AI
Danh sách dưới đây chuyển các nguyên tắc về bảo vệ dữ liệu, lưu trữ dữ liệu và kiểm soát theo rủi ro thành cách kiểm tra hằng ngày. Đây không phải là tư vấn pháp lý; vẫn phải ưu tiên quy định về an toàn thông tin, pháp chế, bảo vệ dữ liệu cá nhân và quản lý văn bản của tổ chức bạn.[1][
2]
Xanh: có thể cân nhắc, nhưng vẫn phải đọc điều khoản
- Dữ liệu đã công khai, ít nhạy cảm và bạn có quyền sử dụng.
- Dữ liệu đã được ẩn danh hóa, bỏ các trường nhạy cảm hoặc viết lại thành bản tóm tắt sao cho không thể hợp lý suy ra cá nhân, khách hàng, vụ việc hoặc bí mật nội bộ.[
1]
- Mô tả vấn đề chỉ giữ bối cảnh cần thiết, thay vì tải cả hợp đồng, công văn, bảng khách hàng hoặc toàn bộ kho mã nguồn.[
2]
Lưu ý: “đã công khai” không đồng nghĩa với “không còn rủi ro”. Nếu tài liệu công khai vẫn chứa dữ liệu cá nhân hoặc thông tin nhạy cảm, vẫn phải xử lý theo nguyên tắc quyền riêng tư và bảo vệ dữ liệu.[1]
Vàng: hãy viết lại, che bớt hoặc đi theo quy trình phê duyệt
- Tài liệu có thông tin về khách hàng, nhân viên, nhà cung cấp, đương sự, người dân hoặc bên liên quan.[
1]
- Dự thảo hợp đồng, số liệu tài chính, slide nội bộ, biên bản họp, ý kiến pháp lý hoặc dự thảo chính sách.[
2]
- Mã nguồn, tài liệu kỹ thuật, sơ đồ kiến trúc hệ thống, nhất là phần có thể chứa khóa truy cập, chứng thực hoặc thông tin về lỗ hổng; NIST đưa phát triển phần mềm an toàn và kiểm soát theo rủi ro vào quản trị AI tạo sinh.[
2]
- Văn bản nội bộ của cơ quan nhà nước, công văn chưa công khai, tờ trình, hồ sơ đánh giá, tài liệu lựa chọn nhà thầu hoặc tài liệu phối hợp liên cơ quan; khi khu vực công dùng AI tạo sinh vẫn phải xử lý rủi ro về dữ liệu cá nhân và thông tin nhạy cảm.[
3][
11]
Nhóm dữ liệu này không nhất thiết là “không bao giờ được dùng với AI”. Nhưng không nên đưa chúng vào AI công khai khi chưa có phê duyệt, quy tắc lưu trữ, cơ chế giám sát và phương án ứng phó sự cố.[2]
Đỏ: không đưa vào AI công khai
- Dữ liệu bị cấm chia sẻ ra ngoài theo luật, hợp đồng hoặc quy định nội bộ.
- Tài liệu mật, hoặc nội dung liên quan đến an ninh, điều tra, thực thi, đánh giá thầu hay các lĩnh vực có độ nhạy cảm cao.
- Mật khẩu, API key, khóa riêng, chứng chỉ, token truy cập hoặc bất kỳ thông tin nào có thể dùng để đăng nhập hay xâm nhập hệ thống.
- Dữ liệu mà bạn không xác minh được nguồn gốc, quyền sử dụng, điều kiện lưu trữ, xóa bỏ và tái sử dụng.[
2]
Ẩn danh hóa không chỉ là xóa tên
Xóa tên chưa đủ. Số giấy tờ tùy thân, số điện thoại, email, địa chỉ, tài khoản, mã hồ sơ, chức danh hiếm gặp, hoặc tổ hợp ngày - địa điểm - sự kiện vẫn có thể chỉ về một người hoặc một vụ việc cụ thể. Một trong những trọng tâm của tài liệu EDPB là rủi ro quyền riêng tư trong hệ thống LLM và các biện pháp giảm thiểu; vì vậy, trước khi tải lên, cần bỏ hoặc viết lại cả thông tin định danh trực tiếp lẫn các chi tiết có thể suy ngược.[1]
Cách làm an toàn hơn là dùng ký hiệu thay cho tên thật và tên công ty; chỉ đưa đoạn cần thiết; biến tài liệu gốc thành tình huống trừu tượng; tổng hợp danh sách hoặc bảng dữ liệu trước khi hỏi AI; và nếu bắt buộc phải xử lý nguyên văn, hãy dùng công cụ và quy trình đã được tổ chức phê duyệt.[1][
2]
Tài liệu nhà nước: đừng trộn dữ liệu công khai với hồ sơ nội bộ
Việc khu vực công dùng AI tạo sinh không phải chỉ có hai lựa chọn “cấm hoàn toàn” hoặc “mở hoàn toàn”. Báo cáo Generative AI Outlook của JRC dành riêng phần cho ứng dụng AI tạo sinh trong khu vực công; một phụ lục của Nghị viện châu Âu cũng nêu trường hợp sử dụng dữ liệu chính thức của Bundestag và tránh dữ liệu cá nhân hoặc nhạy cảm.[3][
11]
Thông thường, nhóm có thể cân nhắc là dữ liệu chính thức đã công khai, ít nhạy cảm và có thể sử dụng hợp pháp. Nhóm cần cực kỳ thận trọng là công văn chưa công khai, tờ trình nội bộ, dự thảo chính sách, tài liệu điều tra, tài liệu thực thi, hồ sơ đánh giá thầu và mọi văn bản có dữ liệu cá nhân hoặc thông tin nhạy cảm. Nhóm đầu vẫn phải kiểm tra điều kiện sử dụng; nhóm sau không nên đưa thẳng vào AI công khai.[1][
2][
3]
Quy tắc ngắn gọn nhất
Nếu việc rò rỉ dữ liệu có thể gây hại cho cá nhân, tổ chức, lợi ích công hoặc tình trạng tuân thủ, đừng đưa bản gốc vào AI công khai. Hãy che thông tin, tóm tắt, tối thiểu hóa dữ liệu trước. Nếu nhiệm vụ thật sự cần xử lý nguyên văn, hãy đi theo quy trình phê duyệt và công cụ được kiểm soát, đồng thời xác nhận rõ cơ chế bảo vệ dữ liệu, lưu trữ, phân quyền truy cập, giám sát và ứng phó sự cố.[1][
2]




