Sebelum mengunggah file, tabel, kontrak, surat dinas, atau potongan kode ke AI, pertanyaannya bukan hanya: apakah AI ini aman? Pertanyaan yang lebih tepat adalah: kalau data ini bocor, siapa yang dirugikan? Apakah layanan menyimpan input dan output? Apakah data dipakai lagi untuk tujuan komersial atau peningkatan layanan? Siapa yang bisa mengaksesnya? Apakah kantor atau organisasi Anda mengizinkan? Dan kalau terjadi masalah, apakah penggunaan itu bisa ditelusuri?
Kerangka manajemen risiko AI generatif dari NIST, lembaga standar dan teknologi Amerika Serikat, memasukkan asal-usul data, perlindungan data, retensi data, penggunaan komersial, opsi opt-out, penilaian dampak, respons insiden, pemantauan, dan kontrol berbasis risiko sebagai bagian dari tata kelola. Dokumen EDPB, otoritas perlindungan data Eropa, juga membahas risiko privasi dan mitigasi pada sistem large language model atau LLM.[1][
2]
Dalam artikel ini, istilah AI publik umum berarti alat AI berbasis cloud yang belum disetujui organisasi Anda, dan yang ketentuan penyimpanan data, penggunaan komersial, pemrosesan ulang, opsi opt-out, hak akses, pemantauan, serta respons insidennya belum Anda pastikan. Ini bukan berarti semua AI dilarang untuk data sensitif. Intinya: harus ada jawaban tata kelola data yang jelas dan dapat diverifikasi terlebih dahulu.[2]
Jawaban singkat: jika tidak tahu aturannya, jangan unggah dokumen asli
Data pribadi yang dapat mengidentifikasi seseorang, rahasia perusahaan, dan dokumen pemerintah yang belum dipublikasikan sebaiknya tidak ditempelkan langsung ke AI publik umum. Walaupun tujuannya hanya meringkas, menerjemahkan, memperbaiki kalimat, atau membantu debugging, input tetap bisa membocorkan identitas, data pelanggan, keputusan internal, kredensial, atau informasi yang dilindungi. Pilihan yang lebih aman adalah membuat ringkasan yang sudah disamarkan, menghapus kolom sensitif, atau memakai lingkungan AI yang sudah disetujui dan dikendalikan organisasi.[1][
2]
Patokan paling aman bukan nama produknya, melainkan empat hal: apakah datanya sensitif, bagaimana layanan menyimpan atau menggunakan data, apakah organisasi secara jelas mengizinkan, dan apakah insiden bisa ditelusuri serta ditangani. NIST memasukkan perlindungan data, retensi data, pemantauan, respons insiden, opsi opt-out, dan kontrol berbasis risiko sebagai elemen tata kelola AI generatif. Jika syarat-syarat itu belum terjawab, jangan unggah naskah atau file aslinya.[2]
Cara menilai: data pribadi, rahasia perusahaan, dan dokumen pemerintah
| Jenis data | Prinsip praktis | Yang perlu dipastikan sebelum mengunggah |
|---|---|---|
| Data pribadi | Jangan langsung mengunggah dokumen asli yang bisa mengidentifikasi orang. Jika benar-benar perlu, lakukan minimisasi data, penyamaran, atau de-identifikasi, lalu pastikan syarat layanan dan aturan organisasi mengizinkan. | EDPB membahas risiko privasi dan mitigasi pada LLM sebagai isu khusus; NIST juga memasukkan perlindungan data, retensi data, penilaian dampak, dan pemantauan ke tata kelola AI generatif.[ |
| Rahasia perusahaan | Jangan unggah ke AI publik yang belum disetujui. Kontrak, daftar pelanggan, dokumen tender, rencana merger atau akuisisi, dokumen hukum, source code, key, dan kredensial perlu diperlakukan sebagai data berisiko tinggi. | Kerangka NIST mencakup penggunaan komersial, asal-usul data, perlindungan data, retensi data, respons insiden, pemantauan, dan praktik pengembangan perangkat lunak yang aman.[ |
| Dokumen pemerintah | Pisahkan data yang sudah dipublikasikan, rendah sensitivitas, dan memang boleh digunakan ulang dari surat dinas yang belum terbuka, nota internal, rancangan kebijakan, data investigasi, atau data penegakan hukum. Kelompok kedua tidak semestinya dimasukkan ke AI publik umum. | Laporan JRC Komisi Eropa membahas penggunaan AI generatif di sektor publik sebagai bidang tersendiri; ringkasan kasus dalam lampiran Parlemen Eropa juga menyebut penggunaan data resmi Bundestag, parlemen federal Jerman, sambil menghindari informasi pribadi atau sensitif.[ |
Lima pertanyaan sebelum menempel data ke AI
Jika satu saja belum bisa dijawab, tunda dulu pengunggahan dokumen asli ke AI publik umum.
- Apakah isinya memuat data pribadi atau informasi sensitif? Jika data bisa mengarah ke orang tertentu, atau menimbulkan risiko privasi, jangan langsung tempel dokumen aslinya. Dokumen EDPB memang berfokus pada risiko privasi dan mitigasi dalam sistem LLM.[
1]
- Apakah layanan menyimpan input atau output? Berapa lama? NIST memasukkan retensi data sebagai salah satu unsur manajemen risiko AI generatif.[
2]
- Apakah data dapat dipakai secara komersial, diproses ulang, atau digunakan untuk memperbaiki layanan? Apakah ada opsi opt-out? NIST mencantumkan penggunaan komersial, perlindungan data, retensi data, dan opsi opt-out sebagai aspek tata kelola.[
2]
- Siapa yang boleh memakai alat itu, dan apakah aktivitasnya bisa diaudit? NIST menyebut kualifikasi pengguna, pencegahan penggunaan anonim, dan pemantauan; dalam praktiknya, organisasi perlu tahu siapa memakai alat apa, untuk tujuan apa, dan dengan data apa.[
2]
- Apakah organisasi sudah menyiapkan penilaian dampak, respons insiden, dan kontrol berbasis risiko? Semua ini termasuk dalam dokumen manajemen risiko AI generatif NIST.[
2]
Jangan menganggap kalimat seperti ‘tolong rahasiakan’ di prompt sebagai kontrol keamanan. Yang perlu dipastikan adalah bagaimana data disimpan, siapa yang dapat mengakses, apakah pemakaian ulang bisa ditolak, siapa yang menangani jika terjadi insiden, dan apakah organisasi Anda mengizinkannya.[2]
Daftar hijau-kuning-merah: mana yang boleh, mana yang sebaiknya ditahan?
Daftar ini menerjemahkan prinsip perlindungan data, retensi data, dan kontrol berbasis risiko ke keputusan sehari-hari. Ini bukan nasihat hukum; tetap ikuti aturan keamanan informasi, hukum, perlindungan data pribadi, dan tata naskah atau arsip di organisasi Anda.[1][
2]
Hijau: bisa dipertimbangkan, tetapi tetap cek ketentuannya
- Data yang sudah terbuka untuk publik, rendah sensitivitas, dan Anda yakin berhak menggunakannya.
- Data yang sudah dide-identifikasi, kolom sensitifnya dihapus, atau sudah diubah menjadi ringkasan sehingga tidak masuk akal lagi untuk ditarik kembali ke individu, pelanggan, perkara, atau rahasia internal tertentu.[
1]
- Deskripsi masalah yang hanya berisi konteks seperlunya, bukan keseluruhan kontrak, surat dinas, tabel pelanggan, atau repositori kode.[
2]
Namun, publik bukan berarti tanpa risiko. Jika data yang terbuka tetap memuat data pribadi atau informasi sensitif, perlakukan tetap sebagai isu privasi dan perlindungan data.[1]
Kuning: samarkan, ringkas, atau minta persetujuan dulu
- Data yang memuat informasi pelanggan, karyawan, pemasok, pihak dalam perkara, warga, atau pemohon layanan.[
1]
- Draf kontrak, data keuangan, presentasi internal, notulen rapat, pendapat hukum, atau rancangan kebijakan.[
2]
- Source code, dokumen teknis, dan diagram arsitektur sistem, terutama jika mungkin berisi key, kredensial, token, atau informasi celah keamanan. NIST memasukkan pengembangan perangkat lunak yang aman dan kontrol berbasis risiko ke tata kelola AI generatif.[
2]
- Dokumen internal instansi pemerintah, surat dinas yang belum dipublikasikan, nota atau disposisi internal, dokumen penilaian tender, atau dokumen kerja lintasinstansi. Penggunaan AI generatif di sektor publik tetap perlu mengelola risiko informasi pribadi atau sensitif.[
3][
11]
Data kuning tidak selalu berarti haram diproses AI. Masalahnya adalah data itu tidak boleh dilempar ke AI publik umum tanpa persetujuan, aturan retensi, pemantauan, dan mekanisme respons insiden yang jelas.[2]
Merah: jangan unggah ke AI publik umum
- Data yang dilarang keluar oleh hukum, kontrak, atau kebijakan internal.
- Dokumen berklasifikasi rahasia, atau data yang menyangkut keamanan nasional, penegakan hukum, investigasi, evaluasi pengadaan, atau isu sangat sensitif lainnya.
- Kata sandi, API key, private key, sertifikat, access token, atau informasi apa pun yang bisa dipakai untuk masuk ke sistem.
- Data yang sumber, izin penggunaan, retensi, penghapusan, dan pemakaian ulangnya tidak bisa Anda pastikan.[
2]
De-identifikasi bukan sekadar menghapus nama
Menghapus nama saja sering tidak cukup. Nomor identitas, nomor telepon, alamat email, alamat rumah, nomor rekening, nomor perkara, jabatan yang sangat spesifik, atau kombinasi tanggal dan lokasi masih bisa mengarah ke orang atau kasus tertentu. Karena salah satu fokus utama dokumen EDPB adalah risiko privasi dan mitigasi pada sistem LLM, informasi pengenal, detail yang bisa ditelusuri balik, dan kolom yang tidak diperlukan sebaiknya dihapus atau diubah sebelum data dipakai.[1]
Cara yang lebih aman: ganti nama orang dan perusahaan dengan label umum, berikan hanya potongan yang diperlukan, ubah dokumen asli menjadi skenario abstrak, agregasikan tabel atau daftar, dan bila benar-benar perlu memproses dokumen asli, gunakan alat serta proses yang sudah disetujui organisasi.[1][
2]
Dokumen pemerintah: pisahkan data terbuka dari dokumen internal
Untuk sektor publik, pertanyaannya bukan sekadar boleh atau tidak boleh memakai AI. Laporan Generative AI Outlook dari JRC, pusat riset Komisi Eropa, memasukkan penggunaan AI generatif di sektor publik sebagai area pembahasan khusus. Lampiran studi Parlemen Eropa juga memuat contoh penggunaan data resmi Bundestag sambil menghindari data pribadi atau sensitif.[3][
11]
Yang biasanya lebih mungkin dipertimbangkan adalah data resmi yang sudah terbuka, rendah sensitivitas, dan memang boleh digunakan menurut ketentuan yang berlaku. Yang perlu diperlakukan jauh lebih konservatif adalah surat dinas yang belum dipublikasikan, nota internal, rancangan kebijakan, data investigasi, data penegakan hukum, dokumen evaluasi pengadaan, serta dokumen apa pun yang memuat data pribadi atau informasi sensitif. Kelompok pertama tetap perlu dicek syarat penggunaannya; kelompok kedua tidak semestinya langsung dimasukkan ke AI publik umum.[1][
2][
3]
Aturan paling sederhana
Jika kebocoran data dapat merugikan individu, organisasi, kepentingan publik, atau kepatuhan hukum, jangan serahkan dokumen aslinya ke AI publik umum. Samarkan, ringkas, dan minimalkan data terlebih dahulu. Jika pekerjaan benar-benar membutuhkan dokumen asli, gunakan proses yang disetujui dan alat yang terkendali, lalu pastikan perlindungan data, retensi data, hak akses, pemantauan, dan respons insiden sudah tersedia.[1][
2]




