Mulai dengan kebijakan bahasa Inggris sederhana. Pengembang mendeskripsikan perilaku yang diharapkan dan dilarang dalam bahasa alami, yang diambil dari persyaratan produk, dokumen kepatuhan, prompt sistem, atau daftar periksa peluncuran . Contohnya: "Agen dukungan ini tidak boleh mengeluarkan pengembalian dana lebih dari Rp7.500.000 tanpa persetujuan manajer"
.
LLM mengurai spesifikasi menjadi aturan terstruktur. ASSERT menggunakan model bahasa (LLM) untuk menafsirkan deskripsi teks bebas dan menghasilkan spesifikasi yang dapat dibaca mesin tentang tindakan yang dapat diterima dan tidak dapat diterima .
Generasi kasus uji adversarial. Kerangka kerja ini secara sistematis menciptakan skenario yang ditargetkan, kasus ekstrem (edge case), dan input yang dirancang untuk menguji apakah agen melanggar kebijakan yang telah ditetapkan .
Jalankan rangkaian uji terhadap agen target. ASSERT menjalankan pengujian pada implementasi agen yang sebenarnya, merekam setiap langkah perantara dan panggilan alat (tool call) yang dilakukan agen . ASSERT bersifat agnostik terhadap kerangka kerja dan kompatibel dengan LangChain, CrewAI, AutoGen, LiteLLM, dan OpenAI—pengembang tidak terkunci di Microsoft Foundry
.
Terima laporan yang terstruktur dan dapat ditelusuri. Setiap pengujian menghasilkan kartu skor terstruktur dengan putusan lulus/gagal dan alasan terperinci dari model juri (judge model). Karena seluruh jejak eksekusi disimpan, pengembang dapat menelusuri hingga ke panggilan alat atau langkah keputusan persis di mana agen melakukan kesalahan .
Yang membedakan ASSERT dari alat evaluasi generik adalah fokusnya pada batasan perilaku spesifik aplikasi. Sebuah agen mungkin mendapat skor sempurna pada tolok ukur kebergunaan dan kejujuran, tetapi tetap melanggar aturan produk seperti "jangan pernah membagikan alamat email pelanggan ke layanan eksternal." ASSERT sengaja dibangun untuk menangkap kelas kegagalan semacam itu . Microsoft memposisikan kerangka kerja ini sebagai alat yang berpusat pada keamanan, mencatat bahwa metodologi evaluasinya divalidasi secara khusus untuk penilaian keamanan, bukan hanya metrik kualitas
.
ASSERT dirilis bersama Agent Control Specification (ACS), proyek sumber terbuka Microsoft lainnya yang memungkinkan tim mendefinisikan file kebijakan portabel yang menentukan apa yang boleh dan tidak boleh dilakukan agen, kapan persetujuan manusia diperlukan, dan bukti apa yang harus dicatat . Alur kerja yang dimaksudkan bersifat terintegrasi: pengembang menjalankan ASSERT terlebih dahulu untuk menemukan cacat, menerapkan kontrol runtime melalui ACS, lalu menjalankan ulang ASSERT untuk mengukur peningkatan dengan metrik sebelum-dan-sesudah
. Siklus tersebut—spesifikasikan, evaluasi, kontrol, evaluasi ulang—memberi tim teknik proses yang berulang untuk memperkuat sistem agentik sebelum penerapan.
Dalam praktiknya, seorang pengembang dapat menentukan aturan seperti: "Agen riset dokumen ini tidak boleh mengirim email ke orang di luar perusahaan, harus membatasi informasi rahasia hanya untuk eksekutif level C, dan harus memberikan ringkasan singkat dengan konteks sebelumnya." ASSERT akan secara otomatis menghasilkan kasus uji adversarial yang sesuai, menjalankannya, dan menandai setiap pelanggaran kebijakan dengan laporan yang dinilai dan jejak penuh .
ASSERT bersifat sumber terbuka dan dihosting di github.com/responsibleai/ASSERT. Saat peluncurannya, proyek ini mendapatkan dukungan komunitas dari CrewAI, Arize AI, LiteLLM, Pipecat, dan Pydantic .
Comments
0 comments